第25期前沿技术论坛-大模型与医学数据

2024.11.18

第25期前沿技术论坛于2023年11月14日在中国中医科学院医学实验中心成功举办，会议主题为“大模型与医学数据”。本次论坛由医学实验中心主任樊新荣研究员致辞，汪南玥研究员主持，邀请了来自原贝尔实验室基础科学研究院（中国）的黄大威教授、清华大学计算机系许斌研究员、中科院计算所赵屹研究员、北京交通大学任爽副教授为我们做了精彩报告，分享这一领域的研究成果。论坛采用网络直播形式，报告内容丰富多样，既有理论研究，又有实践案例分享，近一万名与会人员线上参会。本次论坛还设置了提问环节，线上参会者积极参与提问和讨论，专家们耐心解答了观众们的问题，并提供了可操作性很强的见解和经验分享，为与会者提供了宝贵的学习和交流机会，获得了热烈的反响。

图1医学实验中心主任樊新荣主任医师为论坛致辞

图2医学实验中心四诊信息研究室副主任汪南玥研究员主持论坛

中医药作为中华民族的瑰宝，源远流长，博大精深。在新时代背景下，我们更应该紧密结合现代科技，将中医药发扬光大，造福人类健康。大模型与医学数据的结合，正是我们在这个时代背景下，为中医药发展注入新的活力和动力的重要途径。随着科技的飞速发展，大数据、人工智能等技术已经深入到各个领域。在医学领域，大模型与医学数据的结合，为我们提供了前所未有的可能性。通过对海量医学数据的挖掘和分析，我们可以更深入地了解疾病的发病机制，为中医药的临床应用提供更加精准的依据。同时，大模型的应用也有助于提高中医药的研发效率，推动中医药现代化进程。

本次论坛主题围绕大模型与医学数据方面邀请国内专家为我们阐述其在相关领域的最新成果和实践经验。

第一位报告专家是原贝尔实验室基础科学研究院（中国）的黄大威教授。黄大威，教授级高工，前美国朗讯科技贝尔实验室中国基础科学研究院执行总监。曾兼任中国中医科学院客座研究员，中国科学院系统科学研究所访问研究员，清华大学信息技术研究院指导委员会委员。在中医复杂性数据的客观分析方面具有良好的基础与背景，将为中医四诊客观化研究的提供技术支持。

黄大威教授系统的回顾了大模型的意义与欠缺，简单介绍了数字化的四诊设备现状，并提出构建基于大语言模型和中医四诊客观诊断设备辅助决策平台的设想。大语言模型的出现，使得人机交流大为改善，但要与专业结合，建议使用一种动态对话树的接口，来构建如下的中医问诊平台：利用大语言模型对话询问患者病症，穿插数字化望闻切诊断，综合两者后根据中医辅助系统演绎出病理证候，最后给出治疗方案。基于大语言模型和中医四诊客观化设备的中医智能辅助决策系统是解决中医人才培养、中医远程诊疗、中医诊疗水平地区分布不均、家庭端个性化医疗养生的有效工具。引起了与会者的广泛关注和讨论，大家纷纷表示期待这样的平台能够尽早落地应用。

图3黄大威教授作会议报告

第二位邀请的专家是清华大学计算机系许斌研究员。许斌，清华大学计算机系研究员，博士生导师，国家“万人计划”科技创新领军人才。曾任清华大学全球创新学院副院长，现任中国计算机学会计算机应用专委会主任。主要从事人工智能、知识图谱和大模型方面的研究，主持多项国家科研项目，担任中国计算机学会第38届中国计算机应用大会主席，是科技情报挖掘与服务系统AMiner与国产大模型ChatGLM的主要研制人之一。先后获得国家科技进步二等奖、中国人工智能学会科技进步一等奖、北京市科技进步一等奖等多个奖项。

许斌研究员系统的讲述了预训练大模型（生成式AI时代的基座）ChatGLM的研究进展，带领我们解读了Stanford报告的世界主流大模型的评测，ChatGLM是一系列由清华大学开发的国产大模型之一，其中千亿GLM-130B是可与GPT-3对标的开源数据模型，是中国唯一入选模型，其准确性、恶意性与GPT-3持平，鲁棒性和校准误差在所有模型中表现最佳，同时可以同步处理图片和文字等多模态信息的大模型开源基座也已经诞生。许教授在介绍ChatGLM系列模型在不同领域进展的基础上，介绍了基于GLM大模型的数字中医的应用与成果，结合标准的中医古籍、教材、诊疗记录等数据，实现中医智能问答、辅助诊疗等，为医药领域的研究和应用提供参考和启示。这些应用展示了大模型在提高医疗效率等方面的潜力，引起了与会者的高度关注。

图4许斌研究员作会议报告

第三位邀请的专家是中科院计算所赵屹研究员。赵屹，中科院计算所研究员、博导，四川大学华西医院特聘教授，湘雅二院特聘教授，天津肿瘤医院特聘教授。从事多组学数据、临床数据挖掘及人工智能算法研究。European Research Council非编码基因领域基金评审人；国际RNA联盟中方专家成员；Frontiers in genetics(影响因子4.1)编委，Frontiers in Plant Science(影响因子3.678)编委；Genomics Protomeics Bioinformatics(影响因子7.8)编委；Cancers(影响因子6.6)，Biology(影响因子5.1)杂志Topic Editor-in-Chief；高校教材《分子诊断学》第3/4版编委；中国人口学会出生人口与儿童专业委员会副主任委员；中国人工智能学会生物信息学与人工生命专业委员会委员；中华医学会心血管病学分会精准心血管病学学组委员。

赵屹研究员系统的介绍了HERB数据库和基于多组学智能计算的Deep Omix开源大模型平台，为医药领域复杂维度的数据分析和中医复杂作用机理研究提供了有效的平台和高质量的研究指导。HERB数据库是一个专门针对中药的高通量科学实验和参考数据库，旨在为中医药现代化和现代药物发现提供数据支持。传统上，评估活性分子效应通常使用细胞模型和动物模型进行功能试验，当前已经可以通过高通量技术来识别治疗或扰动作用来研究整个转录组的变化。CMap是此类最大的现代药物数据库，包括转录组水平的扰动数据集，该数据集包含九个细胞系及上万个具有良好注释的小分子的扰动前后转录组数据。此外，还有其他类似的数据可从国际公开发表的数据库中获得，例如GEO。最近，这种转录组学效应数据集的应用爆炸式增长，已经改变了药理学领域，能帮助研究人员迅速找到治疗疾病的潜在化合物。HERB数据库对1037个中药/成分的高通量实验评估的6164个基因表达谱进行了重新分析，并通过将HERB中完整的药理转录组学数据集映射到CMap，建立了中药/成分与2837种现代药物之间的联系。HERB数据库将为中医药现代药物发现的药理研究提供有力的数据支持，并有助于全面了解化合物的分子效应，从而有助于候选药物筛选和药物发现。此外，利用这些大数据，结合当前快速发展的人工智能模型，是的通过模型来预测药物功能、药物重定位成为可能。

图5赵屹研究员作会议报告

第四位邀请专家是来北京交通大学计算机与信息技术学院任爽副教授。任爽，北京交通大学计算机与信息技术学院博士生导师，兼任中国机电一体化技术应用协会数字孪生分会秘书长、中国运筹学会智能计算分会常务理事、中国职业安全健康协会应急产业服务分会副秘书长、信息技术新工科产学研联盟虚拟现实教育工委会常务委员、中国图学学会网络图形学专委会委员、中国指挥与控制学会城市大脑专委会委员、中国卫星导航定位协会北斗与元宇宙融合应用专委会智库专家、北京物联网智能技术应用协会智库专家。

任爽副教授讲解了医学人工智能应用与数据挖掘的相关研究，从人工智能医疗器械申报与人工智能软件技术审评的角度，介绍了医学人工智能应用在数据挖掘不同阶段的要求与注意事项。任教授分享了医学人工智能在疾病预测、影像诊断、药物发现等方面的应用案例，并介绍针对医学大量多模态数据的处理、模型训练等方面的具体方法与步骤，同时还涉及如何处理医学数据隐私保护、算法可解释性等问题，以及如何评估人工智能应用和数据挖掘技术的可靠性和有效性，让与会者了解到了医学人工智能和数据挖掘在医学领域中的巨大潜力。

图6任爽副教授作会议报告

第25期前沿技术论坛“大模型与医学数据”圆满闭幕，四位不同领域交叉学科的专家为我们展示了其在“大模型与医学数据”领域的最新成果和研究思路，为与会者们提供了良好的学习和交流的平台。不仅让大家了解了大模型与医学数据的最新研究进展，还为中医药领域与大模型中的应用提供了有力的技术平台和引导，促进了学术界和产业界的合作与交流。相信在不久的将来，我们将产出更多中医药结合大模型的研究成果，逐渐应用于实际临床工作中，为中医药的发展做出更大的贡献。

作者：汪南玥刘佳