GPT还是GLM大模型应用于中医药现代化的机遇与挑战.pdf
《GPT还是GLM大模型应用于中医药现代化的机遇与挑战.pdf》由会员分享,可在线阅读,更多相关《GPT还是GLM大模型应用于中医药现代化的机遇与挑战.pdf(5页珍藏版)》请在咨信网上搜索。
1、中国药理学与毒理学杂志2023年9月第37卷增刊1Chin J Pharmacol Toxicol,Vol 37,Suppl 1,Sep 2023药理学评价方法指南,走出了中医药原创研究引领交叉学科国际发展的关键一步,该指南同时入选了中华中医药学会“2021中医药十大学术进展”,标志着中医药国际标准化有了新的进展,网络药理学有了参考规范,为促进中医药现代化、国际化做出了重要贡献。2022年,网络药理学 中英文专著的出版,进一步有力地推动了网络药理学学科发展,为中医药原理解读、中药研发、临床用药以及相关人才培养方面提供更多更好地助力,助力中医药事业、产业高质量发展。在此基础上,结合中药研发、中药
2、防病治病的重大实际需求,积累更多成功范例,制定良好规范,有望促进网络药理学健康持续发展,助力中医药守正创新、自主创新。关键词:网络药理学;学科发展;深化研究;标准与规范通讯作者:李 梢,中国药理学会网络药理学专业委员会副主任委员,清华大学长聘教授、北京市中医药交叉研究所所长、国家杰青、国家万人计划领军人才,E-mail:W1-5网络药理学研究发展的问题和对策苏式兵(上海中医药大学,上海 201203)摘要:近年来,以整体、系统为特征的网络药理学在中医药的研究发展中发挥了重要作用,开展了中药及其复方的多成分、多靶标和多效应的研究,并在预测药物靶标、药效机制、毒理和治疗适应疾病、了解药物和疾病的生
3、物学基础以及寻找疾病、证候和中药质量控制的标志物等方面取得了许多成果,并制订了网络药理学研究的指南。然而,网络药理学的发展存在诸多问题尚待解决,例如,网络药理学的理论及学科内涵和外延尚不清楚,现有技术和方法对发现新化合物和新靶标的能力不足,所依赖数据库的准确性、适应性和可靠性有待提高,缺少中药化合物的剂量、比例和联合作用于靶标效应的定量综合分析技术和方法,缺少多成分、多靶标和多效应的高通量验证技术和方法,以及研究存在质量参差不齐、缺乏标准数据等问题。今后的发展需要进一步提出网络药理学的理论,界定学科的内涵和外延;升级管理并综合利用好各种网络药理学相关数据库,深入研究开发新一代中医药数据库;加强
4、开发并引入相关能够自我学习和自主识别的人工智能技术,为发现新化合物及其靶标作用提供有效的工具;开发定量的网络药理学分析技术和方法和多分子、多靶标/非靶标之间相互关系的高通量分析和验证技术,为促进网络药理学的发展、进一步开展中医药网络药理学研究提供新技术新方法和规范标准。关键词:网络药理学;发展;对策作者简介:苏式兵,研究员,中国药理学会网络药理学专业委员会委员,E-mail:W1-6GPT还是GLM?大模型应用于中医药现代化的机遇与挑战王泰一1,靳 擎2,范梦月1,管飞诗1,李大平1,陈永君1(1.山东中医药大学中医药创新研究院,山东 济南250355;2.Northwestern Insti
5、tute on ComplexSystems,Northwestern University,Evanston,IL,USA)摘要:自从 2017 年 Transformer 架构发布以来,以大语言模型(large language model,LLM)为代表的大模型(foundation model,基础模型)得到了蓬勃发展。2023年3月14日发布的ChatGPT4的走红更是让生成式人工智能(AI)在一夜之间为世人所关注,与以往的版本相比,它除了正确度提高了40%,具备整理和搜寻线上资讯功能,还支持视觉输入、具有图像辨识等多种能力。以大模型为基础的生成式AI已在包括医学的许多行业展现出颠覆
6、式创新的巨大潜力,已在医学成像与诊断领域发挥了重要的作用。作为医学领域中的一员,中医药领域同样在竭力推进现代化研究,随着与大数据、云计算、物联网、人工智能等新技术深度融合,中医药的现代化走上新赛道。但由于人类的机体是一个高度复杂的系统,呈现极强的鲁棒性与自组织性;而中医治疗采用的复方中药同样是高度复杂的系统,表现在药物化学、代谢、分布等多种层面;同时传统的中医理论体系复杂,中药质量控制难度高,中药及方剂的药理机制基础研究不足等挑战,中医药的现代化之路仍有巨大的困局待解。以复杂性科学的视角分析,中医药的诊疗实质上可以看作一个复杂系统对另一个复杂系统的控制过程。它应用一种药物复杂系统对另一个生命复
7、杂系统进行“合理的”调控,使后者从疾病状态下的“稳态”向健康状态的“稳态”迁移,其复杂程度远远高于经典药理学的研究对象。伴随着计算机领 5中国药理学与毒理学杂志2023年9月第37卷增刊1Chin J Pharmacol Toxicol,Vol 37,Suppl 1,Sep 2023域的发展,中医诊疗研究进入了新进程1-2。一直以来,中医诊、疗的现代化研究相对独立:对于中药治疗的研究遵循“方剂-中药-组分-靶标”的思路发现药理机制,而在诊断上往往沿着“证候/疾病-表型-靶标”的路线突破其病理机制,二者虽然能够在分子层面存在交集,但往往关联起来的结果不能还原方剂的疗效。而逐渐兴起的大模型则对中医
8、药现代化而言提供了一种新型的有效手段,其强大的建模能力不仅能将临床表现与中医处方进行直接关联,也可以打开生命的“黑箱”,对其内部节点进行一定程度的模拟,从而再现其药理机制。本文将从“诊-疗”关联(输入-黑箱-输出)与“诊断-生理系统-药理系统-治疗”(输入-灰箱-输出)两种状况综述大模型在中医药研究的应用及可能性。1 生成式大模型对于诊疗关系的模拟中药起源于食物,随着长期的生活实践其医疗功能逐渐被固定下来,从食物中被分离出来作为专门的药物使用。而人类的觅食方式常常会在食物中加入多种材料,这种觅食方式也是中药复方形成的原因之一。所以中医用药从诞生之初起,可能就是中药小复方的应用。其中一些稳定的具
9、有明确疗效的药物搭配组合被记载并传承应用,至今约形成了 30 多万首方剂3,奠定了中医临床治疗的基础。中医根据病人的证候来开具相应的方剂,中医治疗的终极追求是方证对应,即判断出来的每个证候,指定一个特定的方剂,并加减化裁以适应某个病人。药理系统与生理系统的相互作用是一个复杂度超高的动态系统。在对其开展研究时,把系统作为一个内部节点未知的黑箱,研究中不涉及系统内部的结构和相互关系,仅从其输入输出的特点了解该系统规律。传统中医对于中药复方药效的传承和研究更倾向于宏观,对于生命系统的黑箱不进行拆解,而是观察输入输出的对应关系4。目前生成式大模型及其微调后形成的医学大模型,在很多医学任务上表现了其强大
10、的通用能力,已经初步具备了实现模拟上述输入输出的对应关系的可能性。在医疗领域,可以借助大模型完成该领域的各类型任务,比如电子病历关键信息抽取、基于症状分析患者疾病判别等。当前的医学大型模型主要是通过对 GPT、GLM、LLaMA等基础模型进行微调或开发来构建。OpenAI公司开发的ChatGPT作为一种非开源通用大语言模型,目前在这一领域最为引人注目5-9。从像人类医生一样回答不同的患者问题,创建个性化的治疗计划,到协助医生实施手术和减少患者到医院就诊,ChatGPT已经成为医疗保健及其应用中不可或缺的一部分。严格来说ChatGPT并非一种医学类的大语言模型,但 ChatGPT 3.5 版本仍
11、然在MultiMedQA 上获得了 60.2 的良好表现(图 1)10。斯坦福大学发布的BioMedLM(2.7B)基于GPT-2模型架构,使用PubMed生物医学论文的摘要和正文数据继续预训练,预训练数据有 300B Tokens,在 MedQA 任务上达到了 50.3 的分数11。总的来说,目前生成式语言模型已经具备了一定的医疗诊断和输出医疗方案的能力,然而由于医疗的严肃性,对大模型的输出结果要求更为严格,为了进一步提升模型在医疗领域的能力,一般会在通用大模型的基础上,进一步引入医学数据进行再训练或者模型微调,以便增强大模型在医疗领域的性能。GLM是清华大学知识工程和数据挖掘小组发布的一个
12、开源模型,而后上海科技大学的研究人员在此基础上开发出了DoctorGLM模型12-14。DoctorGLM基于ChatGLM-6B模型,分别采用Lora和p-tuningv2方法,引入中文医疗对话数据集对Chat图1 Med-PaLM 2在MultiMedQA上的表现10.A:在MedQA数据集的USMLE风格问题上,Med-PaLM 2达到了86.5%的准确率.B:在1066个消费者医疗问题的成对排名研究中,Med-PaLM 2的答案在我们评估框架的九个方面中的八个方面上被医师小组优于医师的答案.6中国药理学与毒理学杂志2023年9月第37卷增刊1Chin J Pharmacol Toxic
13、ol,Vol 37,Suppl 1,Sep 2023GLM-6B进行微调,样本量问答对近800k。哈尔滨工业大学此后发布了基于中文医学知识的 ChatGLM微调模型ChatGLM-Med15,通过医学知识图谱和GPT 3.5 API构建了中文医学指令数据集,并在此基础上对ChatGLM-6B进行了指令微调,提高了 ChatGLM 在医疗领域的问答效果,能够在合理范围内给出诊断的建议乃至治疗方案。MedicalGPT-zh是一种采用ChatGLM-6B LoRA 16-bit指令微调的中文医疗通用模型16。这一模型基于共28个科室的中文医疗共识与临床指南文本进行构建,从而生成了涵盖范围更广、回答
14、内容更精准的高质量医疗知识指令数据集。Facebook 母公司 Meta 发布全新人工智能大型语言模型LLaMA,作为一款开源模型,同样在短时间内受到了大量的关注17。德克萨斯大学西南医学中心针对医学领域的特殊需求,收集了700多种疾病及其相应的症状、医学检查和推荐药物,并从在线医疗咨询网站获取了20万真实的医患对话数据,利用这些数据对LLM进行微调,成功开发了一个医学聊天模型 ChatDoctor,经测试在基于疾病推荐药物的比较中,ChatDoctor 的准确率达到了 91.25%18。哈尔滨工业大学发布的 HuaTuo-LLaMA(华驼)模型同样是基于中文医学知识在LLaMA(7B)上进行
15、指令微调生成的19。HuaTuo整合了CMeKG的结构化和非结构化医学知识,并利用基于知识的指令数据进行微调,使得模型具有较为丰富的医学领域专业知识,从而为智能诊断作出较为专业的回答。PMC-LLaMA(7B)是在LLaMA 模型的基础上,加入 4.9M PubMed 医学知识相关的学术论文数据,超过 75B tokens,对LLaMA继续进行预训练20。Google Research和DeepMind发布了谷歌医疗大模型 Med-PaLM21,2023年 5月 16日又进一步发布了升级版本 Med-PaLM 210。最终的研究结果显示,一组临床医生对谷歌和DeepMind团队的医疗大模型Me
16、d-PaLM回答的评分高达92.6%,与现实中人类临床医生的水平(92.9%)相当。此外,Med-PaLM仅5.9%的答案被评为可能导致“有害”结果,与临床医生生成的答案(5.7%)的结果相似。Med-PaLM 2 在 MedQA 数据集上得分达到86.5%,比Med-PaLM提高了19%以上。2 大模型挖掘“诊断-生理系统-药理系统-治疗”关系的潜在可能性中药对于人体的调控属于复杂系统对于复杂系统的调控,从还原论的角度出发,完全的重现上述两个系统已经是非常难以实现,系统间的相互作用则更为复杂。生理系统内部而言,各组织器官在基因表达上存在很大的异质性,药物在不同组织器官能够结合的靶标谱不尽相同
17、。因此在不同的组之间,存在通路不同、调控程度不同、综合药效不同的特点。由于系统自身的鲁棒性,并且系统-系统相互作用由于超大的复杂性,成功的调控涉及到高度复杂的节点相互作用,很难进行还原。然而似乎依然存在一条可行之道:不打开或者半打开黑箱,应用超大模型对系统的输入输出信号进行模拟。传统医学通常的做法是保留黑箱,如伤寒-金匮体系,经方学派直接构建了方证关系,将病理表现与处方直接挂钩,基于大量的经验体系构建临床表现与药物组合的复杂关系。然而,完全不打开黑箱,训练系统所接受的数据均是来自已有经验,不利于中医基础医学的发展。当前的方剂学、中药学、药物化学、生物化学、分子生物学、病理生理学等学科经过了百余
18、年的发展,已经积累了大量的关于复方药物复杂系统和人类生理复杂系统的知识,能够在一定程度上或者一定层面上打开黑箱,基于部分完整的生理系统进行模拟,同时依据输入和输出信号,设置一部分未知的节点,最终应用大模型对于上述两种复杂系统的相互作用进行一定程度的模拟。对于中药复方的药理研究面临的可能是一个超过100种单体化合物的组合22。如果按照化药靶标数的统计结果,平均而言,来自PubChem确证实 验 的 多 靶 标 化 合 物 在 3.7 个 靶 标 上 具 有 活性23-24,那么一个中药复方调控的靶标将超过370个。如此复杂的药物靶标关系,在药理研究中进行“单一化合物-单一靶标”的研究对于解释中药
19、复方的药效作用及药理机制是不足的25。然而目前中药复方药理机制研究匮乏,主要原因之一是中药化学成分的复杂性。其中多种中药成分被开发为上市药物,是药物发现的主要候选资源之一26。例如,从中草药青蒿(Artemisiae annuae)中提取的青蒿素,现已成为疟疾的一线治疗药物27。然而,化药的研究思维以还原论为基础28,主要以“对抗”为原则,基于特定靶标来开发药物。药物发现的主要范式是开发特异性靶标抑制剂。然而,随着时间的推移,这种方法被证明是令人失望的,主要是由于非靶标反应,可能涉及毒理学问题或副作用。例如,考虑到生物学中鉴定的各种酶系统、类别和同功酶,许多特异性靶标药物是通过试错方法开发的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GPT 还是 GLM 模型 应用于 中医药 现代化 机遇 挑战
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。