2023预训练大模型与医疗:从算法研究到应用.pdf
《2023预训练大模型与医疗:从算法研究到应用.pdf》由会员分享,可在线阅读,更多相关《2023预训练大模型与医疗:从算法研究到应用.pdf(53页珍藏版)》请在咨信网上搜索。
1、预训练大模型与医疗:从算法研究到应用闾海荣 博士|清华大学自动化系20230525福州,CHIMA2023CHIMA 2023Page 2Tsinghua Confidential|1.预训练大模型概述2.理解大模型的内在机理3.赋予模型精准性与可解释性4.医疗领域应用5.清华探索:数基生命CONTENTSCHIMA 2023Page 3Tsinghua Confidential|预训练:从大数据到小数据 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练预训练大模型(学习共性)大数据(低成本无标注)少量特定领域标注数据(成本高)微调小模型(学习特性)1
2、.模型角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练;2.数据角度:将训练任务拆解成共性学习和特性学习两个步骤。CHIMA 2023Page 4Tsinghua Confidential|以英文电子病历后结构化为示例 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练ABC英文英文英文电子病历后结构化电子病历后结构化电子病历后结构化不懂英文懂英文懂英文的医生CHIMA 2023Page 5Tsinghua Confidential|Transformer架构:预训练的基石 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖
3、析 大 模 型 关 于 预 训 练从 word2vec 到 Transformer从 context-free 到 context-awareCHIMA 2023Page 6Tsinghua Confidential|BERT和GPT 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练 两类典型的大语言模型 BERT:Bidirectional Encoder Representations from Transformers 双向模型,同时考虑前文和后文 采用掩码语言模型(masked language model)和下一句预测任务(next sent
4、ence prediction)进行预训练,使得模型能够学习到上下文关系和词汇语义 通常用于文本分类、序列标注、问答等任务 GPT:Generative Pre-trained Transformer 单向模型,只考虑前文,不考虑后文 采用自回归(autoregressive)的方式生成文本,即逐个生成下一个词 通常用于生成文本、对话、问答等任务CHIMA 2023Page 7Tsinghua Confidential|BERT训练 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练BERT主要采用掩码语言模型(masked language model
5、,对应图Mask LM)和下一句预测任务(next sentence prediction,对应图NSP)进行预训练,使得模型能够学习到上下文关系和词汇语义。预训练好的BERT可以用于对输入文本进行编码,得到具有语义的向量表示。预训练好的BERT也可以通过微调(fine-tuning)方式适配各类NLP任务:The Stanford Question Answering Dataset问答(SQuAD)、命名实体识别(NER)、MNLI任务(大规模分类任务,目标是预测第二个句子相对于第一个句子是包含,矛盾还是中立)CHIMA 2023Page 8Tsinghua Confidential|BE
6、RT表示能力 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练Represented IntoSymbolic SpaceLatent SpaceCHIMA 2023Page 9Tsinghua Confidential|BERT类模型 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练2018年10月 Google AI提出BERT模型参数量1.15 亿,3.4亿数据量约 16GB.2020年2月 Google AI提出的轻量化BERT模型参数量0.2亿,0.61亿,2.4亿数据量约 16GB2019年7月 F
7、acebook AI基于BERT模型的扩展参数量1.15 亿,3.4亿数据量约 160GB2021年10月 Microsoft AI在BERT模型上引入解码与注意力解耦参数量3.4亿数据量约 78GB2019年8月 清华大学提出知识注入BERT模型,后由Baidu AI 更新迭代到3.0版本参数量1.15亿,1.25亿,100亿数据量约 12GB,22.9G,4TB2020年3月 Google AI在BERT模型引入GAN参数量3.4亿数据量约 16GBCHIMA 2023Page 10Tsinghua Confidential|GPT发展史 精 准 可 解 释 医 疗 应 用 数 基 生 命
8、 剖 析 大 模 型 关 于 预 训 练2017年6月Google提出Transformer模型解码器部分为GPT发展奠定基础2017年6月OpenAI提出Few-shot GPT-1模型参数量1.17 亿数据量约 5GB赋予GPT预测下一个字符串能力2019年2月OpenAI提出One-shot GPT-2模型参数量15亿数据量40GB增加GPT解释翻译能力2020年5月OpenAI提出Zero-shot GPT-3模型参数量1750亿数据量40TB赋予GPT处理多任务的能力2022年1月OpenAI提出GPT-3.5模型参数量13亿,60亿,1750亿数据量40TB赋予GPT推理能力多模态
9、生成2023年第一季度OpenAI提出GPT-4模型百万亿级别参数量CHIMA 2023Page 11Tsinghua Confidential|GPT训练过程 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练Unsupervised Pre-trainingExpensive training on massive datasetsDatasets:300 billion tokens of textObjective:Predict the next wordExample:arobotmust?GPTUntrainedGPTCHIMA 2023P
10、age 12Tsinghua Confidential|GPT应用 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练GPT具有搜索引擎的功能2021年12月赋予GPT理解人类 指令的能力2022年2月GPT在编写代码上的应用2021年12月使GPT具有与人类对话的能力2022年11月CHIMA 2023Page 13Tsinghua Confidential|模型内部本质上是基于统计的文字生成器 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练通过对海量文本的学习,自动构建了一个含有1750 亿参数的大模型,建
11、立了对这个世界基本的逻辑认知,由此产生了基于逻辑的推理能力实际上是根据对话中的最近 4095 个记号,算出紧接着最可能是哪个记号但,ChatGPT 模型模型负责把最近的对话内容翻译为一张概率表ChatGPT 负责根据这张表选出下一个记号,再让模型算再下一个记号的概率表CHIMA 2023Page 14Tsinghua Confidential|可以理解为高阶的马尔可夫链 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练ChatGPT根据前 4095 个记号猜下一个记号,所以是一个 4095 阶的马尔可夫链后续状态按一定概率取决于过去状态的随机过程,被称
12、为马尔可夫链m 阶马尔可夫链模型可以根据前 m 个记号算出下一个记号的概率分布如果ChatGPT遇到它在训练时从没见过的记号串怎么办?1 阶马尔可夫链3 阶马尔可夫链神经网络能很好解决这个问题CHIMA 2023Page 15Tsinghua Confidential|概念:嵌入向量(embedding vector)精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练嵌入向量:在GPT里面,把一个记号作为一个 N 维浮点数向量来表示。这种用一个向量来表示一个单词或记号的方法按神经网络的术语就叫做嵌入一个单词对应的向量叫这个单词的嵌入向量把每个单词或记号(
13、token)在 GPT 内部都会通过一层简单的神经网络映射层对应到一个嵌入向量,这个向量代表了记号的语言特征GPT-3 是 1600 维,GPT-3.5 2048 维CHIMA 2023Page 16Tsinghua Confidential|位置信息的引入 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练第一步:将离散的顺序号转换成一个与嵌入向量长度相同的向量,称为位置编码(positional encoding)第二步:将位置编码与嵌入向量相加(即对应的元素相加),结果作为后续处理的输入向量第三步:输入向量会被送到多层Transformer进行后续
14、处理,每层Transformer的参数不同,但都会让输入先经过一个线性投影层第四步:线性投影层将输入向量投影到另一个维度空间,剔除不重要的维度,将高维向量简化为低维向量使用Transformer摆脱了人工标注数据集的缺陷,模型在质量上更优、更易于并行化,所需训练时间明显更少CHIMA 2023Page 17Tsinghua Confidential|ChatGPT待优化的部分 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练可信性可信性无法保证,还不能提供合理的证据进行可信性验证01成本高成本高、部署困难、每次调用花费不菲,对工程能力有很高的要求,GP
15、T-3 模型的训练成本在875万-1093.75万美元之间03因为数据的偏见性偏见性,很可能生成有害内容05时效性时效性差,无法实时地融入新知识,知识范围局限于基础大规模语言模型使用的预训练数据时间之前02反映的是标注人员的偏好,在标注标注人员分布不均的情况下,可能会引入新的偏见偏见问题06在特定的专业领域上表现欠佳专业领域上表现欠佳,训练数据是通用数据,没有领域专业数据04CHIMA 2023Page 18Tsinghua Confidential|如何让ChatGPT更靠谱 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练两个关键参数:temper
16、ature 参数top_p参数ChatGPT 不是每次都选概率最大的记号CHIMA 2023Page 19Tsinghua Confidential|temperature参数 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练控制语言模型输出的随机性或创造性的参数temperature 参数=0,模型每次都挑最佳候选字,从不偏离temperature 参数越大,生僻的选择变得更容易被选中openAI 试验场(playground)限制 temperature 参数在 0 到 1 的区间t=0t=0.4t=2CHIMA 2023Page 20Tsingh
17、ua Confidential|top_p参数 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练限制 top_p 参数在 0 到 1 的区间拿到候选字的原始概率分布后,先把这些字按概率从高到低排序,按顺序依次选取,选到总概率超过 top_p 值的时候即停止,剩下的候选字彻底放弃top_p=0,只保留最高频的一个字top_p=0.5,考虑总概率占 50%的那些最高频的字top_p=1,全部候选字都考虑top_p=0top_p=0.1top_p=1CHIMA 2023Page 21Tsinghua Confidential|大模型精确性提升思路:知识嵌入
18、精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练大模型语言本身具有很强的语言理解或生成能力,然而为了提高其叙述内容的真实性和严谨性,需要采用特定的技术路线,例如将知识图谱中的事实描述融入大模型的训练过程中。知识嵌入:Zhang等人通过将知识图谱的表示向量加入到BERT中对应的tokens编码内,从而使得模型学习到与知识相关的事实信息,增强了模型在相应知识领域的准确性。1相关模型在FewRel和TACRED上的表现参考:1 Zhang,Zhengyan,et al.ERNIE:Enhanced language representation with i
19、nformative entities.arXiv preprint arXiv:1905.07129(2019).CHIMA 2023Page 22Tsinghua Confidential|大模型精确性提升思路:知识预测 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练参考:1 Liu,Jiacheng,et al.Generated knowledge prompting for commonsense reasoning.arXiv preprint arXiv:2110.08387(2021)知识图谱应用于大模型训练后阶段:Liu等人提出了知
20、识生成式大模型提示方法,让模型进行知识预测,通过将知识图谱的三元组形式转化成Question and answer的形式,让模型生成一些知识,然后将这些知识进行聚合,从而得到最终的更为精确靠谱的结果。模型在数值常识(NumerSense)、一般常识(CommonsenseQA 2.0)和科学常识(QASC)基准测试中进行实验,得出了将外部知识融入到大模型中能够提升其常识推理任务的精度的结论。1CHIMA 2023Page 23Tsinghua Confidential|大模型精确性提升思路:少样本提示 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练参
21、考:1 https:/ https:/www.promptingguide.ai/zh/techniques/fewshotChatGPT作为一种生成模型,存在一些问题。其中最主要的问题是不确定性和预训练语料库中存在的某些局限性,这可能导致ChatGPT在回答一些问题时存在时效性、事实性以及内容不合规等情况。1少样本提示:尽管大型语言模型展现出惊人的零样本能力(泛化能力),但在复杂的任务中使用零样本设置时仍然表现不佳。为了提高模型的性能,我们可以采用少样本提示技术来启发上下文学习。这种技术可以通过给模型提供示例演示来引导其生成更好的响应。演示作为后续示例的条件,可以有效地提高模型的准确性和可靠
22、性。2CHIMA 2023Page 24Tsinghua Confidential|大模型精确性提升思路:自我一致性 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练参考:1 https:/www.promptingguide.ai/zh/techniques/cot2 https:/www.promptingguide.ai/zh/techniques/fewshot由于ChatGPT的训练机制主要专注于“单字接龙”,其在涉及算术和常识推理的任务中的精确性仍有待提升。自我一致性:由Wang等人提出,其核心思想是在链式思考的prompt1基础上,通过采
23、样适量的多个不同推理路径,根据这些方案的一致性情况得出最合理的结果,从而提高模型的准确性和可靠性。2CHIMA 2023Page 25Tsinghua Confidential|大模型精确性提升思路:提示语工程 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练参考:1 Ma,Chong,et al.ImpressionGPT:An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT.arXiv preprint arXiv:2304.08448(2
24、023).2 Wang,Sheng,et al.Chatcad:Interactive computer-aided diagnosis on medical image using large language models.arXiv preprint arXiv:2302.07257(2023).通过适当的Prompt engineering,可以提升ChatGPT在相应任务上的精确性。ImpressionGPT:使用“动态prompt”来构建具有相似诊断报告的“动态上下文”环境;对生成的报告进行评估,利用评估结果来指导ChatGPT 生成增强的响应,让ChatGPT能够从好样本和坏样本
25、中学习到相关内容。1ChatCAD:设计了三种不同的Prompt,将视觉模型得到的结果通过Prompt更好的让语言模型理解,通过ChatGPT与CAD结合,得到了诊断的性能提升。2CHIMA 2023Page 26Tsinghua Confidential|大模型可解释性 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练机器学习模型的可解释性 传统模型的可解释性思路 模型相关 模型无关 大模型的可解释性思路 基于attention机制:大模型如BERT和ChatGPT等大都基于attention机制构建,但随着模型参数量不断增大,通过attention
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 训练 模型 医疗 算法 研究 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。