面向乳腺肿瘤的诊前问答系统决策模型构建研究.pdf
《面向乳腺肿瘤的诊前问答系统决策模型构建研究.pdf》由会员分享,可在线阅读,更多相关《面向乳腺肿瘤的诊前问答系统决策模型构建研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、面 向 乳 腺 肿 瘤 的 诊 前 问 答 系 统 决 策 模 型构 建 研 究王世文李一凡郑群曹旭晨(天津师范大学管理学院天津 天津医科大学肿瘤医院乳腺一科天津 )摘要目的 意义 运用决策树分类模型模拟专家问诊思路,预测潜在或已有乳腺肿瘤患者的疾病风险。方法 过程 采用 经典分类算法和悲观剪枝法,对调研收集的病例数据进行患者预问诊的结果预测。结果 结论 生成一棵以“术后化疗 放疗在院是否结束”为根节点、拥有 个叶子节点的 决策树,预测准确率达 ,并根据分类标签划分为 个风险等级。关键词乳腺肿瘤;算法;决策树;模型构建 中图分类号 文献标识码 ,;,“”;修回日期 作者简介王世文,教授,硕士生
2、导师,发表论文 余篇;通信作者:李一凡,硕士研究生。基金项目天津市应用基础计划重点项目(项目编号:)。引言 年世界卫生组织国际癌症研究机构发布数据显示,乳腺癌已成为全球新诊断人数最多的癌症。作为全球第一大癌,其医师资源紧缺且分布不均衡,优质医生资源多集中于大城市三甲医院。受限于医疗资源以及交通条件,不少乳腺肿瘤患者对个人乳腺疾病发展程度缺乏判断,导致治疗不及时,延误救治时机。在就诊前通过问答系统对乳腺肿瘤患者进行疾病初步风险程度评估是了解个人病情、缓解医疗压力的重要方式。因此,本文拟利用乳腺肿瘤科专家门诊医患对话数据,根据名医面对不同患者时所询问病症因素的逻辑顺序,构建面向乳腺肿瘤的诊前问答系
3、统 决策树模型。所谓医学信息学杂志 年第 卷第 期 ,“诊前”即患者此前未到过医院就诊乳腺肿瘤相关疾病。该决策树模型可模拟专家问诊思路进行预问诊,进而根据病情信息评估患者风险程度,提供初步的乳腺肿瘤风险评估,帮助患者了解个人病情,对疾病的及时发现和治疗具有重要意义,对医生在患者就诊前提前收集病情信息具有一定辅助作用。目前已有不少学者针对乳腺癌领域的决策模型开展研究。段明月 选择决策树(,)的回归树算法构建预测模型对女性乳腺癌 年内生存状况进行预测,为临床医生预测乳腺癌患者预后和调整个体化随访策略提供参考。刘绿 对比 回归模型、神经网络模型和决策树模型在乳腺癌彩超影像诊断中的灵敏度、特异度及准确
4、度。余秋燕等 研究指出决策树在小样本数据上有优势,相比神经网络、支持向量机、贝叶斯、随机森林算法,决策树模型分类效果最优。决策树作为问答系统的一种决策支持模型,具有清晰的树形结构和较好的分类、预测能力 。算法作为最常用、最经典的分类算法,其稳定性较好、准确率较高,被广泛应用于预测疾病发生风险、危重疾病的生存时间等医疗领域 。尽管国内外有关乳腺癌的人工智能研究大都具有较好的准确率,然而大多数研究都基于刻板的临床病历资料或者知识库,并不需要接触患者,面向对象仅是疾病,通过庞大病历库理解和推理,系统给出的方案可能是最正确的。而医生在临床实践中面对的是患者,除疾病外还需考虑医保、婚育等生活因素。另外,
5、大多数决策模型的特征名词比较专业,普通人理解和认识存在障碍,应用层面受限。本研究叶子节点语言更贴近生活,因而对诊前决策辅助更有应用价值。数据获取与处理 数据获取 年 月 日月 日共 次前往天津市肿瘤医院乳腺一科,以乳腺门诊患者为研究对象,以录音方式记录医患对话,并对乳腺影像报告数据系统(?,)分析等患者信息进行必要的补充记录,获得门诊对话原始音频数据。目前研究中所有数据均来源于同一医院、同一科室、同一医生的出诊、问诊、触诊数据。数据采集方式获得医院、医生许可,所有研究数据不涉及患者唯一可识别的个人具体信息(如姓名、身份证号、病历号等),采集的患者数据包括性别、症状(外在症状、触诊结果)、检查结
6、果等与病情决策有关的属性,不存在伦理及隐私问题。数据处理 确定数据处理原则与清洗标准为了便于利用与分析,需要对原始音频数据进行文本转写。其间试用多种转文本工具,但效果不佳,存在语义不连贯、语义转写错误等问题,最终决定进行人工转写。在采集的数据源中,剔除数据不完整的问诊,并通过实地调研、医生访谈方式进一步使模糊的医学或药物名词精确化;在问诊录音采集过程中,对来院患者所携带体检报告、病历资料、检查报告等与乳腺肿瘤诊断相关的检查结果、等级、指标等进行补充记录。同时通过访谈和实地调研获得问诊、触诊未涉及的属性,以完善数据属性值。由此,补充患者疾病情况,弥补患者病情程度的随机性的不足。经过对门诊录音数据
7、的整理,最终获得原始问诊文本数据。为降低门诊医患对话口语化随意性的影响,对录音转文本数据进行清洗,获得源病例 例,其中女性患者占比 。确定属性、属性值、类别及其定义本研究所选取的数据包含的信息量大,且存在大量非相关属性信息,笔者依据相关医学文献、医生访谈以及数据采集过程中医生问诊、视诊、触诊考虑到的属性因素,最终确定 个属性、个属性值、个分类标签,见表 。为便于后续绘制决策树,将属性名用英文简称进行标识,将属性取值用数字表示;每个分类标签用“数字 英文简称”进行标识。其中属性值“未提及”的含义为该属性在医患对话过程中未谈到且前往实地调研的人员未收集到。分类标签即代表医生在该次问诊结束时得出的诊
8、断结果或处理结果,个分类标签的确定均是对采集对话文本问诊结果归类分析所得。其中,分类医学信息学杂志 年第 卷第 期 ,标签“手术”的含义为在医患对话过程中,医生对患者的诊疗建议为手术;“没事”的含义为乳腺肿块不需要治疗,乳腺较健康;“进一步做检查”建议患者做乳腺相关检查以帮助后续进一步给出问诊结果;“进一步治疗”表示患者正在放疗或者化疗;“其他情况”表示患者所患疾病不属于乳腺肿瘤科室业务范围。表 乳腺科问诊资料属性定义及取值属性名属性标识属性取值患者性别 :女,:男乳腺肿瘤手术史 :是,:否两侧乳房对称 :是,:否,:未提及年龄 :不大于 岁,:大于 岁乳头溢液情况 :血性 单孔,:非血性 非
9、单孔,:无溢液乳腺超声检查结果 :未做 超,:级及以下,:,:,:,:级及以上腋下淋巴结坚硬肿大 :是,:否,:未提及肿块表面伴有坚硬小结节 :是,:否,:未提及肿块是否边界清晰、形状规则 :是,:否,:未提及肿块大小 :大,:小,:未提及肿块活动度 :活动度好,:活动度差,:未提及肿块质地 :质地较软,:质地较硬,:未提及怀孕情况 :未孕,:怀孕中,:已育,:未提及乳头凹陷、乳房皮肤橘皮样改变、皮肤溃烂 :是,:否,:未提及乳房疼痛 :是,:否,:未提及患者类型 :初诊,:复诊术后化疗 放疗在院是否结束:是,:否,:不涉及分类标签 :手术,:定期复查,:没事,:建议进一步检查,:建议进一步治
10、疗,:其他情况进一步按照定义的属性规则对录音文本进行标注,帮助计算机识别语义并训练数据。标注过程中,将过于口语化的表达同义替换为对应属性。文本中下划线斜体词语语义上对应表格中间列的属性值,即对文本进行同义词标注并对文本赋值,见表 。标注过程为了防止结果存在主观性,在确立属性规则后将文本数据转交第三方人员依照属性规则进行标注,再由研究人员分工进行属性值检查、修改和互检,确保标注规范、所得数据集客观。表 录音对话中的部分同义表达属性属性值自然语言表述乳腺肿瘤手术史是(术后)“刚烤完哈,怎么还烤糊了呢。”术后放疗“现在在吃什么药?”术后吃化疗药“在我们这做的手术?”术后否(术前)“结婚了吗?”“小孩
11、有吗?”乳头溢液情况非血性 非单孔“乳头流水吗,我看一下。”“乳头老出血”血性 单孔“乳头溢液要是单管的、血性的就得做了”决策树构建方法 算法作为数据挖掘技术中最常用的分类预测方法,其主要思想是根据信息熵的增益从样本属性中提取最有利于区分实例类别的属性,逐步由根节点向叶子节点构造决策树,可以从生成的决策医学信息学杂志 年第 卷第 期 ,树中提取规则 。决策树确定每个节点属性的计算方法如下。设 为样本集合,其中第 类样本所占的比例为(,),为样本分类的个数,则的信息熵为:()()对应数据集 ,选择特征属性 作为决策树的判断节点,设属性 有 个可能的取值 ,则属性 对样本集 的条件熵为:()()(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 乳腺 肿瘤 问答 系统 决策 模型 构建 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。