基于ConceptNet语义的伪相关反馈信息检索方法.pdf
《基于ConceptNet语义的伪相关反馈信息检索方法.pdf》由会员分享,可在线阅读,更多相关《基于ConceptNet语义的伪相关反馈信息检索方法.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 卷湖北师范大学学报(自然科学版)第 期 ()基于 语义的伪相关反馈信息检索方法潘 敏刘 宇裴全力李 腾(湖北师范大学计算机与信息工程学院湖北 黄石 约克大学 信息技术学院安大略 多伦多)摘要:伪相关性反馈技术在信息检索领域应用广泛在考虑词频和逆文档频率等重要特征时传统的信息检索方法容易忽略查询词本身的语义信息 提出了一种基于语义的伪相关性反馈信息检索方法()充分利用 获取语义信息不仅考虑了查询词在文档中的词频重要性还将查询词的语义信息整合到伪相关反馈框架中以改善查询扩展词的选择 在 个 数据集上实验结果表明:方法对比较强基线模型和几种基于神经网络的方法在 和 两个指标上具有显著提升关键词:
2、伪相关反馈查询扩展信息检索中图分类号:文献标志码:文章编号:():./.引言在信息检索的过程中用户为了方便用作检索的查询词通常很简短这增加了系统理解用户的真实意图的难度 伪相关反馈()技术针对上述问题提供了一种可行的解决方法大量基于 技术的检索模型 已被证明能帮助检索系统更好地去理解用户的查询意图 因为自然语言的多样性会导致一词多义和多词同义的问题 考虑查询词的解释词、同义词和属性词能够获得更多信息去帮助选择查询扩展词进而提高检索结果的精准度 因此本文考虑了将 知识图谱的信息引入到伪相关反馈的查询扩展词的选择中 具体来说在 的基础上将 作为查询的外部知识库将 的语义信息融入到查询词中来提升伪相
3、关反馈模型的检索性能 相关工作 一般从第一轮检索的伪相关文档中选择查询扩展词并通过对扩展后的查询词进行二次检索来提高检索系统性能 年 等人在 检索系统中的实验发现了伪相关反馈的有效性 算法使用首次检索返回的文档作为反馈信息通过最大化查询向量与相关反馈文档的相似度最小化查询向量与不相关反馈文档的相似度计算出最优的查询向量.在过去的几十年中许多学者继续改进和加强 模型的适用性 等人考虑到候选词与反馈文档中相应查询之间的邻近关系提出了基于滑动窗口的方法、基于核函数的方法和超空间模拟语言的方法分别为、和 这些方法表明邻近度信息能够有效提高模型性能 和 收稿日期:基金项目:年湖北省教育厅科研计划项目重点
4、项目()国家留学基金委博士后基金项目()年研究生创新科研项目()作者简介:潘敏()男湖北荆门人博士副教授研究方向为信息检索.使用了三种词频变换技术来捕捉反馈文档中候选词的词频重要性 由于在各种数据集上的良好表现 和 近年来被认为是相关工作中的强基线 因此在本文中将用它们与我们提出的模型进行比较以测试我们提出的框架的有效性近年来神经网络模型在机器翻译、语音识别等领域中展现出良好的效果信息检索领域也开始对于神经网络模型进行尝试 年 等人提出了一种自适应深度关联匹配模型()其基本思路是:在查询词级别使用联合深层体系结构进行关联匹配实验结果表明该模型明显优于一些先进的深度匹配模型 年 等人 将 ()用
5、于文档检索任务中通过对句子进行单独的计算聚合句子得分生成文档得分 在 微博和 数据集上的实验结果证明了该方法的有效性 至此在信息检索中使用深度学习方法 改进的新模型不断出现 年 等人将词的共现信息整合到 模型和 模型中使用高斯核函数来测量候选词与查询词的共现关系分别提出了 和 模型能有效提高检索性能此外查询主题的语义信息也能很好地帮助检索系统理解用户的查询意图 等人发现选择适当的语义集合资源尤其是外部语义资源能够有效改善查询扩展词的选择 等人将维基百科的知识引入查询扩展的环节提取维基百科文章内 的查询改善了查询扩展词的选择 等人利用知识图谱嵌入表示建立语义连接更有效地发掘查询和文本之间的语义信
6、息优化查询效果 等人将词袋和知识图谱链接到的实体相结合克服了仅使用词袋表示时语义信息不丰富和仅使用实体表示时造成信息损失的缺点优化了知识图谱增强信息检索模型的结构 通过分析不同的外部语义资源我们发现 的描述更接近自然语言与链接数据和谷歌知识图谱相比 比较侧重于词与词之间的关系 从这个角度看 更加接近于但是又比 包含的关系类型多 所以我们选择 作为我们的外部知识库它提供的语义信息是基于 ()语料库中的近 万个英语句子 具有稳定的知识结构即实体、关系和实体可以进行知识挖掘更容易计算、理解和评估信息资源 目前 已被成功应用于信息检索的模型中 等人使用 和 的语义信息扩展查询词的实验结果表明该方法对中
7、难度查询的改进效果更好也验证了 在引入语义信息方面的独特优势 为信息检索查询扩展词的选择带来了新的启发 但是关于将 的语义优势整合到 框架中的研究较少 因此本文研究 在检索系统中的具体作用并尝试将其引入至经典的 模型中并评估其对检索性能的改进效果 基于 的伪相关反馈信息检索方法本节主要提出了一个改进的 信息检索模型将 概念知识图谱提供的语义信息整合到 中 首先从 中获取查询词的语义信息计算语义信息与伪相关文档内词项的相似性 接着对 框架下的查询词项的权重重新赋值 将通过 产生的带有语义信息的扩展词与通过 算法产生的查询扩展词进行结合重构一个新查询并进行二次检索来提升检索性能 具体步骤如下:)针
8、对首次查询选择合理的信息检索模型在实验数据集上进行检索返回第一次检索文档集合并选取前 篇文档作为伪相关文档集合)集成 概念知识网络获取查询词的语义信息经过处理从伪文档中选择若干词作为查询扩展词并为查询扩展词重新分配权重)通过 算法框架将原查询向量和扩展词向量进行合并计算出新查询向量)利用新的查询向量在数据集上完成第二次检索得到最终结果集合上述伪相关反馈的检索流程如图 所示:图 查询扩展过程的流程图.语义信息增强在 中用三元组()的形式表示词项其中表示头部实体表示尾部实体表示 和 之间的关系 提供了 个替代关系 中的节点是自然语言的单词或者短语 对于给定的查询首先使用从 和其他输入构建的词嵌入来
9、查找相关词项 作为初始候选语义词项 如公式()所示:()()其中表示第 个查询词 表示选取概念词数量()表示与查询本身相关的语义词是通过向输入查询而获得的表示语义词的数量然而在获取语义词项时也会引入很多噪音这意味着有些语义词并不能完全匹配用户的查询意图甚至会影响系统的性能为了缓解这个问题本文考虑消除语义项的噪点优化语义去噪去噪后得到的语义词可以表示如公式()所示:()()其中表示伪相关文档中的词为初始候选语义词项表示原始查询()表示去噪后的语义相关词通过此操作可以快速过滤掉许多噪声项另外发现在 中获得的语义词可以同时获得 到 的语义相关性分数因此选择只保留分数排名最靠前的一部分语义词并将数量
10、预设为.在实验部分将深入探讨 值的合理选择如果去噪后的语义词数量小于将保留所有语义词如果超过 个将按顺序获取前 个语义词计算伪相关文档中的词与去噪后所有语义词之间的余弦相似性具体表示为()和()通过这种方式得到伪相关文档中每个语义关系()如公式()所示:()()()()()()其中()()表示计算()和()的内积将()的计算结果从大到小进行排序并采用前 项作为候选词重要性向量组合.本文采用经典方法 法来计算伪相关文档中词的重要性权重()计算如公式():()(.)()()()其中表示数据集中伪相关文档的总数()是包含词的文档数而()表示文档中词的词频同样以相同的方式对计算结果进行排序并采用前 项
11、作为候选语义相关性向量组合.采用线性融合来协调语义匹配信息和重要性匹配信息之间的关系并得到查询扩展词 的向量组合如公式()所示:()()其中 和 表示对 和 的归一化处理以便更公平地进行线性融合计算 为 和 分配合理权重的参数.改进的 模型在 模型中假设某个查询、相关文档 和不相关文档 是已知的使用 得到一个完整的扩展查询 如公式()所示:()不相关文档对最终扩展查询影响较小因此本文忽略了不相关文档的复杂计算即公式简化如公式()所示:()本文提出了一个基于 语义增强的 模型将查询词的概念语义信息集成到传统的模型中表示原始查询表示由第一次检索反馈文档中基于构造的语义扩展词以及基于词频或词分布的扩
12、展词集合根据来自伪文档的扩展查询 以及原始查询 可以得到如下基于 语义信息的新查询如公式()所示:()其中 和 是取值范围为 到 的调整参数具体来说参数 用于调整原始查询和反馈信息的相对贡献由于扩展项以两种方式提取和加权还引入了一个参数 来平衡相应模型分量的贡献:第一次检索反馈文档中基于 构造的语义扩展词以及基于词频或词分布的扩展词集合伪相关文档 对于扩展查询词的选择非常重要本文选择 完成第一轮信息检索并选定排名前 个文档作为伪相关文档.使用 对优化后的扩展查询进行第二轮信息检索从而公平地比较优化方案的可行性 实验与分析本节主要对所提出的伪相关反馈信息检索方法在 数据集上开展实验 首先将介绍数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 ConceptNet 语义 相关 反馈 信息 检索 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。