基于NL2SQL的兵棋数据智能统计分析方法研究.pdf
《基于NL2SQL的兵棋数据智能统计分析方法研究.pdf》由会员分享,可在线阅读,更多相关《基于NL2SQL的兵棋数据智能统计分析方法研究.pdf(11页珍藏版)》请在咨信网上搜索。
1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023基于基于NL2SQL的兵棋数据智能统计分析方法研究的兵棋数据智能统计分析方法研究殷来祥1,2,李志强1*,付琼莹1(1.国防大学,北京 100091;2.中国人民解放军71217部队,山东 烟台 265200)摘要摘要:面对海量的兵棋数据,传统界面查询的方式已经无法满足指挥员快速、全面、精准查询数据的要求。通过深入分析兵棋数据特点与主流NL2SQL(natural language to struct query language)模型
2、的缺陷,提出了一套适合兵棋数据智能统计查询的解决方案。针对领域数据集缺乏,提出了一套基于人机协助、动态迭代的兵棋数据集构建方案;针对兵棋查询问句时间敏感的问题,提出了一套“规则+深度学习”的时间表达式识别与规范方法;针对兵棋数据量大提取查询值困难的问题,修改完善了Bridge模型的值提取与SQL生成架构。综合运用以上方案,使兵棋数据查询的精准匹配准确率达到75%以上。关键词关键词:兵棋;NL2SQL;数据集;时间处理;统计查询中图分类号:TP31;TP391.9 文献标志码:A 文章编号:1004-731X(2023)09-2000-11DOI:10.16182/j.issn1004731x.
3、joss.22-0559引用格式引用格式:殷来祥,李志强,付琼莹.基于NL2SQL的兵棋数据智能统计分析方法研究J.系统仿真学报,2023,35(9):2000-2010.Reference format:Yin Laixiang,Li Zhiqiang,Fu Qiongying.Research on Intelligent Statistical Analysis of Wargaming Data Based on NL2SQLJ.Journal of System Simulation,2023,35(9):2000-2010.Research on Intelligent Stati
4、stical Analysis of Wargaming Data Based on NL2SQLYin Laixiang1,2,Li Zhiqiang1*,Fu Qiongying1(1.National Defense University,Beijing 100091,China;2.PLA 71217 Troops,Yantai 265200,China)Abstract:In the face of massive wargaming data,the traditional interface query method can no longer meet the commande
5、rs requirements,i.e.,fast,comprehensive,and accurate data querying.Through in-depth analysis of the characteristics of wargaming data and the defects of the mainstream natural language to struct query language(NL2SQL)model,a set of solutions for the intelligent statistical query of wargaming data is
6、 presented.Due to the lack of datasets,a wargaming dataset construction scheme based on human-machine assistance and dynamic iteration is provided.In order to solve the time-sensitive problem of wargaming querying,time expression recognition and standardization methods based on rule+deep learning ar
7、e proposed.The value extraction and SQL generation architecture of the Bridge model are modified to facilitate the extraction of query value for a large amount of wargaming data.By comprehensively using the above scheme,the query accuracy of wargaming data is significantly enhanced to more than 75%.
8、Keywords:wargaming;NL2SQL(natural language to struct query language);dataset;time processing;statistical query收稿日期:2022-04-30 修回日期:2022-08-04第一作者:殷来祥(1991-),男,硕士生,研究方向为联合作战体系评估。E-mail:通讯作者:李志强(1975-),男,正高级工程师,博士,研究方向为联合作战体系评估。E-mail:第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023殷来祥,等:基于NL2SQL的兵棋数据智能统计分析方法
9、研究http:/www.china-0引言引言目前,基于传统查询界面的兵棋统计查询系统已基本满足了指挥员对兵棋数据统计分析的需求,但在使用过程中面临2个突出问题:界面固化、查询内容受限,指挥员只能检索特定的查询内容,其他查询需要专业分析人员从数据中捞取;操作复杂、人机交互不友好,指挥员需要反复切换查询界面获取所需数据,并且数据以整个页面的形式返回,而非仅呈现用户关注的数据。针对以上问题,本文提出一套基于NL2SQL(natural language to struct query language)的兵棋数据智能统计分析方法。指挥员可以运用自然语言直接查询分析兵棋推演生成的评估分析主题数据库,
10、并精准高效的返回分析结果。既可省去人工构建结构化查询语言的繁琐过程,又可精准返回指挥员关注的内容,进一步提升指挥员信息获取效率、降低指挥员认知负担,提高指挥决策效率与准确度。该系统具有很强的泛化性,可广泛应用于以关系型数据库为存储结构的业务软件,如联合作战指挥信息系统、联合作战指挥训练系统等。1NL2SQL简介及应用难点简介及应用难点1.1 NL2SQL简介简介NL2SQL是指在给定数据库和自然问句的条件下,将自然问句解析成SQL语句,并执行SQL语句返回查询结果的技术。NL2SQL研究由来已久,20世纪70年代,美国就研究出了基于规则的NL2SQL系统,如Luar、Baseball等1。其可
11、以通过格式化的自然语言查询数据库返回检索结果,但功能相对简单。由于自然语言的多变性、复杂性以及当时的技术水平,相关研究并未取得实质性突破。近年来,随着深度学习技术在机器翻译、语音识别等领域取得巨大成就,特别是NL2SQL数据集的发布,将NL2SQL研究推向了一个新的高度,成为自然语言解析领域的热点2。目前,NL2SQL的主要任务分为单表查询和多表查询两种。单表查询任务的代表数据集有Wikisql3、TableQA4(中文),其对应的 SQL 语句相对比较简单。2019年,模型在2个数据集上的精 度 均 已 经 超 过 普 通 人 类 的 水 平。当 前,NL2SQL研究主要集中在多表查询任务上
12、。多表查询任务的代表数据集有 Spider5、DuSQL6(中文),现主要研究集中在Spider数据集上进行,关于中文多表查询任务的研究相对较少。截止发文,Spider数据集上最佳模型PICARD7的执行精度已经达到75.1%。1.2 NL2SQL应用难点应用难点尽管近年来NL2SQL技术取得了巨大的进展,但其距实际的兵棋统计查询应用还有较大的差距,突出表现在以下3个方面:(1)现有数据集存在与实际应用不符的情况。以最为流行的多表跨领域数据集Spider为例,数据集定义时明确要求:问句必须清晰明确,且必须包含查询结果的全部信息,不能包含需要特定数据库之外的常识信息。现实的兵棋查询问句远比这些复
13、杂,指挥员问句简短精炼,字面信息较少但内含深刻,同时问句中包含大量常识信息。如数据库可能未直接给出战损数据,但根据常识“战损数=初始数现有数”可以得出答案。直接将公开数据集训练的模型迁移至兵棋领域会产生大量的偏差,需要利用兵棋领域数据集对已训练好的模型进行微调,使其达到较高的精度。(2)现有模型对时间信息处理能力不足。兵棋查询问句中包含大量的时间信息,如“当前阶段,红方共消耗多少枚弹药?”。虽未明确出现时间表达式,但其蕴含着重要的时间信息。如果不能准确识别时间信息,将不可能得到准确的答案。首先要根据作战时间推算出当前的阶段,而后再将当前阶段映射成标准的时间格式。此外,兵棋查询问句还包括物理时间
14、、作战时间两类时间,形 2001第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of System Simulationhttp:/www.china-式非常相似,现有模型很难进行区分,需要提出针对性的时间解决策略。(3)现有模型确定Where条件中Value值的方式无法推广至兵棋领域。Guo等8通过预训练模型BERT(bidirectional encoder representation from transformers)识别自然语言问句与数据表列中所有值的注意力分数,从而确定Value值,该方法只能适用于数据库数据极少的Spi
15、der数据集。现实兵棋数据库中数据动辄上百万条,无法将该方法应用于兵棋查询。2基于基于NL2SQL兵棋数据智能统计兵棋数据智能统计分析基本结构分析基本结构基于NL2SQL兵棋数据智能统计分析基本结构主要包括问句预处理模块、NL2SQL 模块和SQL执行模块3部分,其基本结构如图1所示。对于输入的指挥员问句,首先通过问句预处理模块,将其处理为规范化问句;而后通过NL2SQL模块,将规范化问句解析成SQL语句;最后,通过SQL执行器执行SQL问句,返回查询结果。问句预处理模块,主要将指挥员输入的含糊不清、指代不明的自然问句转化为更适合模型处理的规范化问句,以降低自然语言解析难度。其主要包括问句清洗
16、、问句分词、去除停用词、时间识别与规范等4项内容。前3项内容作为智能问答的基础性工作,许多中文NLP工具可以实现以上功能,如Jieba、TLP、LAC等,且准确率可达90%以上9,文中不再赘述。兵棋智能统计查询不同于一般的智能问答,问句解析对时间信息特别敏感。以问句“火力急袭阶段,红方共消耗精确弹药多少发?”为例,若不能有效处理时间表达式“火力急袭阶段”,并将其转化为标准化的时间表达式“20XX年X月X日XX时XX分20XX年X月X日XX时XX分”,将无法准确完成问句解析任务。针对兵棋问句中时间表达式的识别与规范,本文提出了基于“规则+深度学习”的处理方法。NL2SQL模块,主要将规范化的指挥
17、员问句转化为标准的SQL语句,是兵棋数据智能统计分析的核心模块。针对兵棋统计分析特点,本文提出了基于改进Bridge模型的兵棋问句解析模型,模型采用经典的编码、解码结构,通过添加注意力机制利用有限的注意力资源从大量信息中快速筛选出高价值的信息。同时,针对模型训练缺乏兵棋领域NL2SQL数据集的问题,本文提出了一种基于人机协助、动态迭代更新的兵棋数据集构建方法。SQL执行模块,主要负责执行SQL语句返回问句答案。目前,市面上有大量成熟的SQL执行软件、模块,可直接调用,在此不做赘述。3兵棋领域数据集构建兵棋领域数据集构建兵棋领域问句具有专有词汇多、隐含条件较多、问句简短精炼等特点,在通用跨领域数
18、据集(DuSQL、Spider等)训练出的NL2SQL模型无法很好的应用于兵棋数据查询,普遍存在查询精度不高的问题。为解决此问题,需要构建兵棋专用数图1 兵棋数据智能统计分析基本结构Fig.1 Basic structure of intelligent statistical analysis of wargaming data 2002第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023殷来祥,等:基于NL2SQL的兵棋数据智能统计分析方法研究http:/www.china-据集(BqSQL),微调在通用跨领域数据集中训练出的模型,以提高兵棋数据查询的准确率。3
19、.1 数据集构建基本思想数据集构建基本思想数据集的样本数量将直接影响着模型的效果。然而,常规构建NL2SQL领域数据集的方法需要大量了解兵棋数据结构和熟练掌握SQL技能的专家,人力成本巨大。为解决这一难题,借鉴现代软件“快速上线、逐步完善、迭代升级”的敏捷开发思想,提出了一种人机结合的迭代式数据集构建方法。将数据集的构建分为两个阶段:第一阶段,通过专家标注和模板生成的方式,构建初始数据集;第二阶段,通过运行兵棋NL2SQL原型系统,在使用过程中记录用户反馈,通过用户反馈升级完善数据集。3.2 初始数据集构建初始数据集构建初始数据集的构建主要采取2种方式:通过领域专家直接标注的方式;通过人机协助
20、生成的方式。领域专家标注的数据集主要用于模型测试,人机协作生成的数据集主要用于模型微调训练,其比例为1:9。初始数据集构建的基本处理流程如图2所示。专家标注的方式。通过专家访谈、问卷调查、实地调研等形式,搜集汇总指挥员、评估人员等对于兵棋数据查询的基本需求及常用的兵棋查询问句。对收集的兵棋查询问句进行相似性和准确性检测,剔除重复、模糊、无意义的兵棋查询问句,邀请对兵棋数据库熟悉的技术专家将兵棋查询问句解析为对应的SQL语句。该数据集整体质量较高,能够准确反映指挥员、评估人员在使用系统过程中的真实情况。本文将该部分由专家标注的数据集作为测试集,主要用于评估模型的准确率。人机协助的方式。通过专家标
21、注的方式虽然贴近实际、准确度高,但其非常依赖精通兵棋数据库的技术专家,耗时耗力且生成SQL语句时极易出错,不便于大量标注样本数据。在充分借鉴了百度DuSQL6数据集构建方案基础上,提出了一种基于人机协助的兵棋NL2SQL数据集构建方案,其基本流程如图3所示。首先,由领域专家研究分析指挥员对兵棋数据的查询需求,构建不依赖查询数值的模板;而后,将查询模板槽位与数据库链接产生大量的SQL查询实例,生成大量与SQL实例相对应的伪问句;最后,通过众包的方式将伪问句转化为兵棋查询问句。如图3所示,SQL语句可以被表示成基于规则结构的语法树Select=select A,select A A,Where=w
22、here Conditions,。以上模板是基于语法规则产生的,在实际的使用过程中还需服从指挥员问句分布,确保生成具有明确军事含义的SQL查询问句。例如,查询问句中分类操作GroupC主要通过时间、空间、装备类型、力量等字段进行分类;字段的聚类操作,主要针对射程、数量、编制数等数值型字段进行聚类;选择字段时,如查询部队、装备位置时必须同时选择经、纬度字段等等。通过一系列规则,确保生成涵盖绝大多数查询、军事意义明确的SQL查询语句。为保证NL2SQL数据集的质量,本文基于以下两种标准自动检测低质量“自然语言问句/SQL”对。重叠度,为了保证问句的自然性,通过字图2 NL2SQL初始数据集构建流程
23、图Fig.2 Initial dataset construction of NL2SQL 2003第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of System Simulationhttp:/www.china-符串匹配度方式计算伪问题与自然问句的重叠度,如果重叠度高于0.6的问题被认为是低质量的问题;相似性,为确保自然问句中包含了足够的SQL查询信息,本文训练了一个“自然语言问句/SQL”的相似度模型,如果问句相似度低于0.7的问题则认为是低质量的问题。3.3 动态升级完善数据集动态升级完善数据集通过专家标注与模板生成的方式
24、,本文已经构建了3 000条样本数据。通过兵棋初始数据集微调利用通用数据集训练好的NL2SQL模型,模型精度可以达到75%以上,初步具备了上线应用的条件。将该原型系统集成至兵棋战况统计查询系统,作为系统的附加功能,供指挥员使用。使用过程中,原型系统可以自动记录用户的查询问句,并邀请用户对查询准确性进行评估价。对于用户反馈查询结果准确的问句,通过数据校核后添加至初始数据集;对于用户反馈查询结果不准确的问句,通过人工标注的方式将其解析成 SQL 语句,经数据校核后再添加至初始数据集。通过用户的不断使用、反馈,数据集将不断迭代更新,进一步提高数据集质量、扩大数据集体量,促进模型准确度的提高。4时间表
25、达式识别与规范方法时间表达式识别与规范方法时间表达式是一种特殊的实体,蕴含着大量问句查询的关键信息,准确识别与规范处理时间表达式对于提高NL2SQL的准确率大有裨益,特别是对于时间准确度要求比较高的兵棋数据查询领域。4.1 时间表达式识别时间表达式识别时间表达式通常可分为简单时间表达式、复杂时间表达式、偏移时间表达式和特殊时间表达式10。对于时间表达式的识别,本文采取命名实体识别与规则匹配的方式。命名实体识别是自然语言处理的一项基础性内容,其目的是准确识别语料中的人名、地名、日期、组织机构、专有名词等命名实体。经过几十年的发展,中文命名实体识别已经非常成熟,准确率也比较好。以百度LAC开源工具
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 NL2SQL 数据 智能 统计分析 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。