文本特征提取技术.pptx
《文本特征提取技术.pptx》由会员分享,可在线阅读,更多相关《文本特征提取技术.pptx(57页珍藏版)》请在咨信网上搜索。
1、文本特征提取2024/3/24 周日 五校联合 大数据分析硕士培养非结构化数据分析主要内容2024/3/24 周日非结构化数据分析文本表示特征提取特征权重文本表示文本表示第一讲:文本挖掘简介2024/3/24 周日非结构化数据分析文本表示及文本预处理2024/3/24 周日非结构化数据分析去掉html一些tag标记停用词(stopwords)去除、词根还原(stemming)(中文)分词、词性标注、短语识别、词频统计(TFIDF)数据清洗:去掉噪声文档或文档内垃圾数据向量空间模型G.Salton,19712024/3/24 周日非结构化数据分析向量空间模型(VectorSpaceModel)自
2、然语言处理常用模型基本概念文档(Document):句子、段落、整篇文章特征项(Term/Feature):词根/词/短语/其他项的权重(Weight):每个特征项在文档中的重要程度。VSM示意图数据结构化一般思路2024/3/24 周日非结构化数据分析特征特征词1特征特征词2特征特征词3特征特征词n文档文档1权重11权重12权重13权重1n文档文档2权重21权重22权重23权重2n文档文档3权重31权重32权重33权重3n文档文档4权重41权重42权重43权重4n文档文档m权重m1权重m2权重m3权重mnVSM示意图相似度比较内积计算Cosine计算2024/3/24 周日非结构化数据分析文
3、本表示注解2024/3/24 周日非结构化数据分析文本表示注解2024/3/24 周日非结构化数据分析用单个汉字(对应英语语系中的字符串)做特征,不考虑词语的含义。直接利用汉字在文本中出现的统计特性对文本进行划分;直观明了,且操作简单,尤其对于英文文本或其他西语文本的划分非常容易,计算机可以直接利用空格进行分隔。但是基于单个汉字表示方法往往无法很好的代表语义信息。比较之下,使用词做特征成为一种更好的选择。词是中文语义的最小信息单位,词可以更好的反映句子中的信息,但是分析难度也提升了。以中文文本为例,词与词之间没有明确的分隔标记,计算机无法自动识别词语的边界,因此正确分词是这种表示方法的关键。该
4、方法比较常用。文本表示注解2024/3/24 周日非结构化数据分析词性(PartOfSpeech,POS)作为特征可以更好的识别词语之间的关系。让计算机来自动地给文本中的词标注词性,然后利用词性进行词义分析。如:什么样的名词经常和什么样的动词同时出现,这对于词语之间关系的研究开拓了新的思路。词性标注技术的成熟为词组组块(PhraseChunking)的界定与实体及关系(EntitiesandRelationship)的识别打下了良好的基础,有利于我们更深入的探索文本语义的信息。且词组的形式提高了特征向量的语义含量,使得向量更稀疏。近年来,词性标注(POS-tagging)、词组组块(Phras
5、eChunking)、实体及关系(EntitiesandRelationship)相关的研究也开展了很多,取得了很多可喜的成果,有兴趣的读者可以参考后面所附的文献进行深入学习。特征权重2024/3/24 周日非结构化数据分析特征权重2024/3/24 周日非结构化数据分析衡量某个特征项在文档表示中的重要程度或者区分能力的强弱更好的对文本进行表示一般利用文本的统计信息:词频常用的权重计算方法2024/3/24 周日非结构化数据分析TF-IDF例子(Saltonetal.,1983)2024/3/24 周日非结构化数据分析假设抓取了来自门户网站“经济”“娱乐”“科技”三个版块各300篇文章,其中有
6、一篇文章,共有100个词,其中“粒子”“和”“应用”三个词分别出现了 5次、35次和15次,我们想将该文档进行归类,看它属于“经济”“娱乐”“科技”文档中的哪一类。初步分析认为,“粒子”、“应用”两个词应该对文章分类的作用较大,而“和”对于文章的分析意义不大。更进一步的,如果目标是进行文档的归类,有理由认为“粒子”一词对于该文章的归属的贡献要高于“应用”。“应用”一词的专业性不及“粒子”。TF-IDF应用举例2024/3/24 周日非结构化数据分析词语词语词频(词频(TF)文档频率文档频率(DF)文档逆频率文档逆频率(IDF)权重(权重(TF*IDF)粒子粒子0.05509000.063和和0
7、.359009000应用应用0.154509000.045但是如果只关注词频,“应用”一词的权重更高。这时候,可以利用IDF的计算公式进行权重的处理,计算三个词的文档频率和文档逆频率,假设50篇文章中出现了“粒子”一词,450篇文章中出现了“应用”一词,900篇文章中均出现了“和”这个词语。那么采用TF*IDF方法计算得到的权重如下:特征权重注解2024/3/24 周日非结构化数据分析特征加权方法最初用于信息检索,特征加权主要有三个层次,局部加权、全局加权和标准化(Chisholmetal.,1999)。一般化的特征加权表示式如下:是词语w在文档d中的局部权重。是词语w在文档集合中的全局权重,
8、是文档d的标准化因子。局部加权仅使用词语在文档中出现的统计量,而全局加权则使用整个数据集中的统计量进行计算。特征提取特征提取2024/3/24 周日非结构化数据分析特征提取的意义2024/3/24 周日非结构化数据分析文本集合包含的特征太多10,000 1,000,000 unique words and more特征减少后,某些算法才能使用有些分类方法无法处理1,000,000以上的特征减少训练时间有些分类方法的训练时间与特征个数的平方成正比,或更糟使预测模型更快、更小能提升总体性能Eliminates noise featuresAvoids overfitting特征提取思路2024/3
9、/24 周日非结构化数据分析特征选择(FeatureSelection)文档频率信息增益卡方统计量互信息特征重构(Re-parameterisation)潜在语义分析文档频率(DocumentFrequency,DF)2024/3/24 周日非结构化数据分析文档频率(DF)指文本数据中包含某个词条的文档的个数。通过文档频率进行特征选择就是按照文档频率的大小对词条进行排序,将文档频率小于某一阈值的词删除,从而降低特征空间的维数。文档频率2024/3/24 周日非结构化数据分析基于DF的启发式要点太频繁的词项没有区分度,DF大于某个阈值去掉太稀有的词项独立表达的类别信息不强稀有词项的全局影响力不大
10、在训练集中,某些文档如果有某个稀有词项,它们通常也会有一些常见词项(对那一类)和通常信息获取观念有些抵触:稀有的更有代表性(这是一种adhoc方法,不依据什么理论)最容易实现,可扩展性好文档频率2024/3/24 周日非结构化数据分析Baeza-Yates and Ribeiro-Neto(1990)研究表明,若一个特征在语料集80%的文档中都出现了,它对于分类来说是无意义的。这样的词语主要是指停用词等,通过对这部分词语的压缩,可以使特征向量空间压缩到原始的40%或者更多。对于出现频率过低的词语,考虑到增加一个变量对于现实带来的成本,一般不利用这样的词语,而是尽可能少的选取其他词条。Yang
11、and Pedersen(1997)试验表明:在分类效果没有变差的前提下将特征空间的维数约减为原来的1/10是可能的,约减为1/100所带来的损失很小。熵2024/3/24 周日非结构化数据分析对分类系统来说,文档类别C的可能取值是每一个类别出现的概率是为类别的总数,熵定义为:熵/平均熵2024/3/24 周日非结构化数据分析在观察到特征项以后,文档落入某个文档类的概率就应该是条件概率 此时系统的熵为:该特征项的熵:该值越大,说明分布越均匀,越有可能出现在较多的类别中;该值越小,说明分布越倾斜,特征项可能出现在较少的类别中信息增益(InformationGain,IG)2024/3/24 周日
12、非结构化数据分析该term为整个分类所能提供的信息量特征项出现与否导致的熵的变化考虑和不考虑特征的熵的差值信息增益2024/3/24 周日非结构化数据分析信息增益2024/3/24 周日非结构化数据分析信息量与变量可能的变化有关,跟变量具体的取值没有任何关系,只和变量所取的种类多少以及发生概率有关),种类和发生概率决定了信息量的大小。Quinlan提到了这一点,信息增益的方法总是倾向于选择有多种属性的特征。只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“局部”的特征选择(每个类别有自己的特征集合,因
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 特征 提取 技术
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。