计算机信息检索教学课件汇总完整版电子教案全书整套课件幻灯片(最新).ppt
《计算机信息检索教学课件汇总完整版电子教案全书整套课件幻灯片(最新).ppt》由会员分享,可在线阅读,更多相关《计算机信息检索教学课件汇总完整版电子教案全书整套课件幻灯片(最新).ppt(185页珍藏版)》请在咨信网上搜索。
1、计算机信息检索,计算机信息检索的过程,结构化、半结构化、非结构化信息资源,检索系统,专题数据库、OPAC、一般和多元搜索引擎、智能代理、国际联机系统,多媒体检索系统,第一章 信息概述,信息的特征 客观性:信息是客观事物运动与状态的反映。 动态性:客观事物的变化是永恒的,持续断的。 相对性:信息对于信息用户永远是相对的。 依存性:必须依附于一定的物质形式(声波、物质载体等)。 可传递可干扰:可跨越时空传递,但是传递过程中时刻被干扰。 可加工性:可以被分析、综合、扩充和浓缩。 共享性:信息可以被一个用户反复使用、或多个用户同时使用。信息的类型(按信息表达形式划分) 文字信息:用文字表达其内容的信息
2、资料,如各种书刊读物; 声像信息:通过声频信号负载和传递的信息,如电影、广播等; 实物信息:通过实物来传递的信息,如样品等; 机读信息:通过计算机阅读的信息,如磁盘、光盘等;,信息的类型(按信息加工的层次划分) 一次信息:以信息制作者的研究成果为依据创作(撰写)的,未经信息加工的原始信息,如图书、期刊论文、学位论文等 二次信息:汇集大量的信息,用科学的方法整序,以简练的语言揭示信息的内容和外部特征,并提供一定的检索途径的检索系统,如目录、索引、文摘、数据库、搜索引擎等 三次信息:将大量的一次信息全面系统的再度选择、分析和综合,编制成使用目的更明确,效果更理想的检索系统。如综述、百科全书、年鉴。
3、 零次信息:未经记录或未公开发表的最原始信息,其本身无法通过载体在较大范围内传播的信息。如口头交流、会议文献、学位论文、手稿等。 一次、零次信息是知识的创造,是信息检索的对象; 二次、三次信息是知识的重组,是信息检索的工具。,信息的价值和作用 信息是使人原有的知识结构发生变化的那一小部分知识: K(S)+ I=K(S+ S) 一个人原有的知识结构(KS)在受到某些信息增量( I)的作用后,便可形成新的知识结构(KS+ S)信息动机的形成与转化 内在条件:在生活、学习和工作过程中遇到问题时感到缺乏信息的状态,一旦达到较强的程度,被用户意识到,就会转化为信息动机 外在条件:施加于个体之上的各种有形
4、或无形的刺激,其中尤以信息环境和信息意识的影响最为显著。用户的信息行为 从用户的角度出发,人的信息行为主要表现为信息查询行为、信息选择行为和信息使用行为。穆尔斯定律:易用性和可近性。,信息的选择行为 信息选择是从某一信息集合中把符合用户需要的一部分(子集合)挑选出来。“符合用户需要”是信息选择的基本原则。其核心是: 1) 相关性:(和查全率有关) 信息交流过程中来源与终点之间接触效率的量度,凡是论述同一主题或属于同一领域的文献信息都可以认为是相关的,而不考虑其水平高低; 2) 适用性: (和查准率有关) 用户对查询结果的价值判定,它反映了特定时间查询结果满足用户客观信息需要的程度,它受选择顺序
5、和时间推移等多种因素作用,其判断的有效范围是非常短暂的。,计算机信息检索的原理 广义的信息检索是指将大量信息进行人工、或机器的概念分析,通过标引(分类、主题、题名、作者、代码、字段等),依据标引组织成计算机信息系统;信息用户则利用计算机,依据标引在信息系统中检索有关信息。所以它通常被称为“信息存贮与检索”。狭义的信息检索指广义的信息检索的后半个过程。 如果用最简洁的文字表达,那么就是信息的“存”和“取”。计算机信息检索的本质 就是用户的信息需求与存储在计算机检索系统中的信息进行比较和选择,即匹配(Match)的过程。也就是对计算机信息集合体(系统)采用一定的技术手段,根据一定的线索与准确找出(
6、命中)相关信息。,计算机信息检索的必备条件1 物质条件 从检索的过程来看,计算机信息检索的物质条件由数据库、通信系统和检索终端三部分组成。2 人员条件 1)对检索课题的了解的程度; 2)对检索系统(包括计算机和数据库)的掌握程度; 3)语言(检索语言、检索策略调整以及外语水平)的掌握程度。计算机信息检索系统的构成 1)信息数据的选择、处理、录入、维护子系统 2)词表和标引子系统 3)检索子系统 4)系统用户接口子系统,计算机信息检索的类型1 根据检索的内容可以划分为: 1) 数据检索:其检索结果为数据,例如,从统计数据库中检索人口增长率 2) 事实检索:其检索结果为事实。例如,从中国科技名人数
7、据库中查询某一位科学家的生平与业绩。 3) 文献检索:其检索结果是能够满足用户需求的文献线索或全文,例如,从中国学位论文数据库(CDDB)中检索学位论文。 检索类型的综合分析: 检索课题:循证医学信息管理系统的实践运用分析 关 键 词:循证医学 信息系统 循证医学(运用)实践 1)利用“中国大百科全书”数据库,查询“循证医学”的概念; 2)利用美国著名的医学数据库(Medline)检索“循证医学”和传统医学在治愈率上的比较; 3)利用Springer Link数据库检索“循证医学”的论文情况。,手工检索和计算机检索的比较 信息检索的本质没有变化,变化的只是检索手段、检索对象、信息表示的方式、存
8、储信息的结构和匹配的方法 手工检索:检索点少、费时、效率低,但查准率高,经济等。 计算机检索:检索点多、省时、效率高,但查准率低,费用高等。,计算机信息系统的组织,定义:按计算机信息存储的方法建立起来的、供用户检索信息的一种有层次的体系,是表征有序信息特征的集合体。在这个集合体中,对所收录的信息的外部特征和内容特征都按需要有着详略不同的描述,每条描述记录(即款目)都标明有可供检索用的标识,按一定序列编排,科学地组织成一个有机的整体,同时应具有多种必要的检索手段。特征:信息集合、信息描述、概念标识科学编排、多检索途径类型:OPAC、各类专题、网络数据库、搜索引擎、国际联机系统等职能:报道信息、存
9、储信息和检索信息评估指标: 信息的收录范围; 信息特征标识的详略; 摘录及标引的质量; 信息报道的时效; 检索功能的完善。,信息系统的组织方法 字顺组织: 音序:根据汉字的读音及读音的符号的顺序组织信息; 形序:根据汉字的形体结构的某些共同之处加以排序; 号码组织: 按照信息被赋予的号码次序或大小顺序排列的方法;如专利号; 自然组织: 时序组织:按信息发生的时间顺序组织信息; 地域组织:按信息发生的地域、区划等地理顺序组织信息 字段组织:由若干数据项组成的记录来构成数据库的文档,通常 可分为基本字段和辅助字段,每个字段都可以作为检索入口。 超文本组织:非线性的、联想的、跳跃式的、多角度多层次的
10、 信息组织方法通过基本机构由结点的链组成,把信息中产生联 想的内容组合起来。 元数据组织:通过对网络信息(Web页面)外部特征和内容特征 的描述,并按照某一特征的规则组织信息的方法。,数据库的字段组织,数据库组成:符合某一目的需要的若干文档的集合 文档:若干个逻辑记录构成的信息组合 字段:用来描述实体的具体属性 记录:对某一实体的全部属性进行描述的结果 数据:对具体属性的表达,元数据信息组织实例: , 元数据 页面体信息省略 ,元数据概述 即关于数据的数据,它是对数据内容的描述。 都柏林核心集(Dublin Core) 通过电子资源提供者对WEB资源属性信息的描述,依据规范的款项对网络信息资源
11、内容进行标引,依此提高网络资源的检索效率。 特点: 简易:只有15个元素且都具有一个能够普遍理解的语义。 通用:不针对某个特定的学科或领域,支持对任何内容的资源进行描述,增加了跨学科的语义互操作性的可能 兼容:通过内嵌在HTML语言中来实现其对Web资源的描述。 可扩展:提供能够扩展描述的方法,即限定词的使用。:模式体系(SCHEME)、语言种类(LANG)、类型(TYPE),即所谓的“堪培拉限定词”。,计算机信息检索语言,定义: 精选于自然语言并加以规范化的词汇符号,用以对信息内容进行 概括其内容或外在特征的概念及其相互关系的概念标识体系。在信息的存储和检索过程中,它起着重要的语言保障作用。
12、它既是 沟通信息存储和检索过程信息标引和信息利用桥梁,又是检索系 统表达信息主题概念和检索课题概念的人工语言。概念: 1)等同关系: 同义:自行车和脚踏车、单车;斯里兰卡和锡兰; 准同义(近义):实验和试验;法律制度和司法制度; 2)从属关系:经济和工业、农业经济;文学和中国文学; 3)相关关系: 交叉:概念的一部分外延相重合,如市场文化学;,矛盾: 概念外延上的互相排斥,它们的外延之和等于其共同上位 概念外延的关系,如女性与男性; 对立:概念外延上的互相排斥,而它们的外延之和不 等于其上 位概念外延的关系,如法制和犯罪; 并列:是同一上位概念下的几个下位概念间的关系 检索语言在表达各种概念及
13、相互关系时,普遍地应用了上述概念逻辑的原理,并且利用了概念的划分与概括,概念的分析与综合这两种逻辑方法来建立自身的结构体系。检索语言的 类型: 分类语言(C912、F715) 反映信息内容特征 主题语言(关键词、叙词等) 题名、篇名 著者、团体著者 反映信息外部特征 出版事项(出版单位、时间等) 代码、序号(ISBN、专利号等) 其他(区域、时代、年代等),分类语言定义:建立在科学分类的基础上,运用概念划分与概括的方法,将 概念进行层层划分,逐级划分就产生许多级别的下位类目, 层层隶属,形成一个严格有序、层次分明的知识门类等级体 系。每个类目分别以不同的符号作标志,每个分类号都是表 达特定知识
14、概念的语词,即分类语言的语词,如: C910 社会学理论 C913.1 家庭婚姻 C8 统计学 C912 社会关系 C913.2 老年问题 C社科总论 C91 社会学 C913 社会问题 C913.3 酗酒 C92 人口学 C915 社会工作 C913.4 性问题 C93 管理学 C917 社会保障 C013,5 青少年犯罪分 C913.9 其他社会问题,使用分类语言的检索步骤,1)分析研究所需要查找信息的内容主题。 2)判断该主题在分类法中属于哪一大类,然后再从大类一级一级往下寻找,直到查到具体类目(或有关类目),记下类号为止。 3)根据检索到的类号在检索工具中检索,便可查得所需信息。例如,
15、欲查有关税收理论方面的信息。先进行分析得出主题是“税收”。由于专业范围窄,概念内涵较深,可概括为财政,财政又可概括为经济,然后再层层往下演绎。如:经济 财政金融 财政 财政理论 财政收入与支出 税收,分类号为F810.42。按此号到检索系统中去查找即得。,主题语言定义:用自然语言中的名词、名词性词组描述事物概念的中心语义。 也就是说,它以语言文字为基础,以反映特定事物为中心, 不论学科分野和科学技术的逻辑序列,直接借助于自然语言 的形式,作为信息内容的标识和检索依据的一种以主题字顺 体系为基本结构的检索语言。包括关键词语言、叙词语言和 标题词语言。例如: 网络资源利用中知识产权的法律思考 主题
16、词:知识产权 资源利用 网络资源 监狱管理中心理学实践的理论分析 主题词:心理学实践(运用) 监狱管理主题语言包含两个内容: 1)指表达信息内容特征的、经过规范化的名词术语; 2)指把这些名词术语按字顺排列成主题记号表或标题词表,以 此作为规范语词标引和检索信息的工具。,使用主题语言的检索步骤,1)对检索课题进行主题分析。如,中国税收理论方面的信息,其主题概念是中国税收理论,转换成主题词:税收、中国。 2)将所得出的主题概念转换成主题词; 3)再按查出的主题词字顺去翻检目录、索引或输入计算机数据库 4)注意选取最专指的主题词,再利用主题词找出相应的主题词。 因为选取上位类,范围过宽,缺乏查准率
17、,反之选取下位类,范围过窄,缺乏查全率。 5)应将主标题与副标题、说明语联系起来,如“社会主义空想”,应逆读为“空想社会主义”,“资本论传播”,应顺读为“资本论的传播”。 6)使用主题词检索信息时,还应充分考虑和选择该词的同义词、近义词作为检索入口,这样才能保证查全率。,计算机信息检索的一般技术,1 布尔逻辑算符 指通过标准的布尔逻辑关系词来表达检索词与检索词之间逻辑关系的检索方法,也是现代信息检索系统中最常用使用的一种方法。常用的布尔逻辑算符有三种: 逻辑与:算符 AND * 示例:刑事犯罪 * 女性 computer AND law 释例:同时含有 *前后两者概念的信息 作用:缩小检索范围
18、,提高检索的查准率 逻辑或:算符 OR + 示例:WTO + 世贸组织 + 世界贸易组织 car OR automobile 释例:符合 + 前后概念其中之一即可 作用:扩大检索范围,提高检索的查全率,逻辑非:算符 NOT 示 例:知识产权 版权 automobile NOT truck释 例:满足前者概念,同时必须剔除后者作 用:缩小检索范围,提高检索的查准率2 截词符(truncation) 截词是指检索者将检索词在合适的地方截断,局部进行检索的一种方法,即凡满足这个词截断部分中的所有字符(串)的信息,都为命中信息。在西文中,使用截词方法可以解决一个词的单复数问题,词干相同而词尾不同的问题
19、(例如,由同一词根派生出来的名词、动名词、形容词和副词等)以及英美单词拼写差异等问题。 截词必须适可而止,截去部分过多会大大增加误检率。绝大多数的检索工具都支持截词功能。有的是自动截词(如Lycos),有的是在一定条件下才能截词(如Alta vista)。使用最多的是右截词(如comput*),部分支持中截词(如wom*n),左截词则少见(如*physics)。,后截词:edit*、computer* 可以检索到:edit、editing、edition、editor和 computerized、computerization等前截词:*market *physics 可以检索到:superm
20、arket、internet-market等*physics,可以检索到astrophysics、biophysics、chemo-physics、geophysics等中截词:wom*n,可以检索到:woman、women等。需要注意的是: 按截断的字符数量来分开分为有限截断和无限截断两种类型。在不同的检索系统中对截断符号的表示具有不同的规定,例如,Dialog系统使用“?”,而BRS系统使用“$”,Orbit系统使用“#”等。,使用布尔算符需要注意的是: 1)表达方式有异: 符号型:“ + ”、“ * ”、“ - ”; 字母型:“and”、“ or”、“ and not(not)”; 菜单
21、型:“match all terms”、“match any term”; 文字型:“MUST contain”、“MUST NOT contain”2)部分支持布尔算符 如Yahoo!不支持逻辑非、如HotBot、Infoseek等不支持复合布尔算符,却允许用户根据自己意愿组配布尔算符。3)布尔算符的局限性显而易见。 匹配标准僵化、相关度难以描述、输出信息不排序、难以构建理想的提问式等。尤其是公共检索系统更难以面对最终用户。所以各类系统均出现一系列方法来部分弥补其不足。如英国的Okapi系统采用词频加权模式,部分地弥补布尔算符的不足。,3 限制检索: 限定检索的条件多种多样,主要和常用的是字
22、段限制,它是限定检索词必须在数据库记录中规定的字段范围内出现。如 Computer/AB(后缀:基本字段使用)、 LA=English(前缀:辅助字段使用)等。其余可以限定的有: 1)限定范围,即限定关键词必须是处于页面中的某个字范围内的。如限定在标题、URL、链点文字、网页文字、特定站点等部分; 2)限定网页深度(即网页层次); 3)限定在某一专题内。 如新闻组、黄页、电邮地址、股票等; 4)限定在某一分类类目内;如经济、文学、艺术、军事等 5)限定首先在5最优站点范围内检索; 6)限定网络资源类型(网站类型)。如个人网页、商业、教育等; 7)限定网络资源类型。如文件、声音、图像、HTML、
23、编程语句等; 8)限定日期。如特定日期前、后、最近某段时间内建立等等; 9)限定地区或域名。,4 邻近检索 (nW):要求所连接的两个检索词在结果中相互距离不超过n个词(中文则不超过n个字),而且前后顺序不能颠倒。如:检索式second(W)world(W)war就只能检索出那些包含词组“second world war”的结果,而不会检索到包含“second war in the world” (nN):用途略逊一筹。作用相同,但前后顺序可以变换。如: Environment(2N)protection就可检索出包含 “environment protection” “protection
24、of forest environment ” “protection of the environment” “protection of water environment” 总的来说,(W)和(N)关系对提高检索的查准率有着不可低估的功用。如果SE能支持更多其他邻近检索关系,如DIALOG的(L)和(F)关系,查准率可进一步提高。,检索效果的分析和评估检索效果:是指计算机信息系统检索信息的有效程度,反映了数据库系统的检索能力。检索效果包括检索的技术效果和经济效果。 技术效果:信息系统完成其功能的能力,主要指性能和质量。 经济效果:信息系统完成其功能的价值确定,主要指成本和时间。 查全率:
25、是衡量系统检索出与课题相关信息的能力; 查准率:是衡量系统拒绝非相关信息的能力。 两者结合起来,即表示信息系统的检索效率。,查全率,查准率,一系列实验表明:查全和查准之间存在互逆关系。同时提高查全率和查准率是有难度的,对任何一个检索系统,在两者间存在一个最佳的比例关系,即查全率在60-70%,查准率在40-50%。,关于检索步骤,检索课题,检索结果,分析研究课题,选择检索系统,确定检索途径,调整检索策略,选定检索方法,初步检索结果,获取原始文献,制定检索策略,N,Y,关于检索词和关键词关键词: 就是从检索课题的题目、摘要和内容中抽取出来,能够充分表达信息主题内容的具有检索意义的关键性词汇。例如
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机信息 检索 教学 课件 汇总 完整版 电子 教案 全书 整套 幻灯片 最新
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。