计算机信息检索全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt
《计算机信息检索全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt》由会员分享,可在线阅读,更多相关《计算机信息检索全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt(296页珍藏版)》请在咨信网上搜索。
1、,计算机信息检索,第1章 信息检索的学科基础信息学,1 信息的概念1948年,申农在著名论文通信的数学理论中把“信息”解释为“两次不定性之差”,即通信的意义在于消除某种不定性。该论文成为信息论诞生的标志。 申农认为,信息的多少意味着消除了的不确定性的大小。 2 信息的特征 客观性:信息是客观事物运动与状态的反映。 动态性:客观事物的变化是永恒的,持续断的。 相对性:信息对于信息用户永远是相对的。 依存性:必须依附于一定的物质形式(声波、物质载体等)。 可传递可干扰:可跨越时空传递,但是传递过程中时刻被干扰。 可加工性:可以被分析、综合、扩充和浓缩。 共享性:信息可以被一个用户反复使用、或多个用
2、户同时使用。,4 信息的类型(按信息表达形式划分) 文字信息:用文字表达其内容的信息资料,如各种书刊读物; 声像信息:通过声频信号负载和传递的信息,如电影、广播等; 实物信息:通过实物来传递的信息,如样品等; 机读信息:通过计算机阅读的信息,如磁盘、光盘等;4 信息的类型(按信息加工的层次划分) 一次信息: 以信息制作者的研究成果为依据创作(撰写)的,未经信息加工的原始信息,如图书、期刊论文、学位论文等 二次信息: 汇集大量的信息,用科学的方法整序,以简练的语言揭示信息的内容和外部特征,并提供一定的检索途径的检索系统,如目录、索引、文摘、数据库、搜索引擎等,三次信息: 将大量的一次信息全面系统
3、的再度选择、分析和综合,编制成使用目的更明确,效果更理想的检索系统。如综述、百科全书、年鉴。 零次信息: 未经记录或未公开发表的最原始信息,其本身无法通过载体在较大范围内传播的信息。如口头交流、会议文献、学位论文、手稿等。 一次、零次信息是知识的创造,是信息检索的对象; 二次、三次信息是知识的重组,是信息检索的工具。,信息需要所谓信息需要,就是指人们在从事各项实践活动的过程中,为解决所遇到的各种问题而产生的对信息的需求。 信息的价值和作用 信息是使人原有的知识结构发生变化的那一小部分知识: K(S)+ I=K(S+ S) 一个人原有的知识结构(KS)在受到某些信息增量( I)的作用后,便可形成
4、新的知识结构(KS+ S) 信息动机的形成与转化 内在条件:在生活、学习和工作过程中遇到问题时感到缺乏信息的状态,一旦达到较强的程度,被用户意识到,就会转化为信息动机 外在条件:施加于个体之上的各种有形或无形的刺激,其中尤以信息环境和信息意识的影响最为显著。 信息需要的层次:未意识的,潜在的和现实的信息需要。,用户的信息行为 从用户的角度出发,人的信息行为主要表现为信息查询行为、信息选择行为和信息使用行为。 信息检索 当用户意识到自己的信息需要时,就说用户具有了一定的信息需要。用户为满足其信息需要,必然会在某种信息需要的支配下采取相应的行动。用户首先要采取的行动就是信息检索。 信息需要和检索行
5、为的总结:穆尔斯定律:可近性和易用性。可近性:最便于接近的信息源在信息检索行为中将首先被选用,而对信息源的质量和可靠性的考虑则处次要地位。易用性:如果使用户在获取信息时比不获取信息时更费心更麻烦,这个系统将不会得到利用。,信息识辩 不同类型的信息在各类收藏单位有着不同的管理方法,在检索系统中也有不同的著录格式.所以检索者必须具有识别信息类型的能力.信息的选择行为 信息选择是从某一信息集合中把符合用户需要的一部分(子集合)挑选出来。“符合用户需要”是信息选择的基本原则。其核心是: 1) 相关性:(和查全率有关) 信息交流过程中来源与终点之间接触效率的量度,凡是论述同一主题或属于同一领域的文献信息
6、都可以认为是相关的,而不考虑其水平高低; 2) 适用性: (和查准率有关) 用户对查询结果的价值判定,它反映了特定时间查询结果满足用户客观信息需要的程度,它受选择顺序和时间推移等多种因素作用,其判断的有效范围是非常短暂的。,第1章 信息检索的技术基础信息技术,1.2 技术基础信息技术概述 1.2.1 信息技术概述1.2.2 信息检索的关键技术数据库技术 1数据库技术的概念 2数据库的特点 3数据库的构成 4数据库的文档结构 1.2.3 信息技术对信息检索的影响,数据库技术的发展人工管理阶段: A:数据与程序互相依赖,不具有独立性; B:程序和数据一一对应,冗余度大; C:缺乏数据管理的软件。文
7、件系统阶段: 程序和数据有一定的独立性,数据的逻辑结构和物理结构之间可以有一定的区别。总之,只有数据处理,没有数据之间的联系。数据库系统阶段: 1)数据共享,减少冗余度;2)采用特定的数据模型; 3)具有较高的数据独立性;4)有统一的数据控制能力。,应用程序2,应用程序1,应用程序n,数据库管理系统DBMS,数据库,数据库模型 数据库模型是组建数据库的基础。该模型能使数据以记录的形式组织在一起,综合反映企业组织经营活动的各种业务信息,既能使数据库含有各个用户所需信息,又能在综合过程中除去冗余信息。要用一定的数据结构反映企业各部门信息之间存在的内在联系,以使数据能从面向用户的逻辑关系转化成计算机
8、的存储结构,反之亦然。目前DBMS所提供的数据库模型主要有以下三种:,R3,R2,R1,R4,S1,S2,S6,S3,S4,S7,S5,S8,S9,网状型,层次型,关系型,数据库的构成,从用户来看,数据库主要由“文档记录字段”三个层次构成。 1) 文档(file) 文档的概念是指数据库内容的组成的基本形式,是由若干个逻辑纪录构成的信息集合。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。,用户A,工作区,用户B,工作区,用户A2,工作区,外模式A(子模式A),外模式B(子模式B),概念模型(中间模式),子模式/概念模式映射A,子模式/概念模式映射B,DBMS,物 理 模 型 内 模 式
9、,模式/内模式映射,OS,数据库按内模式、中间模式和外模式三个层次描述,内模式是真正存储数据的,中间模式与外模式仅是一种逻辑性表示数据的方法,而外模式则是根据用户需求,将数据以逻辑方式组织和显示。三个模式间存在两种映射,依靠两种映射才能把用户对数据库的逻辑操作转换为对数据库的物理操作,方便地存取数据库的数据。,数据库三级模式示意图,数据库数据存取示意图,1) 程序A向DBMS发出读取一个记录的命令,命令中要给出记录类型名及要读取记录的关键字的值;2)DBMS分析命令,并取出程序A所对应的子模式I,从中找出有关记录的数据库描述;3)DBMS取出概念模式,根据子模式和概念模式之间的映射定义,决定应
10、读入哪些模式记录;4)DBMS查看物理模式,决定从哪台设备,用什么方式读取那个或哪些物理记录;,应用程序A,应用程序A的子模式I,工作区,状态码,系统缓冲区,DBMS,概念模式,数据库,OS,物理数据库描述,1,2,3,4,5,6,7,8,9,10,11,5)DBMS根据结果,向操作系统OS发出执行读取物理记录的命令; 6)操作系统执行读命令; 7)操作系统将所读取物理记录从外存储器送到系统缓冲区;程序实现存取,因而对用户是透明的,面向用户的是数据的逻辑组织形式;8)DBMS根据概念模式,子模式导出程序A所要读取的逻辑记录;9)DBMS将数据从系统缓冲区传送到程序A的用户工作区;10)DBMS
11、向用户程序A传送命令执行情况的状态信息;11)程序A使用工作区中的数据,并继续运行。,文档结构及检索原理 通常,检索系统提供的数据库由三个相关的文档组成。文档是由有穷相关记录构成的,这些相关记录由以一定的逻辑结构组合在一起的基本元素(如字段等)构成。 例如,按信息的作者姓名字母顺序(或笔划顺序)或序号等特征排列,其逻辑结构是线性结构;若按信息的学科内容分门别类排列,其逻辑结构是一种树形 ;而信息中关键词的相互联系,又是一种网形结构。无论什么样的逻辑结构,只要建立在计算机系统中,必然映射一种存储(物理)结构。 信息系统的数据库为了能够实现随机检索,都建立了顺排文档、倒排文档和索引文档。,记录号
12、主题词 11 计算机、软件、安全 12 软件、网络 13 网络、安全、软件 ,记录号 主题词 11 计算机、软件、安全 12 软件、网络 13 网络、安全、软件 ,标识词 记录号安全 11,13计算机 11软件 11,12,13网络 12,13 ,顺排文档(Sequential File) 是将数据库的全部记录按照记录号的大小排列而成的信息集合,由于它存储有记录的最完整的信息,所以,通常又把它称之为主文档(Master File)。它是数据库的存储实体,也是检索的基础。 其结构为:按某一关键字段顺序存入了数据库的全部记录。 但是顺排文档因为主题词等特征标识无序性,这种存储方式决定了直接用于检索
13、时对记录的存取只能按顺序号进行。如果对每个检索提问式都得按顺序从头到尾进行扫描,这严重地影响检索速度。,顺排文档的检索原理: 采用列表处理技术,首先将用户提问展开为等价的提问展开表;再按提问展开表的内容对顺排文档的每一信息记录的检索标识表依此进行,若匹配,显示或输出命中文献,系统提供,用户需求,用户提交检索式,构造提问展开表,数据库,读入信息,构造检索标识表,检索处理,匹配?,显示或输出命中信息,N,Y,顺排文档检索示意图,倒排文档(Inverted File) 倒排文档就是把记录中的可检字段(如篇名、作者名)抽出,包括单元词、多元词,按某种顺序重新加以组织后所得的一种文档,既可以按不同类型的
14、字段分别组织不同的倒排文档(如主题词倒排文档、作者倒排文档等),也可以把不同的字段组成一个混合倒排文档,如基本索引倒排文档、辅助索引倒排文档 。大大地方便了人们按照信息的属性特征快速地检索所需信息,提高了检索效率。,倒排文档通常有好几个。这是因为不同性质的标识词需要分别建立不同的倒排文档。倒排文档检索原理: 首先,用户提交的检索表达式展开为逆波兰表示,然后将逆波兰形式转换成一组检索命令;再执行这组命令,对倒排文档进行检索,得到满足条件的信息序号;最后根据信息序号从顺排文档中获取命中的信息记录。 关于逆波兰表示法: 波兰逻辑学家发明的一种表达式的表示方法,是把运算项(操作数)写在前,运算符在后,
15、故又称为后缀式。 例如:(a+b)*(c+d)的逆波兰表示为 ab + cd + *; (a+b)*c 的逆波兰表示为 ab + c * 它不符合人们通常的习惯,但适合于计算机处理。利用栈结构先进后出的特性,很容易计算表达式的值。由于逻辑检索式结构与计算表达式的结构相同,因次,将检索表达式转换成逆波兰表示。,系统提供,用户需求,输入检索表达式,构造逆波兰表示,主文档,抽取关键词,检索处理,显示或输出命中信息,倒排文档检索示意图,形成检索指令,倒排文档,顺排文档和倒排文档的主要区别在于: 顺排文档以完整记录为处理和检索单元,倒排文档则以记录中的字段为处理和检索单元。倒排文档相当于检索工具的“辅助
16、索引”。 倒排文档只包括记录的标识、信息的数量及信息存取号,因此在检索时,它必须和顺排文档配合使用。通常先在数据库的倒排文档中查得信息数量和记录的存取号,再从顺排文档调出信息记录,这就像手工检索时先查找辅助索引,然后再查找正文部分的款目一样。 在实际的检索系统中,为了提高检索速度,把上述的倒排文档分成了两个文档:索引文档与存取号倒排文档。索引文档存入检索标识、信息数量及检索标识的磁盘地址,而存取号倒排文档存入索引文档中所有检索标识的磁盘地址及对应于检索标识的所有记录的存取号。2) 记录(Record) 记录是文档的基本单元。它是对某一实体的全部属性进行描述的结果。在全文数据库中,一个记录相当于
17、一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。,3) 字段(Field) 字段是记录的基本单元。它是对实体的具体属性进行描述的结果。在各类数据库中字段的内容都是不相同的一般字段与信息的著录项目相对应。常见的字段名称和代码(也称段码)如下图所示 需要指出的是,各种数据库所设的基本字段大致相同,辅助字段却有很大的差别。辅助字段的数量、名称、使用方法也不尽相同,索引文档(Indexed File) 索引文档是便于随机存取、实现非顺序存储结构一种文件。在检索系统中又称为辅助索引倒排文档。其结构为:存储了同每个关键词有关的信息数(来源于倒排文档)和每个关键词的磁盘地址。,举例:用户联机提
18、交检索提问及系统反馈信息,数据库检索的过程介绍,例如,检索课题:计算机在监狱事务方面的运用 数据库检索的具体过程:1)先把课题编制成检索策略输入系统,系统中的索引文档对检索策略中的“计算机”和“监狱事务”分别与存储标识进行匹配,显示出“计算机”的信息有1299条,“监狱事务”的信息有392条。 2)系统分别到存取号倒排文档中找出这两个词对应的地址号(如12和90),同时找到了含有“计算机”和含有“监狱事务”的所有信息的存取号,并把它们调入内存单元进行组配运算。 3)组配运算的结果,有23条信息符合要求,显 示各自的存取号。 4)系统到顺排文档中按存取号调取命中的三篇 记录,并将记录打印输出给用
19、户。,数据库分类 从检索服务的角度出发,再以数据库所含信息内容的表现形式作为分类标准, 可以将信息数据库划分为三大类;参考数据库、源数据库、混合型数据库。 1)参考数据库(Reference Database) 这是指用户从中获取信息线索后,还需要进一步查找原文或其他资料的一类数据库。它包括 书目数据库:向用户提供信息线索,只能检索出信息的 标题、出处、著者、主题等。可分为文摘和索引数据库 指南型数据库:能提供用户参考、指南的各类信息,如企业、机构等名称、地址电话、人物、出版物、项目、活动等简要描述信息 2)源数据库(Source Database) 在欧洲也被称作数据银行(Data Bank
20、)。它是能够直接为用户提供原始资料或具体数据的一类数据库。,数值型数据库:提供数据或数值类信息,可分纯数值和文本数值型两种,后者仍以数值为主。术语数据库:存储和检索名词术语信息,如电子词典等;图像数据库:存储和检索各种图像或图形信息及文字说明资料;全文数据库:存储和检索文献全文或其中主要部分的信息;超文本数据库:存储内容分割为若干独立利用的结点,使用链路连结点等方式进行存取,形成了特殊的存取模式;新闻型数据库:收录范围极广,索引文摘无法同步,更新迅速;,举例: 例1:需查有关东南亚金融危机方面的文献 分析: 因是近两年来的事情,可选年代较近的库,如上海社科报刊篇名数据库9598.6,又因为有的
21、报刊上称其为金融风暴,所以检索提问式设计为:东南亚*(金融危机金融风暴)。键入后,令机器检索执行即可。 例2:欲了解有关美国新经济政策方面的文献。 分析: 因从时间上看也较近,且业内人士又称其为“第三条道路”问题,所以选择参考消息9697年数据盘或中国学术期刊(光盘版)9798.10,键入:美国*新经济政策第三条道路即可。,第2章 计算机信息检索,计算机信息检索成为今后信息检索的发展方向和主要手段,通过“一个能给用户意见提供大量的,由通信网络、计算机、数据库及电子产品组成的完备网络”(美国政府报告),人们可以在办公室或家里查找信息机构、各类图书馆的信息资料,了解学科专业领域的世界发展水平与动向
22、,查找所需最新各类信息。 计算机信息检索的发展历史 脱机批处理检索、 联机检索、光盘检索、网络化检索。 计算机信息检索的条件 物质条件:由数据库、通信系统和检索终端3部分组成。数据库是计算机信息检索的基本操作对象。人员条件:信息检索的效果与检索人员的素质有着密切的关系。,计算机信息检索的类型1 根据检索的内容可以划分为: 1) 数据检索:其检索结果为数据,例如,从统计数据库中检索人口增长率 2) 事实检索:其检索结果为事实。例如,从中国科技名人数据库中查询某一位科学家的生平与业绩。 3) 文献检索:其检索结果是能够满足用户需求的文献线索或全文,例如,从中国学位论文数据库(CDDB)中检索学位论
23、文。 检索类型的综合分析: 检索课题:循证医学信息管理系统的实践运用分析 关 键 词:循证医学 信息系统 循证医学(运用)实践 1)利用“中国大百科全书”数据库,查询“循证医学”的概念; 2)利用美国著名的医学数据库(Medline)检索“循证医学”和传统医学在治愈率上的比较; 3)利用Springer Link数据库检索“循证医学”的论文情况。,2根据被检索信息出版的时间划分: 定题信息检索 回溯性信息检索 3根据计算机检索工作的方式划分 脱机检索系统 联机检索系统 2.2 信息检索系统 定义:按计算机信息存储的方法建立起来的、供用户检索信息的一种有层次的体系,是表征有序信息特征的集合体。在
24、这个集合体中,对所收录的信息的外部特征和内容特征都按需要有着详略不同的描述,每条描述记录(即款目)都标明有可供检索用的标识,按一定序列编排,科学地组织成一个有机的整体,同时应具有多种必要的检索手段。二次信息或三次信息是信息检索系统的核心和概括。 职能:报道、存储和检索。 特征:信息集合、信息描述、概念标识科学编排、多检索途径 类型:OPAC、各专题、网络数据库、搜索引擎、国际联机系统等,评估指标: 信息的收录范围; 信息特征标识的详略; 摘录及标引的质量; 信息报道的时效; 检索功能的完善。3信息系统类型 1)参考数据库、2)源数据库、3)混合型数据库 OPAC、各类专题、网络数据库、搜索引擎
25、、国际联机系统等。4 计算机信息检索系统的构成 1)信息数据的选择、处理、录入、维护子系统 2)词表和标引子系统 3)检索子系统 4)系统用户接口子系统,计算机存储概述 计算机科学是一门研究信息的结构、存取、处理和利用的科学。而信息的结构和存取又直接关系到处理和利用信息的程序的效率。信息之间的结构关系,就是人们研究数据结构这门学科的重要内容 1 信息的逻辑结构 信息作为被计算机处理的对象,则应抽象成能为计算机处理的数据集合。通常,数据集合中的数据元素不是孤立的,而是彼此相关的,这种彼此之间存在的相互关系就叫做结构。人们将数据元素之间内在的、固有的联系称为逻辑结构。基本的逻辑结构有如下几种 1)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机信息 检索 全套 电子 课件 完整版 ppt 教案 教学 教程 整套
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。