数字人文视野下西文古籍数据库的研发_张毅.pdf
《数字人文视野下西文古籍数据库的研发_张毅.pdf》由会员分享,可在线阅读,更多相关《数字人文视野下西文古籍数据库的研发_张毅.pdf(8页珍藏版)》请在咨信网上搜索。
1、2023年第2期数字人文视野下西文古籍数据库的研发张毅摘要近年来,虽然国内图书馆界对西文古籍的研究不断增加,但大多数研究仅限于馆藏调查、版本分析和文献修复,缺乏关于西文古籍数字资源的研究;而实践方面,还是以纸本借阅服务为主,无法满足读者在线阅览西文古籍的需求。文章以读者需求为中心,在分析国内外西文古籍数据库建设现状的基础上,总结了西文古籍数据库的建设思路,并以华东师范大学图书馆西文古籍数据库建设为例,介绍了其采用开源软件和数字人文技术进行西文古籍数据库开发的过程和经验,可供同行参考借鉴。关键词数字人文西文古籍开源软件 分类号 国内馆藏的西文古籍是研究西方思想文化和中西交流史的一手资料,具有重要
2、的历史和学术价值。然而目前国内各馆西文古籍文献的保存和服务的状况却不尽如人意:对于闭架保存的善本西文古籍,读者需要经过预约等复杂手续才能阅览;对于非善本西文古籍,由于缺少专业的保管,存在着破损严重的情况,以上这些问题都不利于西文古籍价值的发挥。随着数字时代的到来,数字化成为解决纸质西文古籍保存和服务问题的有效手段,本文在分析国内外西文古籍数据库建设现状的基础上,总结了西文古籍数据库的建设思路,并以华东师范大学图书馆西文古籍数据库建设为例,介绍了该数据库的全文高清浏览、可视化、全文检索、分类浏览、在线标注以及知识图谱等等多方面的功能。借助数字化和数字人文等多方面的技术,西文古籍得以重新焕发出历史
3、与文化的魅力,可以被更广泛地传播与利用。西文古籍数据库建设情况调查国内的情况目前,国内图书馆界对于西文古籍的出版时间范围的界定存在着不同的看法,但在实践中,通常将 年之前出版的西文图书视为西文古籍,将 年之前出版的西文图书归为西文善本。国内公共图书馆国内公共图书馆收藏的西文古籍主要来源于晚清民国时期的教会图书馆或者个人收藏者的捐赠。年月,通过在搜索引擎和国内各级公共图书馆的网站以及目录系统中,检索“西文古籍”“旧版西文图书”“外文古籍”等关键字,可查到许多收藏了西文古籍的图书馆。其中收藏最为丰富的是国家图书馆与上海图书馆,均超过万册。国家图书馆收藏的西文古籍质量最高,大多属于善本,并且建立了独
4、立的西文古籍展示网站,上海图书馆和大连市图书馆专门针对西文古籍开发了独立的书目系统,澳门公共图书馆则有专门推荐西文古籍的网页,提供了部分西文古籍的检索和介绍。国内高校图书馆 年月,以检索式“西文古籍 :”在必应搜索引擎中检索与高校图书馆有关的西文古籍数据库,发现北京大学图书馆、中山大学图书大学图书馆学报 国家社会科学基金项目“高校图书馆特藏资源服务模式及站群系统研究”(编号:)的研究成果之一。张毅,:,邮箱:。:?:2023年第2期馆、厦门大学图书馆和河北大学图书馆等都有馆藏西文古籍的介绍,但未见相关数据库的介绍。在中国知网期刊数据库中检索到,于燕妮总结了中国人民大学图书馆对馆藏的 册西文古籍
5、进行数字化加工和著录的经验,但未见相关专题数据库建设的说明。此外,北京师范大学图书馆的晚清民国教材全文库零散收录了与教科书相关的西文古籍,但在校外不能访问全文。西文母语地区的情况对西文母语地区的西文古籍数据库建设的调查以高校图书馆为主,笔者于 年 月,对 全球高校排名前 的英国、美国、澳大利亚以及德国等国家的高校图书馆进行了调查。有 所高校的数字图书馆中有专门的西文古籍集合,其命名一般为善本集合(),尽管部分善本集合是所在高校数字图书馆平台的子网站,但一般也具备数据库主页、检索框、分类等独立的网站功能,所以本研究也将其作为西文古籍数据库处理。通过对这些西文古籍数据库的详细分析,发现注重用户体验
6、和开放共享,以及数字人文工具的应用是其主要特点,具体如下:普遍采用 技术西文母语地区高校的数字图书馆普遍采用了国际图像互操作框架(,)技 术发 布 高 清 数 字 对 象。具有图像动态加载功能,可以根据终端屏幕尺寸大小,为读者提供图像的最佳分辨率。如牛津大学博德利数字图书馆收藏的意大利语古籍 一书共有 页,每一页的尺寸为 像素,整本书的存储空间超过 ;剑桥大学数字图书馆收藏的西文古籍 (,)有 页,每页图像尺寸为 像素,整本书需要 存储空间。二者均采用了 的动态加载技术,读者可在低延迟下获得最佳分辨率的浏览体验。此外,采用 技术不仅可以实现西文古籍数字对象的高清在线浏览,而且还可赋予数字对象开
7、放共享的能力。对外提供编程接口被调研的部分西文古籍数据库采用了标准的资源描述本体,对外提供数据编程接口,使其成为整个社会数据基础设施的一部分。如哈佛大学图书馆通过应用编程接口开放其西文古籍元数据与部分全文的光 学 字 符识 别(,)数据,共计 册。同样提供编程接口的数字图书馆还有牛津大学博德利数字图书馆中的西文古籍集合。使用开源软件,并作为开源软件贡献者西文母语地区的高校图书馆在构建西文古籍数据库时,采用了大量的开源软件,例如,斯坦福大学西文古籍数据库的后台系统,使用 进行数据索引,使用 实现分页浏览。包含大量西文古籍的剑桥大学数字图书馆使用 与 构建响应式页面,使用 作为 图像查看器。剑桥大
8、学、美国西北大学等学校的数字图书馆还将自己的源代码提交到 共享 ,供个人与组织下载使用。曼彻斯特大学图书馆在剑桥大学的帮助下,利用开源的剑桥大学数字图书馆系统构建了曼彻斯特数字馆藏库,并收藏有大量西文古籍。全文检索由于古文字与印刷质量的问题,目前基于现代英语的机器学习技术在西文古籍文字自动识别方面仍存在一些困难。但是,对西文古籍进行全文文字识别已经成为一种趋势,也是读者呼声较高的功能。例如,牛津大学数字图书馆已经对部分图书进行了全文文字识别,并计划未来逐渐转录所有的数字馆藏,哈佛大学图书馆于 年,开发了针对所有数字馆藏的全文检索工具,南安普顿大学数字图书馆提供全文检索,而且可以定位检索结果到章
9、节。可视化可视化能够将抽象的事物用生动的形式展示,为人文学者提供一种全新的研究工具,例如瑞士苏黎世联邦理工学院的西文古籍数据库,采用地图方式展示古籍图书的出版地分布情况,不列颠哥伦比亚大学西文古籍数据库则以时间线的形式进行资源揭示,能够清晰地在时间尺度上对西文古籍的数量与作品类型进行分析。数字人文视野下西文古籍数据库的研发 张毅 :2023年第2期研究思路调查结果显示,西文母语地区特别重视西文古籍数据库建设,以最大程度地开放共享为建设理念,依托开源软件构建多种数字人文工具。随着人工智能技术的不断发展,西文古籍全文 与实体识别技术逐渐得到推广,使得全文检索成为可能。国内图书馆界也开始重视西文古籍
10、的重要价值,但国内的西文古籍全文数据库建设还停留在理论研究阶段。本研究将借鉴西文母语地区建设西文古籍数据库的经验,以读者需求和学科发展为导向,探索构建西文古籍数据库。西文古籍数据库应具备友好的用户体验自适应多种访问终端第 次 中国互联网络发展状况统计报告 显示,截至 年月,国内手机接入互联网的比例已达到,超过了台式电脑、笔记本、平板电脑的总和。西文古籍全文数据库平台可采用响应式网页设计方式,自适应手机、电脑、平板等多种访问终端,满足读者多元化的访问需求。优化页面布局与提高响应速度 年,华东师范大学图书馆在全校范围内对图书馆主页改版的需求进行了调查,读者反馈意见最多的是图书馆主页内容繁杂,响应速
11、度慢。西文古籍数据库也可以借鉴这一调查结果,页面设计以简洁为主,并根据用户使用反馈不断优化。系统的响应速度决定着用户的留存,在设计西文古籍全文数据库时,可采用动态加载与异步通讯等措施确保响应速度。提高搜索引擎的收录当前,搜索引擎依然是用户获取信息的重要入口,将 嵌入到西文古籍数据库的网页中,可使得资源更容易被搜索引擎所收录。增加西文古籍揭示平台与图书馆主页、电子资源导航以及学校主页之间的超链接,也能有效提高搜索引擎的收录量。数字人文技术的应用仅仅将西文古籍数字化并在线发布,仍属于传统纸质资源服务模式的简单升级,不能有效释放西文古籍的独特价值。数字人文是数字技术与人文学科的交叉领域,由大量开源工
12、具组成的数字人文软件基础设施,可赋予西文古籍全文数据库更多的功能(如可视化、众包以及文本挖掘等),能够协助人文学者挖掘出西文古籍所蕴藏的潜在知识。可视化数字人文常用的可视化方法有图表、关系网络、地图、时间线等,其中地理信息系统()是比较成熟的数字人文研究工具,结合时间变量,可为人文学者提供时空层面的内容揭示。众包众包可以有效解决西文古籍能见度低的问题,于 年专门成立了 注释工作组(),并于 年发表了 注释数据模型、词汇表及注释协议等三份正式推荐标准,这三份标准的发布,标志着数字资源众包时代的到来。文本挖掘在西文母语世界中,已经形成了大量西文古籍的语料库,比如维基百科开放数据、哈佛大学数字图书馆
13、云等。利用这些成熟的语料库资源,结合机器学习算法,可以精准地对西文古籍进行文本挖掘,更加深入地揭示其所蕴藏的知识。采用开源软件 、以及剑桥数字馆藏平台等系统,是较为主流的数字资源管理平台,它们的底层架构也多基于开源软件构建,其中包括 和 等关系型数据库实现的元数据存储,和 等工具实现资源的发现,和 等技术进行的用户界面开发,以及基于 框架构建的时空可视化展示等功能。在图像处理方面,这些平台大多采用 进行图像处理,并借助 、等工具实现符合 标准的图像在线浏览,同时还利用 、以及 等图像服务器工具发布可动态加载的图像。利用商业人工智能平台已经较为成熟的商业人工智能平台,能够对西文古籍进行自动分类、
14、标签抽取、内容审核以及图像识别等分析,其分析结果经图书馆校验后,可作为西文古籍元数据的补充,提升西文古籍的能见度;导入相关专业领域的语料库还能进一步提升人工智能平台识别的准确度。整合西文母语世界的同类型资源西文母语世界中已经有大量开放的西文古籍资源,对于其中以 格式发布的相关资源,可以将其整合到本地数据库来丰富本地资源,对于以关联数字人文视野下西文古籍数据库的研发 张毅 2023年第2期数据形式发布的数据集,则可用来对本地西文古籍的元数据进行校验与丰富。西文古籍全文数据库的建设实践以华东师范大学图书馆西文古籍资源为对象,基于开源软件与云开放平台构建西文古籍全文数据库。西文古籍文献详情华东师范大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字 人文 视野 西文 古籍 数据库 研发
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。