"韩国学数据库"介绍
▾ 名称:한국학 디지털 아카이브
▾ 中译:韩国学数据库
▾ 链接:点击这里
简介
自1999年以来,韩国学中央研究院将“韩国学数据库”设置为重点建设的数字项目。该项目以韩国王室图书馆“藏书阁”所珍藏的资料为基础,结合研究院的研究成果,将资源数字化,并经由互联网共享。
该项目的宗旨是搭建数字环境,将馆藏资源无偿分享给所有用户。在其官网档案中,也强调了这一点——“任何人、在任何时间、任何地点可以自如地运用韩国学数据库所藏资料。”
资源
经过二十余年、数个阶段的持续努力建设,该数据库资源已经相当丰富。按照不同的资源类型,该项目一共有如下几个子数据库(官方中文译名以及网站显示的谚文名):
-
古图书(고도서) 古图书可以理解为汉语语境中的“古籍”。该数据库基于皇室图书馆“藏书阁”,拥有数以万计的书籍种类,以及数百万图像数据。其中有约600种图书已有原文图像+全文文本+详细注释,这也是该项目的重点推进目标。
-
古文书(고문서) 古文书是档案文书类型的资源。该项目主要分为两类,一是王室珍藏的古文书;二是名门望族所珍藏的古文书,又称为“门中古文书”(문중 고문서)。这类资源包括谕书、行状、婚书、碑文等多类型档案,总计上万张图像以及数千全文和注释资料。
-
韩国文化画面资料(사진/회화자료) 即摄影和绘画材料。包含“宫廷仪范图解资料”、“宝苏堂印存印章”等子项目。该项目包含了韩国学中央研究院在编写『民族文化大百科辞典』时收集的韩国文化相关胶片资料中一部分内容的数字化成果。
-
语音资料(음성자료) 包含“韩国民间文学大系”、“韩语方言资料”及“韩国民谣大观”项目。是韩国最大的语音资料集,包含了总长达22万分钟的民间故事、民谣、巫歌、方言调查等用地方方音录音资料。
-
词典/实例(사전/공구자료) 即词典和工具材料。包含“韩国史基础词典”、“汉字成语用例”、“汉字字形典故”等子项目。
此外,根据其网站介绍,还有编年史、民间疗法等多种小型子数据库。
使用
由于篇幅受限,本文只以“古图书”数据库为例展示使用体验。
搜索
在搜索栏键入关键词并点击检索(검색)即可进行搜索。
如上图所示,点击特殊字符输入(특수문자입력기)按钮,可以输入罕见字符、汉字、日文假名等特殊字体。
用户可以进行全体目录检索(서지전체),也可以细分为按照书名(서명)、文章名(기사명)或作者/编者/笔者(저/편/필자)进行精确检索。还可以对全文文本内容(본문텍스트)或是注释文本内容(해제텍스트)进行检索。
输入谚文进行检索,也会返回相应读音的汉字结果。如图,我们搜索“이순신”,得到了带有“李舜臣”和“李纯信”的结果。
文本
相比起图像数据,从事文本研究的学者更关注可被机器读取的全文数据。
我们以《甲申政變記》(갑신정변기)为例,对全文文本进行查看。点开该书籍,网页将一次性显示该书的全部全文文本,因此网页将会短时间内加载大量内容,或影响载入速度。
如图,点击“원문보기”查看图像,可以查看该书指定页码的图像。同时,上方也有保存PDF的选项,可以一键保存整本书籍的影像。该版本为手抄本。
将全文文本与图片进行对比,我们可以发现,文本内容准确率相当之高(其中方框为字体缺失)。由于该网站并未提供对于全文文本生成的方法说明,我们无法得知全文内容是由人工识别还是自动手写识别所得。但其正确率颇高,应该至少引入了人工复检。
除了“古图书”数据库以及文本数据外,该项目还有大量多媒体资源。有兴趣的学友可以自行前往探索。
简评
本文介绍的“韩国学数据库”是韩国文化数字化的一项精彩案例。
从数据存取的角度来评价,该项目是值得称道的。其数据长期存放稳定,对全球用户开放获取,读者可以便利快捷地获取任何资源。其中部分数据已经过加工,不仅提供原始图像,还有可复制粘贴的全文文本,以及详尽的注释信息,便于用户快速获取资料内容进行研究使用。
该项目另一个特点是其资源类型多样。多个子数据库涵盖了古籍、档案、图像、音频等资料,内容丰富。由此可见韩国学中央研究院对于打造全方位的“韩国文化”资料库的野心。不过,过于驳杂的内容,使得网站的导航逻辑略显混乱,该网站简介中对于子数据库项目的介绍与网站目前的结构并不相符。一个大项目的菜单逻辑如何设计,值得我们思考。
韩国学者向来注重对本国文化的塑造,该项目对于我国的数字中国工作或许也有些启示。我国历史深厚,本土文化资源丰富,如果能将数字成果更进一步整合,并且更多地开放给海内外用户,将会有助于提高中国民族凝聚力和文化影响力。