中国历史语料库(芝加哥大学)介绍

数据库名称:Chinese Histories (in beta)
  出版单位:芝加哥大学
  网站链接:点击此处


简介

Chinese Histories (Beta)语料库,由芝加哥大学Textual Optics Lab建设。目前他们已建成两个数据库:1) 民国期刊语料库,与上海图书馆合作,包括1918-1949年间出版的72本期刊全文,但此资料库只开放给芝加哥大学用户,无开放获取权限;2) 中国历史语料库,目前处于测试(beta)版本,但可开放获取。

中国历史语料库,内容包含了二十四史原文全文(注:不含《周书》、含《清史稿》)。用户可直接点击阅读,或是进行其他操作。其文章内容排版并不精美,因为此数据库内容主要用于计算性阅读。网站并未明确给出各史书的版本,有兴趣的同学可自行考察。查看其网站源代码,可以发现网站内容主要以jQuery编写。

界面

用户界面语言为英语,仅支持繁體中文搜索!

界面共分为四个标签栏,即Concordance, KWIC, Collocation, Time Seires,下面本文将分别介绍四个栏目的功能。

关键词定位

Concordance与KWIC都提供关键词定位功能。且支持搜索结果数据导出,导出文件为json格式。

Concordance意为词条索引,搜索方式类似于常见的搜索引擎。在更多搜索选项中,可以进行模糊查找、精确查找、同句中查找,还可以按出处、年代、标题等元数据进行查找。

KWIC意为“Key Word In Context”,即在具体语境中定位关键词。以此方式查询,结果会以横行显示,并突出关键词,便于定位关键词所在语境。

image

如图1,我们可以快速定位“莎车”国在各史书中出现的位置和语境。

并置词

Collocation为并置词查询功能,可查询与关键词同时出现的词及其词频。

image

如图2,经常与“新罗”同时出现的字词包括“金”、“百济”等,体现出新罗国内外形势相关特征。

年代分布

在Time Seires栏进行关键词搜索,可以以柱状图形式直观地观察到关键词年代分布频率。其本质是将搜索结果中的年代数据可视化。

image

如图3所示,“倭国”在前期出现频次高,后期鲜有提及,或可与日本史、中日关系史相结合研究。

简评

此数据库的便利之处在于,除了提供了“二十四史”的原文外,还集成了定制搜索、语境定位、并置词查询等功能,需要进行远读、文本研究的同学可直接上手操作。有更高级需求的同学们,也可以参考此网站的思路自行构建代码。

但此数据库对于史书版本问题并不重视,并未提供多版本资料。对于古典文献,版本信息无疑是至关重要的。但用户无法直接知悉该库所用文献具体版本,更无从进行版本比对等操作。另外,《周书》的缺失也令人十分遗憾。对版本有需求的同学,还应移步其他文献数据库,如Ctext等。

此外,该数据库连接速度快,界面清晰简洁,用户体验较好。但数据和源代码并未开源,也没有提供任何下载通道。