哈佛大学历史数据库进中国,还说未来要记录每个有史可载的人_文化_好奇心日报

韩方航2018-03-21 07:30:33

他们的中国合作方是一家名为中文在线的公司。

中国历代人物数据库(CBDB),是由哈佛大学费正清中国研究中心、台湾中央研究院历史语言研究所、以及北京大学中国古代史研究中心合作开发的一个数据库。通过收录人物传记,并对其中的语句进行分析,可以为历史学者提供人物资料的查询。

近日,CBDB 项目的负责人之一、哈佛大学副教务长包弼德(Peter Bol)来到中国,与一家中国公司中文在线签约合作,希望借助后者的技术来提升中国历代人物数据库的处理历史资料的效率和准确度,提高用户体验,并且能够将其推广到更大众的用户群体当中。

CBDB 的前身是由美国学者郝若贝 (Robert M. Hartwell)于 1970 年代创立的历史人物数据库。利用早期 MS-DOS 系统下的数据库软件 dBase,郝若贝将大量的中文文献数字化,使得研究者可以通过输入关键词,对文献进行检索,从而节省查找资料所需要的时间。

郝若贝自己从 CBDB 中收益良多。作为研究唐朝中期到元朝历史的学者,他的研究成果以极其丰富的文献引证而出名。这就得益于他大量搜集文献,并将其制作成为数据库的便利。他相信,由于中国历史文献极其丰富,包括庞大官僚机构炮制出的各类文件,也包括中国人的通信、祭文等多种日常应用文体,因此建立一个完备的、便于查阅的对于中国古代的历史研究大有裨益。

在接受了郝若贝教授的捐赠之后,哈佛大学在这一数据库的基础之上建立了 CBDB。期间,技术更新换代,CBDB 也从原本的 dBase 换成了更新的数据库系统 Access。同时,数据库中的文献也得到了大量扩充。截至 2017 年 4 月,CBDB 一共收录了 37 万份人物传记资料。

近年来,CBDB 的两个重大更新在于,首先对词汇的含义进行了识别和筛选。例如,母亲这个含义在汉语中可以表达为“母”,“妈”,“娘”等,而含有“母”这个字的“后母”,“养母”等词却不一定表达母亲的含义,传统的检索功能因此效率会受到影响。CBDB 通过对这些词汇进行编码,从而使得一个查询母亲含义的人,能够避开干扰,获得更精准的信息。

其次,CBDB 也和复旦大学的地理信息系统合作,以地图的方式呈现相关信息。下图就表示了 CBDB 收录的 67000 人在中国地理上的分布。从中,历史学家可以研究地理或者城市分布对于中国历史的影响。

此次 CBDB 和中文在线签约,其中强调的一点就是利用人工智能技术,提高处理历史资料的效率和准确度。这似乎就将利用人工智能对于自然语言的处理技术,像 Siri 这样的人工智能技术能够对用户的呼叫作出回应,就是基于这样的技术。

包弼德还提及的一点是,希望借助中文在线将 CBDB 大众化。 两年前,在接受澎湃新闻采访时,包弼德在被问及 CBDB 能否让更多历史爱好者接触、研究历史时回答:“关于降低门槛,如果这是真的,我会非常乐意见到;虽然至少到现在,这种情况还没有出现,但如果出现了,也会是 CBDB 的一大贡献。”

“除了在学术上应用以外,也把它推向公众,使普通人也能够更方便的了解中国历史,尤其是历史上的这些人物——他们的事迹、著作、生平等等一系列的贡献。”在此次的发布会上,北京大学中文古代史研究中心史睿表示。

不过,包弼德对于 CBDB 在历史研究中的作用表现得非常谨慎。“历史研究永远不止一种研究方式……前提是,你要有发现问题的能力,和清晰知道哪种方式,哪种工具能有助于你解决问题。”而 CBDB 未来的目标“就是将中国每一个有史可载的个人都录入进这个系统里”。

喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。