QQ客服热线
您的当前位置:您的当前位置:首页>文化典籍· 内容详细页
全宋文数字化对宋学研究的促进
来源:河南中华文化促进会   编辑:admin   发布日间:2013-12-26   

全宋文数字化对宋学研究的促进

上海人民出版社原总编辑李伟国在研讨会上的主题发言

 

      我在这里想说一个资料问题。我们研究宋学,一定离不开各种各样的资料。其中,全宋文是一个非常重要的资料保存。全宋文包含了整个宋朝320年间的9179位作者的172456篇文章,分为8345卷,总字数达到了1.1亿,已经出版360册。

  当然,宋代的资料也不光是全宋文,还有全宋诗、全宋词。现正在编全宋笔记,这些也跟全宋文不相重复。当然还有很多专著,我们全宋文按照体例也是不涉入的。全宋文所涉入的是能分为一篇篇文章的这样一种文献。全宋文的使用方式大体有两种,一种是全部的、局部的有序(加以)阅读,这是大多数研究宋代文学的学者们的使用方法。但是还有一种方式其实更重要,就是从全宋文里边查找研究所需要的资料,包括宋学的各个方面。不管你从事研究文学、历史、哲学、经济,现在的纸介图书基本上可以解决有序阅读的需求。

  我刚才讲的两种使用方式,第一种是有序的阅读,还有一种是无序的阅读,或者说是碎片化的阅读。而无序阅读、碎片化的阅读和使用,如果没有一个强大搜索引擎的数据库是很难实现的。所以,在全宋文数据库编制之前,如果有一位研究宋学的学者,他要写一篇什么样的论文,他一定会需要很多与其研究的问题相关的数据,但是他很难利用全宋文,因为绝大多数的使用者都不知道这个全宋文里面有没有他所需要的东西。如果有的话,在哪里?像这样一个庞大的文献仓库,你要走进去,找到自己需要的东西,难度是非常大的。而且凡是无序阅读的学者,包括我自己,常常利用数据库在搞很多的研究,对于数据库里边的东西是如何安放的,他不一定会关心。比如说,现在我们是按照时代、作者,还有文体,他可以略微知道一下,但不必太大的关心。他要关心的是有没有我需要的东西。如果有的话,我就会调出来,它放在什么地方,我也不管。所以,现在世界上有一些图书馆,已经采用的是这种方式,你要的书可以用一个东西自动给你调出来,至于它放在什么地方你不用管,它安放的完全可以按照8k、16k、32k等平方,它可以不按照什么经史子集或者哲学、文学这样来放。比如说我过去在上海搞一个《淳化阁帖》的展览,它是从美国买过来的,花了300多万美元,引起了很多人的非议,说这东西有可能是假的,结果我参与了《淳化阁帖》的研究,我就使用了数据库,证明了他们从美国犹太人手里买到的这批东西在南宋的一位宰相王淮的家里。我把这个信息告诉了上海博物馆的领导,他们非常高兴,而这个东西如果不是依靠数据库,是无法得到的。包括我还给他们指出王淮还有一个淳式的墨迹,结果他们马上查,在台湾,再查,台北故宫博物院的这个墨迹和他们买到的《淳化阁帖》实物里面的跋相对照,很多人围着看,马上说,太好了,两种笔迹完全一致,所以这个是真的,而这东西都是从数据库里面直接找到的。所以,全宋文数据库的编辑是非常重要的。在做这个数据库期间,我做了这几件事,简单的向大家汇报一下:

  第一,文本数据的整理和处理。在这方面我主要做了几件事,除了一般的达到全文检索的以外,还有一些出处的导引和作者的导航,除了这个以外呢,我还作了一个所谓同位语的搜索引擎,这个是我自己杜撰的一个词汇,因为在全宋文里边大量都是跟人物相关的资料,而这些人物的姓、名、字、号等都会在这里边出现,而很多的名目都会指向同一个名。当你在查找的时候,你可能只知道他的姓名,比如说苏轼,假如只知道他的姓名,那么你用苏轼作为主题词进去,它可能给你五百条资料,但是,如果你多掌握一些资料,你可能就得到一千条资料。对于著名的人物来说,那问题不大,你很容易了解到其他名称。但对于不太知名的人来说,你就不那么容易了解。在这方面我利用很多传记资料提取了一些关键词,设置在了数据库里面。也就是说,你如果查到黄庭坚、苏轼、王安石,同时你就可以得到他的其他的名称以及所有能查到的资料。

  第二,我还做了一个地名的不同说法的搜索引擎,搜索引擎放在一起以后,很多的名目都相同了,我还没有彻底解决这个问题,这件事情已经在编辑数据库的工作当中,恐怕我是首创的。我做了一个隐含祖籍显化的工作,最主要的就是人物传记的墓志铭、神道碑。大家知道,古代人的墓志铭本文里和标题里,都不会完整出现这个人的姓名,因为人死了以后就不能直呼其名了,那么,现在我们看到的墓志铭里面,他的姓和名是不放在一起的,字也不放在一起,甚至有一些墓志铭传下来的连名字都没有了。那么,在这种情况下,如果你要去查询数据库,你首先需要知道最完整能够反映他生平的墓志铭资料,你是得不到的。为了解决这个问题,我就花了很多工夫,也约了一些专家把这些文章所表达的是什么人,即这个人完整的姓名。假如说是一个女性,她就没有名字,那么我就用什么人的妻子,什么人的女儿等等方式把她标识在数据库,这样一来再查就能查找到。比如说苏辙写的他的哥哥苏轼的墓志铭,本来你打苏轼两个字出不来,但是现在你打进去就可以显示出来了。这个工作也没做完,因为有大量的书信,比如王安石写给谁的书信,这些书信对于另外一个人来说是非常重要的资料,但是很难判断是写给谁的。这件工作我正在想办法做。如果说能给他标识出来的话,那么在全宋文里面有数万个字、数千篇文章可以得到充分利用。

  最后,我还做了一个工作,就是现在所能涉及的全宋文以外的、也属于全宋文的文献资料给补了进去。现在我一共补了几十万字,主要是来自于文四库全书等等。比如说宋代著名的一个音乐家刘玑,他的墓志铭出土了,全宋文里面没有,但是我数据库里面已经有他的名字了。     (根据录音整理)

 

 

关于本会|活动集锦|交流演出|服务民生|会员中心|联系我们

地址:郑州市管城区城东路94号华亿大厦14楼05号   电话:0371-63318666    15238033467   传真:0371-63318666
Copyright@ 2012 河南省中华文化促进会 版权所有    www.hnccps.com All Rights Reserved.
豫ICP备11001920号 技术支持:瑞博科技