零壹Lab | 传承与超越:数字文献学的未来发展刍议——兼论日本文献数字化对我国之启示

发布时间: 2019-12-31 郑永晓

   公众号:lingyilab

零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities

作者简介

郑永晓,文学博士,中国社会科学院文学研究所研究员,博士生导师。研究方向:中国古代文学,古典文献学。


本文为“学术前沿:比较视野中的数字人文”系列第二篇,为作者提供的原始手稿,印刷发表版以《中国比较文学》2019年第4期刊文为准.

往期同系列文章请见:

从概念模型到计算批评:数字时代的“世界文学”研究(上)


摘要

我国是一个具有悠久历史和璀璨文化的文明古国,有着数量庞大、种类繁多的文献存世。也因此产生了研究这些文献的历史文献学和古典文献学。上个世纪七十年代以后,伴随计算机技术的引入,利用计算机和数据库技术从事古籍整理和文献研究也逐步普遍化,文献学的对象、手段、理念等都发生了重要变化,并催生了一门新的交叉学科和前沿学科-数字文献学。它的出现在继承传统文献学的基础上,也必然激发出新的学术增长点,同时对中国古典文学、中国历史、中国哲学史等传统文史类学科的发展产生重要影响。此外,我们在利用新技术传承与弘扬民族优秀文化时,也应借鉴其他国家如日本在文献数字化方面的理念和思路。

关键词:传统文献学;数字文献学;古籍数字化;日本汉籍数字化


数字文献学的产生及其与传统文献学的关系

古代没有文献学,与之相近的是校雠学。校雠学的具体工作可以说自西汉刘向、刘歆父子校雠整理古文献时就开始了。“文献学”这个词汇的出现则是到了20世纪。出版于1920年的梁启超《清代学术概论》曾言:“清代史学极盛于浙,鄞县万斯同最称首出。……其后斯同同县有全祖望,亦私淑黄宗羲,言文献学者宗焉。”(1)[ 梁启超《清代学术概论》,上海古籍出版社1998年版,第18页。]其后,梁启超又多次提到“文献学”或“文献之学”。

“文献学”一词在教育部制订的《学位授予和人才培养学科目录》中,历史学和中国语言文学之下各有一个二级学科“历史文献学”和“古典文献学”。这两个二级学科的研究内容当然并不完全相同,但在文献整理这一部分则是基本相同的,都是综合运用版本、目录、校勘、注释、考证、辨伪、辑佚、编纂、查询等方面的理论与方法来研究古代文献,探讨古代文献的产生、刊刻、流布、庋藏、整理和利用的规律与方法。笔者本文所言文献学,或言传统文献学,其含义包括历史文献学和古典文献学,不对二者作刻意区分。

上个世纪计算机的发明和引入,古籍数字化及古籍数据库的开发和利用,使得文献本身的载体除了传统的甲骨、竹简、丝绸、纸张外,又增加了以计算机二进制的形式存储作为新的载体,文献形态增添了数字文献这一重要的形态,文献利用的方式也随之发生重大变化。鉴于数字文献本身的特性、数字文献与传统文献的关系、数字文献使用过程中如何趋利避害,等问题亟须研究和解决,文献学研究的内容与范式发生了变化,因此就需要把“数字文献”与传统文献相对区别开来单独进行研究,把传统文献学的研究范围进一步拓展到数字文献,于是有“数字文献学”一词的出现。2008年3月厦门出版社的王依民先生在其博客《开宗明义:什么是数码文献学?》(2)[http://blog.sina.com.cn/s/blog_42990e1901008u9r.html]一文中,提出将数码文献学、数字文献学、电子文献学,这三种名称之含义视为完全相同的原则。以笔者有限的见闻,这似乎是“数字文献学”首次见诸网络媒体。同年,首都师范大学将“数字文献学”申报北京市重点交叉学科并获得批准。(3)[李海伦《数字文献实验室—古籍数字化的新模式研究,《铜仁学院学报》2017年第19卷第4期。]2009年,笔者在《中国社会科学院特殊学科建设项目申报书》中向社科院科研局提出了资助“数字文献学”这一特殊新兴交叉学科和前沿学科的申请,虽未获得批准资助,但相关部门终于将“数字文献学”列入了中国社科院特殊学科目录。这说明“数字文献学”这个文献学的分支学科,还是获得了越来越多的共识。

数字文献学是一门发展中的学科,是对数字原生文献和数字化文献的生产、存储、整理、传播、使用、技术创新、知识产权等各个环节、各个方面进行研究的一门学科,涉及图书馆学、历史文献学、古典文献学、传播学、计算机科学、人工智能等多种学科,是一门在信息网络技术影响下的诞生的综合性交叉学科和前沿学科。近年来,数字人文研究在国内外都颇受关注。“数字人文”的含义比较广泛,涉及一切可以应用计算机介入到传统人文学科的领域,如哲学、历史、文学、音乐、艺术、考古、宗教等等。“数字文献学”是传统文献学在数字信息时代的自然延伸,也可以看作是“数字人文”研究的一个分支。

数字文献学的出现也与古籍数字化的发展和古籍数据库的利用进入一个瓶颈期有关。毋庸赘言,古籍数字化和古籍数据库建设近十余年来取得重要进展,古籍数据库的种类、容量、软件稳定性和操作便利性都有了大幅度提高,各类专题数据库如谱牒、中医古籍、古典小说、地方文献等方面的数据库已颇有规模,数据库的附属工具如联机字典、字频统计、年代转换、诗歌韵律自动标注等层出不穷,古籍数据库在移动终端的发展也颇为迅速。但是就这些古籍数据库的应用而言,内容检索这一基本应用占有绝对优势,其他应用几乎可以忽略不计。换言之,在古籍数据库获得极大发展的二十余年间,尽管数据库的种类和内容得到极大丰富,但是其具体应用从根本上说并未获得相应的升级迭代,如何开发出更贴近学者,更方便学术研究的功能成为横亘在数据库开发者和研究者面前的一道难题。

因此,从理论上对数字文献及其衍生的一系列现象和问题进行深入系统的研究就显得十分必要,从理论上探索造成古籍数据库发展瓶颈的原因及未来发展路径也显得十分迫切。比如研究数字文献与传统文献有何区别,数字文献的开发与使用与传统文献有何异同,数字文献与传统文献相比优势与劣势何在,数字文献如何能够高度还原传统纸质文献,数字文献学如何能够继承传统文献学的优点并能在全面继承传统的基础上有所创新和突破等等都是数字文献所亟待研究和解决的课题。这些都是数字文献学所面对并亟须解决的课题。

笔者以为,解决这些问题的根本点首先在于厘清传统文献与数字文献的关系,厘清传统文献的优势以及数字文献如何继承和保持这些优势,然后才是如何利用先进技术探索数字文献如何超越传统文献的问题。

文献的产生、流播、庋藏、研究在我国已有数千年的历史。《论语·八佾》:“子曰:夏礼吾能言之,杞不足徵也;殷礼吾能言之,宋不足徵也。文献不足故也,足则吾能徵之矣。”孔子所言文献既包括书本记载的内容,也包括耆旧先贤能言古礼者。郑玄注:“献,犹贤也。我不以礼成之者,以此二国之君文章贤才不足故也。”(4)[魏何晏注,宋邢昺疏,朱汉民整理,张岂之审定《论语注疏》,第33页。北京大学出版社1999年版。]朱熹《四书集注》:“文,典籍也;献,贤也。”经过时代演化,以书面方式记录下来的文字材料更受重视,于是“文献”的含义逐步接近于图书典籍。当然,我们今天所言文献不仅包括各类图书典籍,也包括出土文献,包括甲骨、金石、竹简、帛书等载体上记载的各种资料。

古人为什么特别重视这种文献记载下来的信息?因为它是历史记忆的载体。墨子曾言先贤圣人的事迹是靠历史文献流传下来的,《墨子·兼爱下》云:“今若夫兼相爱,交相利,此自先圣六王者亲行之。何知先圣六王之亲行之也?子墨子曰:‘吾非与之并世同时,亲闻其声、见其色也;以其所书于竹帛、镂于金石、琢于盘盂,传遗后世子孙者知之。’”(5)[《墨子》卷四,第44页。《丛书集成初编》本。长沙商务印书馆1939年版。]梁启超《中国近三百年学术史》第八章《清初史学之建设》云:“明清之交各大师,大率都重视史学——或广义的史学,即文献学。”(6)[《梁启超全集》第十五卷,第4472页。北京出版社1999年版。]在中国这样一个史籍浩瀚、史学发达、重视历史的传统已融入民族精神的环境中,重视对文献的考辨和整理便成为顺理成章之事。传统文献学大都重视作者考辨、版本比对、考辨真伪、搜罗散佚、编修纂辑等工作,其宗旨是去伪存真、去粗取精、条贯源流、评判优劣。这些研究的对象是包括甲骨铭文、金石碑帖、竹简帛书、印刷图书等媒介所承载的信息。这些信息具有相对稳定性,可以查验、覆覈。为什么版本学很发达,就是因为同一种典籍不同的版本所承载的信息有同有异,选择精良版本、经过校勘、考辨、辑佚,进一步提高某种版本的质量和可信度,成为传统文献学中的重要工作。

但是,数字文献的性质与传统文献有很大差异。其优点是一篇文档可以随时修订、补充、完善。但是对于古籍数字化的文档而言,由于数据库开发制作时的粗疏、专业性不够等原因,或多或少地存在着校对欠谨严等问题,在为用户提供检索功能便利性的同时,也同时遗失了原纸质文本的稳定性,在严谨的学者眼中,它变得不那么可靠。因此,稍微严谨的学者在使用古文献数据库时,都会与纸质版本核对,而引文注明的出处也是纸质本。耗资巨大开发的古籍数据库仅仅被作为一种检索查询和节约打字时间的工具,这实在是一件令人悲哀的事。

而且,数据库版本不仅仅是因为校对不严谨而不那么可靠。承载传统文献的甲骨、金石、竹简、木牍、缣帛和纸质书籍等具有物质形态,这些物质形态本身也能传达很多信息。甲骨、金石等因其本身具有另外的用途,不能视作正式书籍外,竹简木牍在造纸发明之前流行过相当长的时间。竹简的长度不一,长简往往用于写经典,短简则用于写传记杂文等;而木牍则多用于写书信,木牍一般一尺长,以故古人书信结集往往以“尺牍”名之。

即以纸张发明以后的书籍文献而论,有稿本、刻本、抄本之别,每种版本所传达出的外部信息差异甚大。其中刻本种类繁多,以不同视角可以观察出不同的信息。以时代论,唐五代、宋、金、元、明、清、民国时期的刻本具有不同的外在形制。以刻印的地域而论,有浙本、建本、蜀本、平水本之别。以版刻形式而论,有大字本、小字本、书帕本、黑口本、巾箱本等等不同。以装帧方式论,有卷轴装、经折装、旋风装、蝴蝶装、包背装及线装等差异。遑论书籍的流传收藏过程中,还附加了收藏者的印章、题签、批注等信息。这些种类繁多的信息在目前的文本类古籍数据库中基本上被遮蔽了。甚至如著名的《中国基本古籍库》所收文献连同每种文献前后的序跋都被删除,实在令人叹惋。

因此,数字文献学应该首先研究数字文献如何能够最大限度地保留传统文献所承载的各类信息实属当务之急,只有在充分继承传统文献优势的基础上,才能进一步探讨如何超越的问题。


数字文献学未来发展的几点设想

如前文所述,数字文献若要提高其信息权威性和可信度,首先应该尽可能完整保留纸质文献所承载的全部信息。另外,从使用便利的角度,以全文检索为主要特点的文献型数据库应实现文本能与相关页面图像对照呈现。这一技术在本世纪初北京书同文数字化技术有限公司开发的《四库全书》光盘版中既已实现,可惜这一技术在目前比较常用的一些数据库中仍有待完善。

因此,未来古籍数字化的方向笔者以为不仅仅是扩充现有文本数据库的规模,而是应着力探讨如何利用计算机技术完整、清晰地还原传统文献。简言之,就是使用高清晰度扫描仪对纸本文献进行扫描并存储,这是传统文献的再生性保护,无论是对于古籍的长期保存,还是对广泛传播,都提供了极大便利。可以说,以图像扫描技术为主要手段,利用数字化技术保护古籍是一个重要历史机遇。对此学界有很多探讨,说明有越来越多的学者意识到这一问题的重要性和迫切性。

基于上述考虑,笔者以为数字文献学未来的发展应着力研究并解决以下问题:

其一,研究并制订文献数字化标准,引导业界增强版本意识。据统计,“目前收藏在中国各图书馆之中的古籍(编纂出版于1912年前者)达2,717.5万册,加之高等院校图书馆、文物保护部门、寺庙等单位的收藏,古籍总数超过三千万册。其中善本古籍超过二百五十万册。”(7)[张志清《试述图书馆古籍保护的历史机遇》,《图书馆工作与研究》2007年第3期。] 2006年9月,《国家“十一五”时期文化发展规划纲要》颁布,其中特别提出要开展“中华古籍保护计划”重大项目。这一计划实施十余年来,经过全国各相关图书馆部门的通力合作,已经取得了重要成就。其中利用数字化技术进行古籍的再生性保护也是一个重点方面,“倡导各馆在数字资源建设上进行合作,即在资源建设上不重复,在资源利用上实现共享。在数字化建设上,使用异地存取方式共建中华古籍资源是保障各馆收藏和发布权益的重要举措。”(8)[张志清《共建共享原则下的中华文献典籍保护》,《新华书目报》2018年11月16日。]这些都是非常值得肯定的成绩。美中不足的是,尽管在古籍普查、保护、修复、定级、破损定级等方面已有国家和行业标准,但迄今仍没有关于古籍数字化的行业标准。

其中,版本意识淡薄,版本标准缺失是一个亟待解决的问题。数字化古籍的版本问题既涉及原始文献的版本,也涉及数字化以后的版本。作为数字化对象原始文献纸质版本,首先应该选用学界公认的善本作为工作底本,巨细无遗地将底本的信息保存在新的存储介质上。另一方面,对于新生成的数字信息也应有版本意识,既要保留原纸质文献的版本信息,同时也标注数字版本的版本信息。近年来,非对称密钥加密技术与数字摘要技术的应用已经趋于成熟,完全可以将数字签名引入到古籍数字化产业中,这对于有效保护知识产权和增强信息资源的可信度显然是大有裨益的。这既有利于知识产权的保护,而从用户角度看,也能增加对数字版本的信任度。换言之,有版本标识的数字文献才能像纸质文献那样成为可靠的信息来源。网络上流传的一些电子书,往往仅有正文内容,无封面、封底和版本信息,即使有意引用,也无从着手。比较好的是国图官网上的“中华古籍资源库”,对所收文献的版本类型、版本信息、行款题跋等信息有较为全面的著录。

其二,研究新技术、新工具,实现古籍文献数据库功能的拓展,切实提高其支撑学术研究的水准。目前多数古籍数据库都有附加的一些小工具,如年表、繁简转换、字频统计等等,这些工具固然不乏价值,但是对于学术研究的核心问题一般并无多少助益。笔者浅见,文献学家和计算机专业人士应加强联合研究,围绕文献学的核心任务,研发相关工具,切实推动数字文献学对传统文献学的升级。

1、图像检索技术。笔者以为,具备全文检索功能的文本型数据库和以优质善本为底本制作的图片文献数据库,都是现代学术研究所必不可少的利器。但是毫无疑问,目前图片文献数据库的使用便利程度远不及文本型数据库,其间关键即在于图形检索技术尚不成熟。国图官网上的“中华古籍资源库”属于清晰度较高的影像数据库,根据所知信息查询到具体文献后可以全文阅读,应该说对学术研究功莫大焉。但是它不具备图像检索功能,不能快速定位到某一页或某一段具体信息。如果能够实现影像检索,则其价值和利用率大大幅提高。

图像检索与比对技术在文献学中还有一个极为重要的功能,即校勘。校勘是传统文献学的一项基本工作,自刘向校录古书以来,历代学人为了整理出优秀的典籍,用在校勘上功夫实无法衡量。而且如明人李维桢所言:“校书犹扫落叶,随扫随有。”(9)[ 参见李维桢《范文正公集补遗跋》,《明文海》卷250,黄宗羲编,清涵芬楼钞本。]校勘行为既是力求最大限度恢复古籍文本的旧貌,也体现了历代学者对事物本原永无止境的探索精神。如果图像检索和比对技术成熟,则在数字文献时代,将基本彻底解决古籍的校勘问题,极大地提升数字文献的利用价值。在此基础上,精校本和精刊本的大批量问世就指日可待了。

2、自动比对技术。首都师范大学国学时代公司近年来研发了计算机文本自动比对技术,据国学网介绍,这种技术“可自动进行两种版本的逐字比对,比对完成后,可标示出文字和符号的任何差异”。(10)[ http://www.guoxue.com/zt/gx2012/]其目的是用于版本校对,比较异同。笔者以为,这个技术进一步发展,可以发挥更大的用途,在文献学研究中起到更具建设性的作用。

我们知道,辑佚和辨伪是传统文献学中的重要工作。古代文献在流传过程中,由于种种原因往往出现失传或部分散佚。清人编纂《四库全书》时,四库馆臣先后从《永乐大典》中辑得失传文献500余种,其中380余种收入《全书》,120余种列为《存目》。这是整部书失传的情况。更多情况是,某部文集存有大部分作品,但有少量作品因种种原因散佚在类书、总集、诗话、词话、方志、碑刻甚至他人文集中。这些散佚在外的文字有可分为多种情况,一种是本集完全失收,一种是本集中虽已收录,但与散佚在其他著述中的文字有或多或少的不同。无论哪种情况,都需要运用自动比对技术,观察本集已收文字与散佚在外者的异同。这对于辑佚和校勘的价值自不待言。

辨伪是文献学的另一项重要工作,即对对文献的名称、作者、年代甚至内容等真伪情况进行考辨。古代文献由于作者有意作伪或因失考误判而致伪者比比皆是。例如宋邵博《邵氏闻见后录》卷十六因王铚跋《范仲尹墓志》云:“近时襄阳魏泰者,场屋不得志,喜伪作它人著书,如《志怪集》《括异志》《倦游录》,尽假名武人张师正,又不能自抑,出其姓名,作《东轩笔录》,皆用私喜怒诬蔑前人,最后作《碧云霞》,假名梅圣俞,毁及范文正公,而天下骇然不服矣。”(11)[宋邵博《邵氏闻见后录》卷十六,第104页。《丛书集成初编》本,上海商务印书馆1936年版。]王铚的指责是否完全符合事实此处不论,但是假托他人署名的情况并不鲜见。因此辨伪成为历代文献学家的重要工作。至于辨伪的方法,以明人胡应麟所总结的辨伪八法最为著名,胡氏《四部正讹》云:

凡覈伪书之道:覈之《七略》以观其源,覈之群志以观其绪,覈之并世之言以观其称,覈之异世之言以观其述,覈之文以观其体,覈之事以观其时,覈之撰者以观其托,覈之传者以观其人。覈兹八者,而古今赝籍〔无〕隐情矣。(12)[明胡应麟《少室山房笔丛》丁集《四部正讹》下,明万历刻本。]

胡氏所总结的这些方法中,“覈之并世之言以观其称”是考察同时代其他著作称引该书的情况或该书称引其他著述的情况,“覈之异世之言以观其述”是比较前后不同时代该书转引他书或他书转引该书的情况。不论哪种情况,都是把该书的内容与其他典籍进行比对。以往人工操作,所涉猎的文献范围既窄,比对也欠准确。现在有文献数据库的支撑,解决这个问题的曙光已然乍现。如果文献自动比对技术进一步成熟,将其应用于伪书的鉴定,则其成果是很可以期待的。

此外,我国古代版权意识淡薄,抄引他人文字,往往不标明出处,混杂在自己的文字中,难以分辨。这在一些杂钞、杂纂体著述中表现得尤为明显。这种文本自动比对技术也可以应用于研究文献的传播、影响和变异等。

3、数据挖掘与书目分析技术。图书目录是收藏、管理图书的有效工具,也是读书、治学的一条重要路径。在目录学领域,我国古代领先于其他国家,王重民曾言:“我国古代目录的发展与成就,其水平远远超过了同时期世界上的其他文明国家。其原因与我国首先建成系统分类目录有着很重要的关系。”(13)[清章学诚著,王重民通解:《校雠通义通解·序言》第8页。上海古籍出版社,1987年版。]这一系统性目录不仅仅在于管理图书的便利,而是对读书治学、研习经典能把起到引导作用。早在刘向奉诏校理汉代所藏图籍时,就注意分门别类,构建了《七略》这样的目录体系。班固曾记载刘向等校理图籍过程:“每一书已,向辄条其篇目,撮其指意,录而奏之。”(14)[汉班固撰、唐颜师古注:《前汉书·艺文志》,第2页。《丛书集成初编》本,上海商务印书馆1936年版。]可见刘向已十分重视目录与提要对考辨学术源流与学术思想的作用。这一思想在后来的学者中进一步强化。宋郑樵《通志·总序》云:“学术之苟且,由源流之不分。书籍之散亡,由编次之无纪。”(15)[郑樵《通志》卷首,中华书局1987年版。]清王鸣盛《十七史商榷》卷一《史记一·史记集解分八十卷》条云:“目录之学,学中第一紧要事。必从此问途,方能得其门而入。然此事非苦学精究,质之良师,未易明也。”(16)[清王鸣盛《十七史商榷》,第1页。《丛书集成初编》本,上海商务印书馆1937年版。]清章学诚高度评价刘向、刘歆父子:“校雠之义,盖自刘向父子部次条别,将以辨章学术,考镜源流,非深明于道术精微,群言得失之故者,不足与此。”(17)[清章学诚《校雠通义·自序》,第1页。上海古籍出版社1987年版。]正式提出“辨章学术,考镜源流”这一目录学的重要任务。

我国历代文献浩如烟海,性质复杂,“条其篇目”“部次条别”并不是一件简单的事。有些书籍的性质归属很难确定。比如演义宋徽宗宣和年间故事的《大宋宣和遗事》在明高儒《百川书志》中列于史部传记类,在明杨士奇《文渊阁书目》中列于“史杂”类,而在清丁氏《八千卷楼书目》中则列于子部小说家类。鉴于某些书籍的性质不易分辨,目录和文献学家发明了“互著”、“别裁”之法,所谓“互著”是指不同部类可以兼收并载,既可以录入甲类,又可同时录入乙类。“别裁”则是如果一部书的某一部分能够作为单篇单行者,可以裁出另立门类。这一方法滥觞于元马端临《文献通考·经籍考》,发展于明祁承㸁《澹生堂书目》,至章学诚《校雠通义》提高到理论高度。(18)[清章学诚著,王重民通解:《校雠通义通解·序言》第9页。]

深为可惜的是,古代目录学的这一引导读书治学的功能在现代学术中日趋弱化,尤其是数字文献和数据库的的大量涌现,使得检索文献的方式发生了根本性的变化。在获得检索便捷、快速、完备等优势的同时,也失去了古人“条其篇目”“部次条别”所带来的对学术渊源流别的启迪之功。

在数字文献视域下,恢复古代目录学的这一功能并非不可能。2009年完成,由国家图书馆与北京大学数据分析研究中心联合研制、国图出版社出版发行“中国历代典籍总目分析系统”在这方面是一个很好的尝试。该系统藉由信息科技,分类整理中国现存的古籍文献,收录有二百一十万条书目数据。不仅对存世文献进行著录,也收录历史文献相关数据。这种分类整理不仅借鉴保留了古代目录文献上的相关著录和分类信息,最重要的是利用信息技术,将文献的前世今生之关系梳理得极为清楚。能够快速呈现一部文献的作者、编者、版本信息、收藏信息等,甚至还可对相关责任者的学术传承、交游往来、姻亲关系进行梳理分析。在更高层次上实现了目录学“辨章学术,考镜源流”的功能。

目前古籍文献数字化领域引入人工智能等话题正在引起相关学者的重视,这是一个很有前途的设想。目前的数据挖掘技术已经比较成熟,借助数据挖掘、书目分析结果,再引入人工智能技术,把文献数据库检索的结果条理化、类别化,可以根据需要和设定的条件即时生成专题目录,生成专题文献,也许在不太久的将来并不是奢望。如果能够做到这一点,则传统目录学“辨章学术,考镜源流”不仅得到恢复,而且是一种更高层次上的呈现,是在继承基础上的超越。

笔者在十年前曾有一篇拙文《基于传统目录学的古籍文献数据库建设》(19)[见《科研信息化技术与应用》2010年第2期。],实际上就是希望数据库建设由目前基于纯文本的、主要功能为检索查询的数据库向专家学者深度参与的知识库转变。希望能够借助数据挖掘技术和人工标引等工作,把目前的数据库建设向“专家系统”过渡。我们把这样的技术和理念引入文献数据库中,就使得数据库不再仅仅是一个检索工具,而是可以引导初学者的治学和资深学者的深度研究。而在这一过程中,传统目录学所倡导的“辨章学术、考镜源流”等理念可以给我们很好的启示并在新时期发扬光大。


日本古籍文献数字化对我国之启示

我们的东邻日本也属于汉文化圈。日本又是一个十分注重保护传统文化的民族,他们在古文献数字化包括中国东传日本的古籍也就是汉籍的数字化方面,所作所为可圈可点,了解一下他们在利用数字化技术保护文化遗产方面的情况对我们今后从事古籍数字化工作和进行数字文献学研究当不无裨益。笔者见闻有限,仅略举几个侧面,以供三隅之反。

其一,重视非物质文化遗产保护工作,利用数字化技术对珍贵古籍进行再生性保护。早在1994年,日本国会图书馆即启动了数字图书馆工作。将贵重图书的图像制作数据库并于2000年3月上网,该库将日本江户时代即十九世纪之前的所出版的日本、中文古籍制成图像数据库。又如日本长野县松本市与凸版印刷株式会社于2007年合作完成了松本市所藏重要文化遗产“宋版汉书庆元刊本”数字化存档项目。庆元(1195年—1201年2月)系中国南宋宁宗年号,南宋刊本自是极其珍贵。该项目对60卷,共5500页内容进行了高清数字化扫描并存档。并向普通读者和专业研究者分别提供普通版和专业高清版本。(20)[徐红、郭姣姣《数字化技术在日本民族文化传承中的运用及启迪》,《新闻大学》2014年第6期。]

其二,规范化作业,标准先行。我国迄今没有古籍数字化标准,各商业机构、科研机构和高校开发的古籍库完全各自为战,没有统一技术标准、数据标准,没有预留各数据库衔接的数据接口。反观日本,则对标准问题十分重视。据统计,日本国会图书馆、总务省、国立公文书馆、东京大学、元数据基础协议会等机构先后发布《国立国会图书馆资料数字化基本计划(2016—2020)》《国立国会图书馆资料数字化指导手册》《国立国会图书馆都柏林元数据记述》《数字存储的构建合作指南》《数字存储系统标准式样书》《文化资源数字化指导手册》《共享元数据信息指导手册》等一系列指导标准文件(21)[张秀兰、王瑀、建欣茹《日本古籍数字化标准体系研究及对我国的启示》,《数字与缩微影像》2018年第4期。]。例如日本国会图书馆于2013年发布的《古典籍、古文书、西洋珍本等的数字化知道方针V1.0.0.0》,对数字化对象、数字化操作流程等作了细致明确的规定,颇具操作性。该方针明确指出在作业过程中,首要遵循的原则是“保持原貌拍摄”。值得注意的是,这个标准针对的是忠实于古籍原貌的扫描及图形数据库,并不涉及OCR操作,不存在文本检索功能。(22)[建欣茹、张文亮《日本〈古典籍、古文书、西洋珍本等的数字化指导方针〉标准解读》,《图书馆学研究》2015年第24期。]这与笔者在前文所述应重视研究数字文献如何能够最大限度地保留传统文献所承载的各类信息有类似之处。

其三,法律护航,大量经费支持,最大限度解决版权问题,古籍数字化成果卓著。2009年修订的日本《著作权法》特别规定,国会图书馆为防止馆藏污损、灭失,可以对原始文献进行数字化,并向公众提供。在这种政策鼓励下,国会图书馆于2000年开始即实施数字化项目,先后建成近代数字图书馆和珍稀书籍图像式文本数据库。以国人关注的日本所藏汉籍数字化进程为例,2000年4月,京都大学人文科学研究所附属东洋学文献中心改组为“汉字情报研究中心”,并联合国立情报学研究所等机构于翌年启动“日本所藏中文古籍数据库(全國漢籍データベース)”。至2008年,已有55个图书馆参与这项计划。(23)[高田时雄《〈日本所藏中文古籍数据库〉介绍》,《汉学研究通讯》2010年2月第29卷第1期(总第113期)。]美中不足的是,这个数据库本质上是一个目录库,除部分图书已连接到人文科学研究所的全文画像数据库,可以阅览全文外,多数文献尚不能全文阅读。此外尚有东洋文化研究所所藏汉籍目录数据库、东洋学文献类目检索系统、东洋文库所藏汉籍目录等与此类似。这些数据库在汉籍整理和保护领域颇具前瞻性和创新性。值得关注的是,由日本凯希多媒体公司研制,昆山数字化软件开发公司加工制作的《雕龙古籍全文检索数据库》于2001年开始起步建库,经过十余年的不懈努力,已经有《正统道藏》《中国地方志》《雕龙续修四库全书》《日本古籍书籍》及民间宝卷等3万多种古籍,近80亿字入库,且以每年约5000种文献、10亿字的速度在继续扩充。其文献数量和检索便利程度都是令人称道的。

随着信息技术的飞速发展,利用新技术对历史遗存的古代文献进行数字化处理作为一种再生性的保护举措,正获得越来越多的共识。同时利用古文献数据库从事学术研究,也带来了更多的便利。这一进程催生了“数字文献学”这一交叉学科和前沿学科。数字文献学的发展必须在尽可能全面继承传统文献学优势的基础上,通过新技术的研发,比肩并超越传统文献学才有可能实现。这其中,数字化文献必须首先尽可能完整准确地保留传统文献的各种信息,在此基础上,发展图像检索技术、自动比对技术、数据挖掘与书目分析技术似应成为当务之急。这些技术的发展当能够促进数字文献学在坚守传统文献学“辨章学术,考镜源流”宗旨的基础上,获得进一步创新和超越性发展。也必将对中国古典文学、历史、哲学史等传统文史类学科的发展产生重要影响。同时,其他国家如日本在汉籍数字化和相关研究方面也积累了颇多经验,值得我们借鉴。

主编:徐力恒     责编:任苗青     美编:任苗青

关注零壹Lab,获取更多数字人文信息!