01 Lab | The Studies of Digital History: Present, Issues and Future

Date: 2017-05-27 Tao Wang

   公众号:lingyilab
零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities

本文原载于《江海学科》2017年第2期。

导语:人文社科学界对数字人文、大数据等概念的兴趣日益浓厚,大家都在热情洋溢地讨论着这些高端话题,但作为学者的理性与自觉,要冷静地做出判断与回应,特别是在方法论上的思考,甚至一些“破坏性”的反思,将有助于我们在这个研究路径上越走越远。本文从历史学的角度反思数字人文,认为数字史学关注网络的使用,以数据库建设为主,与数字人文存在不同。造成这种状况的原因是数字史学强调“数据驱动”,没有完成史学研究的“论证驱动”任务。在学术研究已经实现“数字化生存”的今天,数字史学的方法与态度,能够为世界史研究提供站到与国际同行同一起跑线的机会。

人文社科学界对数字人文、大数据等概念的兴趣日益浓厚,大家都在热情洋溢地讨论着这些高端话题,似乎以为数字人文的“金矿”能够带来像20世纪初那样的语言学转向,以“信息转向”的方式将人文学科的学术脉络引到一个全新的天地。严格来讲,数字人文的学术史并不算短,1980年代就出现了“人文计算应用”的概念,致力于用电脑技术研究传统的人文课题,但“数字人文”成为真正获得普遍认可的概念与学术“流派”,应该是2004年之后的事情。*1 这样看来,数字人文又是一个彻底的新生事物,它是否能够带来学术转向的奇效,或者这个转向的到来还遥无可期,都是一个未知数。

当然,我们不希望数字人文是昙花一现的虚假繁荣。在西方学界,当越来越多的科研资助向数字人文研究倾斜,拥有数字人文技术背景的博士毕业生成为高校招聘会上的香饽饽时,学界主流还对数字人文的方法论持怀疑态度。国内学界虽有滞后,但最近一段时间“数字人文”突然迸发为闪亮的关键词。2015年以来,大数据、数字人文成为许多学术会议上的高频词。*2 愈是在这个时刻,我们作为学者的理性与自觉,愈是要冷静地做出判断与回应,特别是在方法论上的思考,甚至一些“破坏性”的反思,将有助于我们在这个研究路径上越走越远。

“数字人文”是一个过于宏观的概念,不同学者都有各自的预设。这里实际上存在一个悖论。“数字人文”从字面上看,具有跨学科的本性冲动,它将信息技术投入到人文社科领域,注定了需要不同学科背景的研究者联合攻关。正如有学者指出的那样,从广义上看,数字人文是用技术让不同学科的研究者进行交流的手段。*3 然而,在破除专业壁垒的同时,数字人文无法抹杀传统专业的固有特色:每个学科都有自成体系的方法、工具与研究旨趣;换句话说,数字人文的研究仍然要落实到具体的传统学科领域,在有效的学术问题中运用数字工具,才能够进行有的放矢的科研活动。我们或许有一个形象的比喻:数字人文是一幢高耸的学术大厦,但是它是由不同房间组成的,每个房间对应一个专业:历史学、社会学、地理学、文学、计算机……常识告诉我们,不同房间共建了一座坚实的学术大厦,而不是大厦构建了不同的房间。所以,数字人文的方兴未艾,不是在消解传统学术,而需要同传统学术、传统学科有机融合,共同构建学术的新阵地。

在西学的脉络中,数字人文在文学领域的展开更早,影响更大,甚至开始讨论数字人文的“黑暗面”,*4 诸如文本挖掘、远距离阅读、自然语言处理等概念,都是“数字文学”的成熟研究领域。*5 笔者历史学出身,我们从历史学的角度反思数字人文是非常自然的选择。在数字人文的语境下梳理“数字史学”,或许能够让我们看到更多隐含的信息。

数字人文与数字史学

这里首先就出现了一个问题,如何处理数字人文与数字史学的关系?在前述大厦与房间的比喻中,数字史学毫无疑问是一个独立的房间。它有数字人文的共性,但其作为历史学的个性特征更值得我们关注。只有在深入了解到这种差异后,我们才能够更加清楚“数字史学”能够带来什么样的研究成果,*6 能够切入什么样的研究课题,而不是再泛泛而谈“数字人文”、“大数据”这样的概念。

总体而言,数字史学更重视网络的利用与展示,这也是很早就有学者提出“网络史学”的原因。历史学家利用互联网向同行传递和展示史料,将文献放置到因特网以便史学爱好者、历史教师、学生能够利用它们,这些行为已经被史学界认可为专业的学术活动,成为数字史学的重要内容,是一条迥异于宽泛意义上数字人文的路径。实际上,在数字史学学术史上具有里程碑意义的项目,都是通过互联网进行展示,研究过程也非常依赖互联网提供的交流平台。例如,致力于美国内战原始史料梳理的“峡谷阴影”(The Valley of the Shadow)项目,研究法国史的“图绘法国大革命”(Imaging the French Revolution)项目,2014年关于美国华盛顿的“国家广场历史”(Histories of the National Mall)项目等,都不约而同地强调了网络的重要性。数字史学的开拓者罗森茨威格(Roy Rosenzweig)也曾经将互联网与数字史学等同起来。*7

当然,“要么在线,要么落伍”*8 的宣言并不意味着互联网能够与数字史学划上等号。互联网只是恰好因为平台优势成为一种媒介而已,不过在这个现象背后有一些值得玩味的问题。数字史学对网络的强调让我们看到了它与“公众史学”存在诸多交集。*9 许多早期从事数字史学研究的学者都是社会史专家,或者是试图借助数字工具积极推进民主化进程的支持者。罗森茨威格创建“历史与新媒体中心”就出于这样的考量,“让历史具有民主化趋势——纳入更多的声音,抵达更多的听众,鼓励民众参与到历史的展现与保存上来。”*10 所以,为了让专业历史知识成为“普通群众能够看得见、听得着、读得懂并能解读的历史”*11,数字史学有强烈的引导大众的动力,希望提供多元化的历史教学形式,数字史学的开放性在公众史学领域结出了许多硕果。例如,美国数字史学专家搭建的两个致力于提供教学素材与案例的网站“历史很重要”(History Matters)以及“历史教学”(Teachinghistory.org)吸引了大量点击率:截止2014年,两个网站的点击次数都超过了300万次。*12

数字史学的另一个特征,就目前看,研究工作的重点还停留在数据库建设的阶段,比较成熟的研究方法以GIS的运用为主。与“数字文学”相比,文本分析在数字历史领域运用还比较少,这背后有许多客观原因,最主要的因素是史料的数字化程度还比较低,效果也达不到大规模进行文本挖掘的程度。传统的历史研究重视一手文献,往往以档案、手稿等形式出现。这些文献的数码化远没有达到丰富的程度,而且进行数码化使用的OCR技术,还存在诸多缺陷,需要大量的人工校对,其准确度才能达到进行研究的要求。所以在从事数字文学的专家已经在讨论如何分析文本的时候,数字史学的专家还要首先解决史料数字化的问题。当然,对历史文献进行文本分析的研究并不是没有,例如有学者对18世纪美国出版的报纸进行了主题分析,也有对美国与德国学术界的古典学期刊进行了类型研究*13。另外,里士满大学(University of Richmond)的尼尔森(Robert K. Nelson)对1860-1865年间出版的《每日快讯》(Daily Dispatch)进行了数据挖掘,纽约城市大学博士生考夫曼(Micki Kaufman)正在进行的研究论文,则对美国国家安全档案中基辛格的书信与备忘录进行文本分析*14。在中文学界较早展开数字人文研究的台湾,近几年也有一些挖掘中文典籍的项目*15。这样的研究都基于具有较好数码化基础的文献,能够直接上手使用的文本数据库比较单一,所以显得十分稀少,例如台湾的相关研究,基本都依赖金观涛、刘青峰主持的《中国近代思想史专业数据库》。

在这样的前提下,数据库建设具有完善基础设施的重要意义。问题在于,数据库建设是非常烧钱的项目,如果没有足够的资金支持,难以做出高质量、有使用价值的数据库。哈佛大学领衔的CBDB项目,获得了多个基金的支持才能够不断扩充,并且坚持数据免费共享*16。但对于大多数商业公司而言,从事数据库的开发有强烈的利润考虑,这样的数据库存在版权与数据封锁的问题,会限制数字史学专家进行文本挖掘的应用。

数码化程度不足的状态,也决定了学者使用数字工具的倾向。据西方学者统计,在数字人文有关GIS的143个重要的项目,92个(占三分之二)涉及历史问题*17。美国巴科內尔大学(Bucknell University)陈松在最新介绍大数据的博文中,也主要结合GIS技术进行了数字人文在中国史研究层面的举例*18。一方面这跟历史学科自1970年代以来的“空间转向”紧密相关,学者们开始采用“边界与疆域,边疆与路口,中心与边缘”等概念来解释历史问题*19。另一方面在于GIS的工具相对成熟,使用的门槛较低,能够切合历史地理的研究课题,容易被传统学者接纳。

从数据驱动到论证驱动

在梳理了数字史学与数字人文的差异后,我们发现数字史学在很大程度上具有“未来式”的气质*20。不论是在“数字人文”研讨会上的发言,还是有限的研究成果中,凸显“数字史学”具有巨大研究潜力,前途光明的表述是一个共性,而具体到如何有潜力,如何带来了那种程度的研究,从来没有被清晰描绘,具有说服力的研究成果也非常稀有。在许多场合,当数字史学的项目用漂亮的可视化工具得到呈现,志得意满的讲述者描绘为得到这些数据如何辛苦后,他们往往被追问的问题是,然后呢?这些形象的呈现,说明了什么,解释了什么?是否经得起质疑?类似的问题似乎还没有进入到数字史学专家的研究视野。从史学的专业态度看,许多数字史学的项目,都属于未完成品,它们往往只提供了材料,但是对材料缺乏必要的深度解读。

造成这种状态的重要原因有两个:

首先,数字史学的许多参与者是基于对技术的兴趣加入进来的。正在进行数字史学研究的学者以年轻人为主,这或许可以解释为什么国内许多数字人文的研讨会,50岁以下的(中青年)学者是主流,甚至是一个指标。虽然数字人文的工具越来越方便,但不是说你在博客上发表研究成果,运营微信学术公众号,就说明你在进行数字史学研究;甚至掌握古董硬盘的修复技术*21,也不是数字史学的应有之意。数字史学仍然有一定门槛,需要学者对数字工具有一定了解,甚至最好能够成为勒华拉杜里所谓的“会编程的历史学家”。目前从事这个领域的都是满腔热情支撑的年轻人,他们有强烈的新生事物的好奇心,但是传统研究功力可能还不够。他们只学会了运用绚丽多彩的工具,但还没有能力去解释。另一方面,参加数字人文论坛的专家,都来自不同学科背景,他们只能就技术问题展开讨论,在具体研究面向上,可能提不出专业的质疑,无法让数字史学的项目获得专业分析上的精进。

其次,数字人文研究所强调的“数据驱动”(data-driven)可能偏离了史学研究的路径。传统史学研究是论证驱动(argument-driven)的,擅长分析问题,而数字史学研究者在数据驱动的思维指导下,花费大量精力去转换、提取、清洗数据,以为数据的获取就是研究本身,显然背离了史学研究的精髓。即便在公众史学领域大展拳脚的数字史学项目,也由于公众史学注重普及的特性,在问题的论证上存在先天不足。包括像“历史与新媒体中心”参与的项目,也有学术性欠缺的遗憾。然而,只要历史学还要致力于学术问题的分析与解决,或者像有些学者指出的那样,新一代史学家应该更加关注“出思想”*22,那么数据驱动就远远无法满足历史学的专业需求,数字史学专家若仅停留在“数据”的层面,这个学派的未来就难以为继。

在许多西方学者看来,2008年金融危机的爆发,带来了传统人文学科的衰退,数字人文的概念被认为是解救疲软人文学科的一剂良药。不论这两种现象是否存在内在的关联,我们不希望看到数字史学遭遇20世纪70年代“计量史学”曾经受到的打击。传统学界这样评论“计量史学”的代表作《背负十字架的年代》(Time on the Cross: The Economics of American Negro Slavery),计量史学的专家能够精准地算出每个美国黑奴遭受奴隶主鞭打的次数,但是他们从来没有去关注暴力与奴役状态对男女奴隶的生活与心灵带来的影响*23。我们不希望数字人文重蹈覆辙,经过短暂繁荣后被学界斥为“学术泡沫”。

依笔者的浅见,数字史学的路径要越走越宽,需要从云端走入学术研究的日常。最核心的是,在有针对性的研究课题中,将数据驱动与论证驱动结合起来,以真正的问题意识为指引,而不是为了卖弄数字工具的噱头,才能带来更专业的成果呈现。

数字史学给中国世界史研究带来发展机遇

另外,在中国的学术语境中讨论数字史学还有特别的意义。经过几代人的努力,中国的世界史研究已经取得了丰硕成果。但无法否认的是,不论是从研究的深度,还是研究的思想性,优质的世界史研究还非常稀缺;特别是与国际同行相较,中国学者的主体性欠缺,在世界史研究领域缺乏公认的代表性成果。中国的世界史研究没有形成独立自足的中国学派,是不争的事实。造成这种局面的因素很复杂。原始材料的匮乏以及方法论上创新阙如,是世界史研究低水平重复建设的重要原因。但在学术研究已经实现“数字化生存”的今天,数字史学的方法与态度,能够为世界史研究提供站到与国际同行同一起跑线的机会。

我们对数字史学的直接感受就是,研究者能够获得大量在线数据库,为学者的研究提供了海量文献,获取资料的便捷程度是老一辈世界史学者无法企及的。借助智能化的搜索技术,年轻一代的史学工作者,能够在很短的时间内,达到老一辈史学家经过几十年“上穷碧落下黄泉”的辛苦才能实现的对史料的把握程度。更值得关注的是,数字时代的史料形态也得到了扩充。一方面,传统史家非常重视的档案、统计数据等原始文献得到了数字化,另一方面,之前不被人重视的数据也被历史学家用来进行历史问题的研究。笔者在研究中注意到了学术数据库中题录的价值。我们利用大数据处理工具,在海量题录中提取了有价值的信息,可以获得对学术史的理解,甚至尝试预测未来研究的趋势,比如题录的信息揭示,在德国史研究领域,历史与记忆的问题会成为热点。

当然,充分而扎实的史料只是提供了一个方面。数字史学的态度还在为我们的研究提供全新的研究思路,从而让世界史的学术研究呈现多元化、跨界化的趋势。仍然以德国史研究为例,我们都知道二战的犹太问题是德国史研究的重要切入点。各路学者在这个选题上投入了很多精力,导致研究同质化的倾向十分明显。但是,在数字史学的驱动下,老话题能够找到新视角,有学者利用社会网络分析等社会学的概念,运用可视化工具厘清了二战纳粹德国对犹太人的控制与犹太人的自救网络,开辟了一个崭新的研究视角。*24

不论如何,数字史学的方法与理念在中国学术界不断得到认可,会吸引越来越多的中国学者利用全新的史料与方法进行世界史研究。基于大数据与数字工具的人文研究,有可能改变质性研究过于倚重主观感悟的特征;虽然定性研究是包括历史学在内的人文学科最为迷人的地方,但数字史学的方法将让历史学的科学属性得到进一步延伸。我们相信,在不久的将来,当更多从事世界史研究的中国学者主动适应数字史学的态度,使用相关方法,越来越多的原创性研究成果会涌现出来,并且达到与国际同行对话的程度。

作者简介

王涛,1979年生,历史学博士,南京大学历史学院副教授。

注释

1. 关于数字人文学术史的梳理,参见王涛:《挑战与机遇:数字史学与历史研究》,《全球史评论》第八辑,第184-191页;牟振宇:《数字历史的兴起:西方史学中的书写新趋势》,《史学理论研究》2015年第3期,第74-78页。 

2. 据笔者所知,2015 年《史学月刊》第1期刊发“计算机技术与史学研究形态笔谈”;2015 年12 月4日至6日,上海大学举办国内首次以“大数据时代下的历史研究”为议题研讨会,2016年5月北京大学召开首届“数字人文论坛”。南开大学与《史学月刊》在2016年11月联合举办了“大数据时代的史料与史学”青年论坛。在小范围内,南京大学曾在2016年7月初,连续举办了两个跟数字人文相关的小型研讨会。

3. 参见http://www.artsrn.ualberta.ca/taporwiki/index.php/How_do_you_define

_Humanities_Computing_/_Digital_Humanities%3F

4. Matthew Kirschenbaum, "What Is Digital Humanities and What’s It Doing in English Departments?", in Matthew Gold, Ed., Debates in the Digital Humanities, Minneapolis: University of Minnesota Press, 2012, pp. 3-11.

5. 关于数字人文在西方文学领域的研究,参见金雯、李绳:《“大数据”分析与文学研究》,《中国图书评论》2014年第4期,第69-75页。关于“黑暗面”的反思,参见Richard Grusin, "The Dark Side of Digital Humanities: Dispatches from Two Recent MLA Conventions", Differences. A Journal of Feminist Cultural Studies, vol. 25, no. 1, 2014, pp. 79-92. 

6. 以下关于“数字人文”与“数字史学”差异的叙述,主要基于Stephen Robertson, “The differences between Digital Humanities and Digital History,”in Matthew Gold, Ed., Debates in the Digital Humanities, Minneapolis: University of Minnesota Press, 2016, pp. 291-298.

7. Roy Rosenzweig, “Brave New World or Blind Alley? American History on the World Wide Web”, Journal of American History, vol. 84, 1997.

8. David Parry, “Be Online or Be Irrelevant”, Modern Language Association National Conference. Los Angeles, California. January 2011.

9. 周兵:《历史学与新媒体: 数字史学刍议》,《甘肃社会科学》2013年第5期,第67页;王涛:《挑战与机遇:数字史学与历史研究》,第188页。

10. 关于“历史与新媒体中心”的历史与宗旨,参见http://chnm.gmu.edu/about/

11. Jennifer Evans, “What is Public History”, in http://www.publichistory.org/what_is /definition.html

12. Stephen Robertson, “The differences between Digital Humanities and Digital History”, p. 293.

13. 相关研究参见David Newman, Sharon Block,“Probabilistic topic decomposition of an eighteenth century American newspaper,” Journal of the American Society for Information Science and Technology, vol. 57, no. 6, 2006, pp. 753-767; David Mimno,“Computational historiography: Data mining in a century of classics journals,” Journal on Computing and Cultural Heritage, vol. 5, no. 1, 2012, pp. 1-19.

14. 尼尔森的项目网址http://dsl.richmond.edu/dispatch/ pages/home;考夫曼的网址参见http://blog.quantifyingkissinger.com/

15. 国立台湾大学数位人文研究中心自2010年以来连续主持召开六届“数位典藏与数位人文国家研讨会”,其论文集《数位人文研究丛书》,间或有文本挖掘的历史研究项目,参见http://www.dadh.digital.ntu.edu.tw/ch/digital-humanities-book

16. China Biographical Database (CBDB),由哈佛大学包弼德(Peter Bol)牵头的跨国数据库项目,网址http://projects.iq.harvard.edu/cbdb/home

17. “DH GIS Projects,” Anterotesis, http://anterotesis.com/wordpress/mapping-resources/dh-gis-projects/; “Humanities GIS Projects,” GeoHumanities, http://geohumanities.org/gis

18. 参见Song Chen, “Why Humanists should Fall in Love with Big Data, and How?”, 网址见http://dissertationreviews.org/archives/13643

19. 关于“空间转向”参见Peter Doorn, “A Spatial Turn in History,” GIM International, vol. 19, no. 4, 2005.

20. 参见Cameron Blevins, “Digital History’s Perpetual Future Tense,” in Matthew Gold, Ed., Debates in the Digital Humanities, Minneapolis: University of Minnesota Press, 2016, pp. 308-324.

21. 陈春声:《真正的学术群体应该“脱俗”》,《开放时代》2016年第4期,第19页。

22. 陈春声:《新一代史学家应更关注“出思想”》,《史学月刊》2016年第6期,第15-17页。

23. Thomas Weiss, “Review Essay of Time on the Cross: The Economics of American Negro Slavery by Robert Fogel and Stanley Engerman”, Economic History Association: EH.Net, http://eh.net/book_reviews/time-on-the-cross-the-economics-of-american-negro-slavery/

24. Marten Düring, Verdeckte soziale Netzwerke im Nationalsozialismus. Die Entstehung und Arbeitsweise von Berliner Hilfsnetzwerke für verfolgte Juden, Berlin: De Gruyter, 2015.

主编:陈静     责编:徐力恒 顾佳蕙     美编:傅春妍

关注零壹Lab,获取更多数字人文信息!