零壹Lab | “数字人文”热背景下的冷思考

发布时间: 2018-06-01 王涛

   公众号:lingyilab
零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities

王涛 南京大学历史学院

本文原载《史学月刊》编辑部编《大数据时代的史料与史学》,北京:人民出版社,2017年,第318-324页。


21世纪初,“数字人文”(digital humanities,以下简称DH)的概念逐步在西方学界蔓延开来。[1] 国内学界虽然比国际学界的节奏慢了几拍,但也开始在2010年前后逐步为人熟知,[2]近年来更是得到了深度讨论,大有欣欣向荣的发展趋势。仅仅从2015年以来,国内就举办了好几场与数字人文、大数据等内容相关的学术会议;[3]许多学者把研究方向转入了这个时髦的领域;学术期刊开辟了数字人文的专栏(比如《图书馆论坛》);推介数字人文的自媒体平台(以“零壹Lab”为代表)也方兴未艾。

在“数字人文”成为一股热潮来袭的时候,反而需要学界对它进行批判性的反思。这个新兴的领域最终是持续地稳健发展,还是演绎成绚烂一时的学术泡沫,都基于学界对DH的深刻洞见。事实的情况是,大量学术资源被投放到这个前途未知的领域,推出的产品是精品还是赝品,得出的研究结论是否可以立足,评价体系如何形成,学术共同体如何搭建,DH是否存在独特的学术规范……这些问题目前还没有人真正关心。大家似乎都亢奋异常,数字人文热潮难退,但是鲜有人静下心来回味。这是令人颇为怀疑的事情。

面对数字人文的咄咄攻势,我们似乎有两种应对的思路:

其一,理论派将“数字人文”放置在文化批评的路径中进行解构。这种思路实际上视数据库、数字方法等各种数字化现象为“生活世界”(Lebenswelt)的内容物,以期对它们进行哲学的审读。在很大程度上,理论化的探讨可以采取现象学的还原,数字人文的工具性被视为海德格尔早已预言过的“装置”,其中隐匿的弊端就显而易见了;也可以遵循法兰克福学派的逻辑,暴露大数据背后的意识形态本质。[4]理论派的文化批评路径引发了我们对数字人文的质疑,也让我们切切实实感受到了“云端陷阱”的存在。

其二,实践派强调,他们并不在意“数字人文”的标签,也不强求自己的研究工作是否能够成为“数字人文”的注脚,而仅仅重视“数字”的工具是否解决了自己在课题研究中遭遇到的问题。这样,DH经过了几十年的发展,其实已经有了极大的产出,形形色色的项目不胜枚举。即便是在相对滞后的历史研究领域,数字人文的成果也颇为惊人(虽然GIS的应用似乎成了重头戏:过分倚重某一种方法的研究会让数字人文在历史学科的发展略显单薄。)[5]

然而,这两种思路都无助于回答数字人文持续性发展的问题。有一个现象其实非常有趣,数字人文的概念虽然由来已久,但关于它的权威定义至今仍然缺乏共识。[6]这自然就引申出了一个问题:在DH的所指还远没有明确的前提下,我们在谈论“数字人文”的时候,都在谈论什么呢?当然,为DH做一个能够被一部分人认可的定义并不难,比如哈佛大学的徐力恒在推广CBDB的巡讲中,多次提及他关于DH的界定,笔者对此非常认同。

但是,再好的定义也无法改变“数字人文”外延十分丰富的事实。通常意义上,我们会由数字人文联想到数字化、数据库建设、文本挖掘、GIS、社会网络分析、可视化等领域。经过几十年学界的推广,数字人文已经在许多层面开疆辟土,蔚为大观,早先伍思沃斯(John Unsworth)在“什么是人文计算,什么不是?”的问答,[7]已经不足以涵盖当前数字人文的所有内容。不过,如果我们提及数字人文的时候只能列举个案,说明DH还远不是一门独立的学科。它甚至不像全球史、环境史等新兴学科那样,有明确的学术旨趣与研究范畴。DH充其量是一个顶层的架构,如同飘在云端,令人仰慕;但它需要真正落地才能够对学术发展起到实质性的推动作用;换句话说,数字人文一定要结合具体的学科,如历史、文学、社会学、新闻等,在具体的研究问题中才能施展拳脚。极端一点说,“数字人文”空洞无物,真正有价值的,应该是运用了数字人文工具与思路的历史学、文学、社会学等研究项目。

抽象的数字人文不像任何一门成熟的学科,当我们提及这个学科的称谓时,我们立即就能够勾勒出这个学科的研究对象,方法以及成功的代表性案例;而到了数字人文这里,我们并不知道它的理论架构、对象以及方法。DH领域的先驱人物莫莱蒂(Franco Moretti)在2016年接受一次访谈中也提出过类似观点,[8]他不仅认为DH这个术语并不能提供任何有营养的信息,而且对自己的研究工作是否可以被冠以DH的头衔,自己的身份是否属于DH专家毫无兴趣。

有了如上的认知,我们就应该理解,DH要获得稳健的发展,需要在两个方面取得进步。

首先,对资料进行有效的、合理的数字化整理。这里就涉及了不同文献的电子化格式、数据库建设等具体问题。我们可以把它们概括为数据的基础设施建设,哈佛大学的研究团队早已提出了“网络基础设施”(cyberinfrastructure)的概念。[9]在这个方向上,欧洲走在了前列,它们于2012年就在欧盟范围内启动了CLARIN项目,吸引了包括德国、法国、意大利、希腊等国家的参与,共同推进数据库的建设。CLARIN的全称是“通用语言库与技术基础设施”(Common Language Resources and Technology Infrastructure),其宗旨是对人文社会科学领域的语言材料进行归档与数码处理,实现资料共享,推进学术研究。[10] 

CLARIN赢在全面。但是对于具体的研究者而言,CLARIN这样的数据库可能过于宏大,虽然从事文学、社会、历史等不同专业的学者都能够从CLARIN那里获取数字化的资源,但又会发现并不能完全满足自己的研究需求。CLARIN是典型的“机构导向的数据库”类型,它的弊端非常显著。在数字人文的热潮中,更有大量商业公司涌入数据库开发的金矿淘宝,拼命想占得先机;但是无序的数据库建设,不仅让数字人文的内涵扁平化,而且伴随恶性竞争的重复性建设、开源性、版权等问题,会让数字人文的健康发展大打折扣。

正是在这样的背景下,在广泛讨论“大数据”(big data)的同时,越来越多的人开始关注“小数据”(small data),甚至还提升到了“智慧数据”(smart data)的高度。换言之,不同研究者,不同的研究课题,需要的数据当量与题材是完全不同的。DH虽然致力于人文研究的科学化,但是个性化仍然是数字人文力图保持的优势。所以,“大数据”远远不够,还需要更具针对性的“智慧数据”。基于这种思路的数据库建设,就不再追求包罗万象,而是个性化的订制。其中比较有代表性的就是台湾大学数位研究中心正在开发的DocuSky平台,它能够让学者根据特定的研究课题,自行建立专属的个人资料库,并利用DocuSky平台的API工具进行分析与研究。DocuSky的建构逻辑是数字人文的发展要从“机构导向的数据库”向“个人导向数据库”的转变,从而让数位典藏呈现“自由、活泼的面向”。[11]

其次,研究工具与方法的开发。数字人文热潮兴起的一个原因是计算机技术的发展,特别是各种算法的进步以及软件的易用,让大量没有电脑背景的人文学者也能够借用计算机辅助研究。但就人文研究的复杂性而言,数字人文能够提供的方法还有待完善,各种研究工具在易用性、安全性的层面还有极大的提升空间。一个非常现实的挑战在于,各种专业数据库的内容已经极其丰富,如果研究者只能用检索关键词的方法来使用数据库,就真正是数字人文的莫大悲哀。研究方法的进步是数字人文获得意义的根源。例如在文本分析领域,研究方法早已超出了单纯的词频统计,过渡到了更复杂算法的统计语言学,实现了信息提取,文本分类,情感分析,机器翻译等功能。毫无疑问,自然语言处理方法的进步,将会让研究者从文本中挖掘出更具分量的信息,推导出极具价值的结果。

当然,数字人文的一个应有之义是倡导合作研究,本可以成为跨越专业鸿沟的路径。数字人文的工具研发,一定要在跨学科的作业平台上完成,多方深度沟通,才能推出有价值的研究工具。值得强调的是,技术对大多数人文学者而言属于暗箱操作的范畴,如果我们对技术盲目信任,就真正落入了“云端的陷阱”。人文学者需要的是干净、透明的工具,正如UCLA教授德鲁克(Johanna Drucker)担忧的那样,许多数字工具通过不透明的算法生成了标准的结果,让人文学者进行还原非常困难。[12]更可怕的是,算法看似没有意识形态的因素,却可以进行人为的参数设定,从而破坏了数据的公信力。这样,百度搜索把“莆田系”信息推送在前,就是资本运作的结果。

我们当然不希望在数字人文的研究中遭遇到非学术因素的干扰,所以“透明计算”就显得尤其重要。如果人文学者还要花费大量时间和精力去清洗数据、学习相关软件的使用、考辩信息来源的客观性,而不是将注意力投注到问题分析本身,将会成为数字人文可持续性发展的阻拦。

“数字人文”毋宁属于服务型的领域,它为学术研究提供原料与工具,但并不负责加工过程。我们需要用平常心来看待DH,即不把它视为冲击传统学术的洪水猛兽,也不要轻信它是拯救“没落的”人文研究的良剂。数字人文不会让研究者个体迷失在数字的洪流,因为分析加工的过程仍然需要研究者的脑力,学识以及眼界,这些都不是工具性的数字人文能够提供的。我们只拥抱数字人文时代来临的时候,也要对它的局限性保存必要的警醒。

总而言之,我们应该微笑着面对:数字人文,你好!也能够做到轻松地回应:数字人文,再见!


注释:

[1]实际上,1950年代就有人文计算(Humanities Computing)的概念,但2004年由施赖布曼(Susan Schreibman)等编辑出版的《数字人文指南》(A Companion to Digital Humanities),为Digital humanities的传播做出了决定性的贡献。

[2]2011年武汉大学成立中国大陆第一间数字人文研究中心。

[3]据笔者所知,2015 年《史学月刊》第1期刊发“计算机技术与史学研究形态笔谈”;2015 年12 月,上海大学举办国内首次以“大数据时代下的历史研究”为议题研讨会,2016年5月北京大学召开首届“数字人文论坛”。在小范围内,南京大学曾在2016年7月初,连续举办了两次跟数字人文相关的小型研讨会;2016年11月,南开大学与《史学月刊》联合举办“大数据时代的史料与史学”青年论坛。最新的消息是,南京大学的几位年轻教师将在2017年7月筹建中国大陆地区首次以“数字人文”为主题的暑期班。

[4]例如,吴维忆,“云端的霸权:大数据时代的双重隐喻批判”,《探索与争鸣》2015年第4期。

[5]据有关学者统计,在数字人文有关GIS的143个重要的项目,92个涉及历史问题,约占三分之二,参见“Humanities GIS Projects,” GeoHumanities, http://geohumanities.org/gis

[6]Matthew Gold, ed., Debate in the Digital Humanities 2016, Minneapolis: University of Minnesota Press, 2016, p. ix.

[7]John Unsworth, “What is humanities computing and what is not?”, http://computerphilologie.uni-muench en.de/jg02/unsworth.html

[8]参加https://lareviewofbooks.org/article/the-digital-in-the-humanities-an-interview-with-franco-moretti

[9]见未刊论文,王宏甦、徐力恒、包弼德,“服务于中国历史研究的网络基础设施”,第七届数位典藏与数位人文国际研讨会论文集,第347-69页。

[10]CLARIN的网址为https://www.clarin.eu/。关于CLARIN整体状况,技术指标,工作流程,可以参见Martin Wynne, “The Role of CLARIN in Digital Transformations in the Humanities,” International Journal of Humanities and Arts Computing, vol. 7, 2013, p. 89-104.

[11]见未刊论文,翁稷安,“从机构导向资料库到个人导向资料库:数位人文下一阶段的可能发展”,第七届数位典藏与数位人文国际研讨会论文集,第17-24页。

[12]Johanna Drucker (UCLA) Lecture, "Should Humanists Visualize Knowledge?", https://vimeo.com/140307034

主编:陈静     责编:顾佳蕙     美编:张家伟

关注零壹Lab,获取更多数字人文信息!