零壹Lab | 数字人文知识生产转型过程中的困境与突围(下)

发布时间: 2018-06-14 陈静

   公众号:lingyilab

零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities

作者简介

陈静,博士,南京大学艺术学院副教授,主要研究领域:文化与媒介研究,数字人文。邮箱:cjchen@nju.edu.cn


“算法”困境

随着人文计算的被认可度远超过校勘学[1],作为核心驱动力之一的计算(computation)/算法(algorithm)在数字人文研究中就变得越来越重要[2]。但也因此出现了诸多争议、论争和潜在的危机。因此,我们需要理解在数字人文研究中,“计算”代表着什么。在霍基所论述的人文计算的历史中,这个概念涉及的不仅包括了语言分析、数据标准、编程语言和数据库等方法,还包括了软件的操作系统和计算机等等工具和硬件研发。但在近二十年来,数字人文语境中的“计算”面貌已经发生了变化。

首先,霍基所谈到的早期人文计算中语料索引、语料库和文本编码等逐渐成为了一种公共基础性的、基于机构平台的工作,与研究者个人渐行渐远。甚至当年霍基所高度看好的TEI,也因为其繁琐性、复杂性和高成本已经不再受到了数字人文学者们的偏爱;其次,霍基所认为的计算语言学与人文计算的分离,却并没有那么彻底,计算语言学在数字人文的知识结构中依然占有重要的地位,尤其是语料库语言学已经发展成为非常成熟的学科[3];第三,“计算”更多的成为了一种可以抽离并施用于不同文本的应用方法和模型,或者说,算法。不管是自然语言处理(Natural Language Processing),还是统计分析,不管是语义分析,还是情感分析;不管是文本挖掘,还是图像处理,研究者在通过各种计算方法重复人文学者的研究路径的同时,试图建造非计算不行的新型研究模式。这种尝试不乏很多成功案例。比如,让-巴蒂斯特•米歇尔为首的研究团队与谷歌图书合作开展的“基于百万数字图书的文化量化分析”就是基于5,195,769本数字化书籍的语料库的计算分析(computational analysis),以量化的方式呈现文化趋势。研究团队以自然语言处理中较常用的n-gram模型方法,以单个词或多个词为单位,来自全世界的大学图书馆的1500万本数字化图书中选择了从1800年到2000年间的500万本,共计7种语言500亿字的文本量进行了统计分析,对包括英语词汇量变化、英语语法的变迁、集体记忆与健忘、大众声望、审查检测等等文化议题进行解读。因为是基于两百年间的词频波动观察,所以得出的一些结果还是非常具有启发性的[4]。这种通过对大数据集进行定量分析从而学习人类文化的方式被命名为“文化测量”模式[5],并于2011年在《科学》杂志发表。此后,不少学者也将此模式也施用于了不同的文化数据集[6]。比如卡莱弗•李塔鲁(Kalev H. Leetaru)对三十年间全球的本地新闻进行了调性和地理分析,并成功预测了2011年在阿拉伯半岛发生的重大政治事件以及该事件发生的地点[7]。另一种从宏观视角观察文化历史的模式是由美国德克萨斯州大学达拉斯分校的马克西米利安•席希(Maximilian Schich)所带领开展的两百年间世界(主要是欧洲和北美大陆)的文化历史“元叙事”(meta-narrative)问题[8]。

这些研究所具有的优势是显而易见的:以一种模型化的方式得以从宏观角度研究人力所不能及的文化问题,但我们也必须要意识到,尽管数字人文本身就有一种将“算法”本身就具有一定的风险性,抽离于具体语境、对象和文本之外建立的数学模型。比如有学者指出,基于谷歌图书语料库的“文化测量”模式仅在谷歌图书语料库这一特定对象上有意义,而在其它文本数据上则并无效力。其次,对研究模型和方法的强调,往往使得对数字化和数字处理过程中大量繁琐的基础工作一笔带过。比如数字化过程中涉及到文本的物理属性的数字化标准、数据文本的OCR识别错误、数据库的兼容性和数据格式的混乱、数据清理过程中的人力投入等等。这些都被视为基础准备的前期工作,而不被认可为有价值的研究部分,然而,数据结果呈现效果往往取决于这部分的工作。再次,对计算或算法强调,一定程度上造成了数字人文研究中的“技术黑箱”。在控制论中,“黑箱理论”用以指称一种抽象再现一个开放系统的方式,而这个系统中的刺激输入和输出反应是可以观察到的,但同时,这个“盒子”系统的构成和结构与被观察到的输入和输出路径并不具有相关性[9]。后来在计算机领域中,“黑箱理论“也被广泛使用,尤其是以隐喻性的方式指称在高度模块化的封装系统中,用户能观察到的只是输入的信息和输出的结果,而其具体计算的过程(物理层面或是源代码层面,甚至编程语言的层面)都是无法被用户完全认知到(认知的程度取决于用户的身份,终端用户还是不同层次的程序员)。也正是在这个意义上,数字人文中确实存在布伦南和刘所批评的“工具主义”或者 “算法过度依赖”的问题,将算法部分“技术黑箱”化,没有真正能深入到“工具”或者“算法”的内部去考察,进行展开,由此做出的判断,也就并不能令人信服。


媒介认识论突围

如何突破数字人文的“算法困境”?一种是从数字人文的内部,强调研究过程、技术方法的透明化、可验证性和语境性,提倡元数据标准化、数据库开放、数据标准兼容、数据处理方法可重复性等,更不能因为强调算法而忽略人工介入的大量工作。尤其是在知识生产转型阶段,数字知识生产方式尚未全面建立,数字基础设施尚不完善,数字知识共享机制非常缺乏的情况下,过度强调算法实际上对数字人文实际上有害无益。正如金观涛和刘青峰所明确提出的,“数字人文”是需要人工的文本语境与数字方法的同时进行的,而这一点也在一定程度上说明了当下的数字人文的人文研究属性。

另一种困境突围的可能性存在与数字人文的外部,即通过拓展数字人文的思想谱系,接纳包括媒介研究、图像研究、游戏研究等在内的思想及方法,从而构建一个以“数字文化”为基础的大数字人文观念。以媒介研究为例,其将从根本上颠覆数字人文争论中的“工具”问题。

从媒介研究认识论的角度重新构建数字人文中的数字与计算问题,则有另外一种路径。计算机作为一种媒介参与数字知识生产,其提供了结构的数据化基础和界面隐喻的视觉呈现,重构了知识生产的底层设计方式。与书籍不同,计算机作为媒介,其存储和展示功能是分离的。由于计算机的信息处理方式可以将几乎一切事物都可以以0和1的二进制代码进行数字化,因此,各种类型的文字、图片、声音等都可以作为数据被储存起来。在文本生成层面,数据化结构成为了数字书写的深层生成结构,同时也决定了我们通过什么样的结构来描述我们需要描述的现实事物。深层的数字书写则成为了数据库的设计。计算机界面则提供了一种将这种数据组织结构的隐喻性呈现方式。在基于印刷的文本中,后台数据库和前端的界面是一致的,或者说界面是不存在的,我们直接面对的就是被组织起来的数据,也就是由文字构成的叙事。而在数字文本中,界面则成为了深层数据组织结构的直观呈现。比如,叙事的“用户”正是跟随由数据库创造者建立的数据库记录之间的链接来穿越数据库。而一个交互叙事就可以理解为通过一个数据库的多重轨迹的总和。而一个传统的线性叙事就是多个可能的轨迹中的一个。

媒介研究将有助于重构“算法”问题。在媒介研究的角度来看,算法并非是计算机或者数字对人的操纵与愚弄。纵观计算机语言发展历史,可以看到,计算机语言则经历了从计算到逻辑再到编程语言的一个过程,与人类的思维共享了一种认知框架。莱布尼兹所设想的理想的“通用符号集(Characteristica Universalis)”能够将有意义的陈述或者推理片断翻译成一种逻辑演算,从而将人类的各种语言带入单一的共享数据库。这种适合数学计算的计算机原型尽管不能用他设想的二进制计算逻辑进行演绎证明,但已经是一种摹仿了上帝思考的前现代的人类智力模式,奠定了现代逻辑作为符号科学的基础[10]。自从图灵机的发明到冯·诺依曼数字计算机的问世,计算机从对人类认知方式的模拟走向了数字化。当布尔逻辑被用于计算机的搜索和查询时,从语言到逻辑的“翻译”过程被计算机所取代了。“人的思维也用不着再去想语言如何才能适合现代逻辑的体系,计算机把这些任务承包了;它将我们的字母变成了机器可操作的数码字”[11]。计算机成为了我们获取信息的窗口和漏斗,我们在对计算机提问时,要采取适应于信息世界提问的方式,比如,我们在计算机上搜索时,必须要选择适当的“关键词”,关键词选择的不同直接影响到我们获得信息的数量、相关性和有效性。这促使我们学会用计算机的语言说话,要去适应一种新的“知”的方式。在1957年,当计算机还处在只能进行数值运算的UNIVAC阶段的时候,海德格尔从哲学的角度在对技术的本质进行反思的时候,就注意到了语言机器是现代技术对于语言模式和语言世界进行控制的方法之一,并且并不像人们想象的,人是语言机器的主人,而可能是恰恰相反,语言机器控制了人类的本质。这主要是因为计算机正在对我们的思想过程进行着改造。计算机技术不仅灵活,而且容易适应我们的思想过程,所以我们很快就不再把它当成一种外部工具,而是更倾向于把它视为第二皮肤或精神假体。一旦适应了技术,我们便会像音乐家玩乐器似的玩起技术来,认它为同一,与它合二为一。在语言机器上进行写作,产生出一种新的写作和思考的方法。我们的指尖所及便是帕斯卡和莱布尼兹——现代形而上学之父——梦寐以求的一台演算机器,但现在这台机器却是对我们的语言进行操作。

尤其到了编程语言(Programming language)出现以后,无论是在二进制代码中,还是在界面的生成过程中,代码(code)都或显或隐的存在并且发挥着作用。代码本身具有书写的特征,需要运用一定的语言规则,因此编写代码也就成为了一种书写形式,是一种导向某种结果的工具。在代码编写的过程中体现着操作者与机器之间的互动,而意义就在参与代码的写作过程中被凸显出来,甚至,有的时候我们可以将错误也看做是在编码中创造意义的一种方式。就像海尔斯说的,“编码错误实际上指向的是系统内的不可避免的噪音,与符号的概念化,即作为符号不同层面之间的一系列转型的产品相联系的转移”[12]。这实际上指向了从数据库到代码的过程,代码作为一种可执行的语言,也是介于媒介物质性和编程语言之间的中介。代码的物质性体现在它是由磁性媒介上的记号组成,记号则是通过像键盘、鼠标、触摸屏和其它设备被铭刻在磁性媒介上。另一方面,代码作为一种语言,是再现的。这些记号的序列通过语言、句法和表达逻辑来传达思想。

由此对数字人文进行反思,我们就会意识到,数字人文的知识生产并不仅仅在文本的层面进行,更重要是在数据库、代码和底层计算的层面进行。而人文学者在一定意义上是与数据库语言、编程语言乃至物理电路进行合作开展研究。数字人文的“实践性”并不仅仅在于在研究中如何处理词频,或者如何使用分析软件,而恰恰在于,在参与的过程中,尤其是在更高层次的参与过程中,数字人文学者是通过计算机语言,从开始就参与到了他所要设计的数据库、数据方法和数据分析路径的意义解释与建构过程中。研究者必须将自己的想法要转换成机器可以理解的命令,并对机器作出的反馈进行下一步的判断和设计。而机器在这个循环中则扮演了一个模拟认知的角色,它通过对编程者指令的执行和回应,从而在计算机虚拟空间中模拟了编程者的想法,并以同样的语言和表达方式呈现出来。与此同时,这样一个反馈循环的过程赋予了其最大程度的弹性。“这主要体现在最初的设计、不可避免的修改、不断进行修正以及维护大系统的需求。(程序语言中的)‘动词’因此成为过程,对象通过它能够在相互之间以及和系统设计之间互动”[13]。因此、人文研究的计算过程也具有了很大可能的机动性,换句话说,我们可以介入代码的编写和高级语言之中,通过修改代码或者输入新的指令来改变系统从而改变数据处理的方式,这个过程本身就是一种人与机器的共同互动,人与机器在此分享的是同一种语言和认知。

至此,我们回到一开始布伦南对数字人文的质疑,我们可以非常明确地回应,数字人文学者,包括所有使用计算机或者计算终端的学者们,在使用计算机或者计算设备在进行书写、创作和研究的时候,就已经从大脑的层面建立了与计算装备的一个反馈回路。不管我们是否真正“建造”(building),我们都已经是数字人文学者。


小结

本文选择有关数字人文的一系列争论为以横切面介入数字人文的交锋处,力图在“深描”之中揭示思想交锋的同时彰显“数字人文”领域的多样性和复杂性,并通过媒介研究来反思数字人文知识谱系扩展的可能性。然而,数字人文中的计算问题实际上比文中谈及的要复杂得多,比如如何看待“量化”与数字人文的关系问题。在“算法”主导的诸多数字人文研究中,算法与量化基本是被同等视之的。这就将数字人文进一步带入了一种抽离了具体社会、文化甚至技术语境的自为境地,而对于整个社会知识型的转型和建设而言,并无益处。在这个意义上,《数字人文宣言2.0》(The Digital Humanities Manifesto 2.0)的观点则更具有启发性。在这篇由杰佛瑞·施纳普(Jeffrey Schnapp)和托德·普莱斯勒(Todd Presner)牵头、彼得·路勒福尔德(Peter Lunenfeld)与乔汉娜·朱可(Johanna Drucker)及数字人文众人参与的《宣言》中,数字人文被认为具有一种聚合实践的普遍性特点:

印刷不再是一种知识生产及(或)转播的唯一或标准媒介;相反地,印刷发现自身被吸收进了新的、多媒体形态之中;而数字的工具、技术、媒介则深刻地改变着艺术、人文和社会科学中的知识生产与传播。数字人文寻求在世界中发挥首要作用。在这个世界中,大学,而不再是知识和文化的独家生产者、管理者或者传播者,被号召起来去为当下新兴的公共领域中的学术话语打造天然的数字模式,去树立这些领域中的卓越和创新,去实现全球和地方的即时知识生产、交换和传播网络形式[14]。


注:

[1]校勘学者甚至提出两者应该划清界线。参见,Robinson, Peter. “Why Digital Humanists Should Get Out of Textual Scholarship. And If They Don’t, Why We Textual Scholars Should Throw Them Out.” Scholarly Digital Editions 29 Jul. 2013.

[2]核心驱动力应该还包括“数据(data)”、“数字化(digitization)”和“可视化(visualiziton)”等,但因篇幅有限,且已有诸多论述,此处不多涉及。

[3]参见金雯、李绳,《“大数据”分析与文学研究》,《中国图书评论》2014年第4期,第69-75页。

[4]比如英语书籍中最常使用的有词汇量实际上比权威字典的要多,而且其中大约63%的英文词汇在齐夫定律(Zipf’s law)的测量下是低频使用词,更有52%是没有被收录到词典中的。

[5]Michel, Jean-Baptiste, Yuan Kui Shen, Aviva P. Aiden, Adrian Veres, Matthew K. Gray, The Google Books Team, Joseph P. Pickett, et al. Quantitative analysis of culture using millions of digitized books. Science, Vol. 331, 6014, 2011, pp 176-182.

[6]2011年之后,多位学者用谷歌数据集和Ngram Viewer进行了基于英语及其它语言的语汇分析。参见Alexander M. Petersen, Joel Tenenbaum, Shlomo Havlin & H. Eugene Stanley, “Statistical Laws Governing Fluctuations in Word Use from Word Birth to Word Death”, Scientific Reports, Vol. 2, 2012; Roth, S., Fashionable Functions. “A Google Ngram View of Trends in Functional Differentiation (1800-2000)”, International Journal of Technology and Human Interaction, Vol. 10 No. 2, 2014.

[7]Leetaru, Kalev H.. "Culturomics 2.0: Forecasting Large-Scale Human Behavior Using Global News Media Tone In Time And Space". First Monday. 16 (9).

[8]Maximilian Schich, Chaoming Song, Yong-Yeol Ahn, Alexander Mirsky, Mauro Martino, Albert-László Barabási, Dirk Helbing, “A network framework of cultural history”,Science, Vol. 345, Is sue 6196, 2014, pp. 558-562.

[9]Bunge, Mario; "A general black-box theory", Philosophy of Science, Vol. 30, No. 4, 1963, pp. 346-358.

[10]海姆,《从界面到网络空间——虚拟实在的形而上学》,上海:上海科技教育出版社,2000年,第35-36页。

[11]海姆,《从界面到网络空间——虚拟实在的形而上学》,上海:上海科技教育出版社,2000年,第19页。

[12]N.Katherine Hayles, My Mother Was a Computer: Digital Subjects and Literary Texts, (Chicago: University of Chicago Press, 2005), p.68.

[13]Ibid, p.75.

[14]“The Digital Humanities Manifesto 2.0”, Digital Manifesto Archive, https://www.digitalmanifesto.net/manifestos/17/, 发表时间:2009年6月22日,最后访问时间:2018年5月27日。

主编:陈静     责编:顾佳蕙     美编:张家伟

关注零壹Lab,获取更多数字人文信息!