零壹 Lab | 文学研究新趋势:文本细读与机器学习之辨

发布时间: 2016-12-05 姜文涛 陈静

   公众号:lingyilab

零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities

文学作品作为最具有“人性”的艺术形式之一,其形式上的复杂性和精密性、意义指向的形而上性一直是确保文学理论及相关研究合法性的重要原因。长时间以来,人们普遍相信,对文学作品进行“细读”是理解作者意图和文本内容的重要(甚至是唯一)途径。我们也相信机器(软件、算法),尤其是机器在智力还远远不及人的智力的时候,是无法像人一样去理解文学作品的。

 

然而,今日人文学者的处境却是:一方面每日在Google、必应、百度、JSTOR、CNKI这样的搜索引擎和学术数据库中查找资料,而对搜索引擎的算法和数据库建构背后的“软件意识形态”,技术与政治经济学的支配协议视而不见;另一方面却在批判直接应用主题建模、网络分析等计算方式来分析文本主题、语言及风格问题太过“机械化”、“简约化”。这种无意识的工具黑箱化和对“工具黑箱”的武断批评,已经构成了当代人文研究中的一个无法回避的难题。

(图片来自网络)

另一方面,正如进入新媒体时代以后,人们在纷纷疾呼“书籍终结”、“阅读死亡”的同时,也意识到原来印刷也不过是漫长媒介革命中的一小段而已。而基于印刷技术及出版系统的作者、作品、书籍等一系列现代概念、范畴和理论也不过是特定时代、语境和社会中的产物而已,并非永恒不变的真理。那么,文学的本体问题亦有待重新思考和界定。

 

《文学模式识别:文本细读与机器学习之间的现代主义》就是这样一种自觉的理论建构。两位年轻的文学研究者也是数字人文学者,运用常见批评模型(文本细读与历史主义批评)和计算机手段(机器学习)对具体文本进行分析,来给出三种相异的答案,以三种文本模型回答一个实质为文体辨认的问题。

 

《文学模式识别: 文本细读与机器学习之间的现代主义》中文版已于2016年11月由《山东社会科学》杂志中戴安德(Anatoly Detwyler, Penn State University)、姜文涛(浙江大学)主持的“数字人文:观其大较”学术专栏刊出。

文学模式识别:文本细读与机器学习之间的现代主义(节选)

作者:(芝加哥大学)Hoyt Long,

(芝加哥大学)Richard Jean So   

译者:(南京大学)林懿 

近年来,运用计算机来阐释文学引发了激烈的争论。一方面,弗朗科·莫瑞狄(Franco Moretti)、马修·乔克斯(Matthew Jockers)、马修·威尔肯斯(Matthew Wilkens)和安德烈·派珀(Andrew Piper)等学者支持运用主题建模、网络分析等精密机器技术来揭示从海量数字化文学资料库中挑选出的语言与形式的宏观模式。 另一方面,亚历山大·加洛韦(Alexander Galloway)、大卫·科伦比亚(David Golumbia)、塔拉·麦克弗森(Tara McPherson)和艾伦·刘(Alan Liu)等新媒体研究领域的学者则批评机器技术,认为此类技术将文学文本的复杂性化约成纯粹的“数据”,或它们与批评理论的目标无法匹配。 这里我们要通过创建一个不将一种阅读模型与另一种模型对立,而是把人文主义方法和电脑计算方法整合进一种我们称为文学模式识别的文学分析方式,来打破这一僵局。

 

这一整合的动机是双重的。首先,当下多数人文主义学者已经参与了某些形式的电脑计算批评。正如泰德·安德伍德(Ted Underwood)指出的,任何计算机辅助的信息搜索,不管是通过谷歌还是更正式的诸如JSTOR这样的学术数据库,都是一种由机器学习算法所支持的“数据挖掘”。 每次我们在谷歌图书或其他数字化资料库中输入一个搜索词条,我们都在与这些算法互动。安德伍德补充道,人文主义研究者们倾向于忽略这种互动而不进行理论研究,他们认为搜索引擎仅仅是帮助我们通达真正阐释工作的工具,同时还往往坚称这些工具背后的科学是非人性的、僵硬的、机械的。甚至在我们批评这些工具与我们作为人性读者所参与的细致分析和批判性思考相比的“黑箱”性质时,我们还是在自己的研究中把这些工具黑箱化。运用更复杂数据挖掘工具的文学研究学者更是加倍地受到指责,理由是他们通过冰冷而不知变通的机器逻辑扭曲了文学文本。然而,随着我们与文本(以及信息)的互动越来越多地受到数字格式和大数据库的影响,这一立场变得愈发站不住脚。我们无法再继续忽视机器算法如何“阅读”文学信息的同时,又盲目地依赖它们来强化我们自身的阅读与阐释实践。

(单一俳句文本的机器解读的“表示”)

与此同时,主张批评家们必须学习这些计算程序如何操作并不表示这些程序是毫无问题的人力阅读模式的替代品——也不意味着对机器技术正当性的评判可以由更复杂的计算模型和更大容量的数据库来满足,尽管斯坦福文学实验室的莫瑞狄、马克·阿尔及休伊特(Mark Algee-Hewitt)与莱恩·霍伊泽尔(Ryan Heuser)已在这些方面做了杰出的工作。 我们必须严肃对待刘的观点,即计算机辅助阅读得益于STS(科学与技术研究)视角所提供的反思性批判。它使我们得以在一个更为广阔的“权力、经济及其他支配协议” 的框架下思考我们的工具。我们也需要听取科伦比亚的建议,即计算机批评必须更深入地思考在当下数字人文中正不加批判地激发研究工作的技术“权威”精神。 如果说眼下机器算法正充斥于我们的研究和写作中——并且还在日益泛滥——它带来的挑战和任何其他新的阐释工具一样,在于我们既要掌控它们,又能批判性地运用它们。

 

以上正是我们这里通过一个对文学现代主义、特别是英语俳句的案例分析所试图达到的目标。从什么定义了现代英语俳句这一基本问题开始,我们同时运用常见批评模型(文本细读与历史主义批评)和计算机手段(机器学习)来给出三种相异的答案。也就是说,我们将通过三种文本分析模型来考察一个实质为文体辨认的问题。这种做法意在表明每一种模型都暗含了其自身的文本本体观,且每种模型都揭示了与它的本体观相连的对文学模式和文体学影响的理解。不过,我们并非要偏重某一模型而贬低另一模型,而是要主张通过这类人力阅读与机器阅读的交互作用,凸现出一种关于俳句这种文学事物的新的批评视角。通过将这些文学分析模型理解为按其自身视域具有理据、而在更广阔的模式识别阐释学中可相互对照,一种关于俳句——以及广义地关于现代主义文本——的新的本体观出现在人们视野中。

 

(从当代杂志汇编的短诗语料库列表)

本论文由四部分组成。第一部分通过文本细读来详述俳句的特点;第二部分将俳句作为社会历史事物来阅读;第三部分则通过机器学习的框架来阐释俳句。在以上各部分中,我们将分析每一种批评手法提供的特有而自发的关于俳句的观念,并且揭示这些观念如何架构起相应手法辨别俳句——作为一种特殊且可重复的文体或文学模式——的能力。在最后一部分中,我们使各批评手法直接对话,以表明尽管它们遵循的对俳句的本体论认识各不相同,不同的识别文学模式(pattern)的方式却可以补充各自的不足。综合起来考察,这些批评手法提供了作为社会与文化氛围的英语俳句的更全面的图景——它是更广阔的流行于20世纪初的东方主义风格的一部分。由此,本论文最终通过展示我们如何能够把美国现代主义时期的东方主义历史重新理解为不同本体论范畴所表达的一套相互重叠的文本模式,为现代主义时期的东方主义研究做出贡献。


*注:《文学模式识别: 文本细读与机器学习之间的现代主义》完整中译版可参阅《山东社会科学》杂志2016年第11期,本公众号已经获得《山东社会科学》独家授权微信发表,选文部分采用的图片均出自原文。


主编 / 姜文涛 

责编 / 陈静 陈夏辛 顾佳蕙 彭玮 桑雨茜

美编 / 傅春妍

关注零壹Lab,获取更多数字人文信息!