零壹Lab | 需要对机械方法研究文学数据、统计学和机器学习进行更多的批判

发布时间: 2019-08-24 凯瑟琳·伯德

   公众号:lingyilab

零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities

《批评探索》杂志在2019年春季期刊出了笪章难的《以计算的方法反对计算文学研究》一文,这篇文章对计算文学研究领域提出了若干挑战。文中第一句话评论道:“本文意在从实证层面找出一个日益流行的文学研究分支的一系列技术问题、逻辑谬误和概念缺陷,该分支有各种名称:文化分析学、文学数据挖掘、定量形式主义、文学文本挖掘、计算文本分析、计算批评、算法文学研究、文学研究的社会计算、计算文学研究等。”文章刊出后,在数字人文计算文学研究领域引发了广泛的讨论。为了继续这一对话,《批评探索》邀请了几位数字人文和比较文学研究从业者和批评家对此作出回应。讨论围绕笪章难的计算方法和理论预设展开,并就数字人文文学研究对人文学发展的意义展开积极的回应。这是一次难得的既有统计技术方法,又有历史和理论意义的关于数字人文文学研究及其与人文学关系未来发展方向的学术讨论,会继续推动数字人文文学研究的朝着有利于人文学研究的方向发展。

本期讨论文章由汪蘅翻译,姜文涛审校。


凯瑟琳·伯德

凯瑟琳·伯德(Catherine Bode),澳大利亚国立大学文学和文本研究副教授。


笪章难对CLS的统计学评论所驳斥的一种研究方法我本人也很关注,但她对这个领域和统计研究的框架有误解。她对CLS的定义--用统计学、主要是占压倒性地位的机器学习去研究词语模式--排除了大多数我会归到计算文学研究范畴的内容,包括以下研究方式:运用数据建设和数字信息综合处理作为批评分析的形式;分析文献学和其他元数据、探讨文学趋势;采用机器学习方法界定文学现象、做非计算解释;或者为了文学研究的目的,将数据视觉化和机器学习等方法的涵义理论化。

除了笪章难对CLS独具一格的限制性定义外,我最吃惊的是她对统计研究的构想过于拘束且前后不一。笪章难提到的研究者中,大多数都明确认为机器学习的支点排斥以实证主义观点对待文学数据和计算,而更倾向于将建模看作主观实践。笪章难似乎认为,首先,这个支点出现得还不够(CLS采取机械方法处理文学解释),第二,走得太远了(CLS对数据推论太随心所欲,例如"隐喻化……编码和统计学"。[1] 一方面,笪章难一再表明,如果CLS选择一条略微不同的路--也就是用更恰当的样本训练、准备文本数据时更严谨、避免主题模型等不可复制的方法、以语料库语言学家的成熟运用自然语言处理--就能抵达转折点:采用的数据、应用的方法、提出的问题就能变得适于统计分析。另一方面,她又将"好好读文学"确定为"界限点所在",从而排除了这个可能性,在这个点,计算文本分析就不再有"效用"(p.639)。这种对统计研究的有限的看法也在笪章难关于文本挖掘的统计工具的两个说法中浮现:它们"在伦理上是中性的";必须"根据其实际功能"使用(p.620),笪章难界定的实际功能是简化信息以便快速做出判断。但是任何知识上的探索,任何测量结果--更不用说有此特定目标的测量--都是和这个有伦理维度的世界的互动。

统计论证的统计检验至关重要。我同意笪章难的看法:用机器学习去界定文学中的词语模式往往简化了复杂的历史和评论议题。她提出,这种简单化包括将模型看作"有意识的解释"(p.621)、认为词语模式表示文学因果关系和影响。但是,认出这些问题和坚持认为统计工具有对文学研究有害的"实际功能",这中间相距甚远。我们的学科历来从其他领域(历史、哲学、心理学、社会学等)吸收不同方法。也许正是假设中的文学研究缺乏功能效用(而笪章难声称要为之辩护)才让这些吸收采纳如此富有成效;也许这些采纳卓有成效是因为文学的意义不是单一的、而是由社会构成性地锻造而成,在这个社会里,特定时刻中特定范式(历史的、哲学的、心理学的、社会学的,现在是统计学)的突出地位塑造了我们所知的一切和了解这一切的方式。任何情况下,学科的纯洁性都无法保护贫乏的方法论;跨学科性能增加方法论意识。

笪章难对统计学"实际功能"的僵化看法阻碍了她就文学研究和统计方法间可能的遭遇提出更有"论证意义"(p.639)的问题。这样的问题可能包括:如果不是有意的或解释性的,那么机器学习辨识出的模式在认识论上--以及本体论和伦理上--地位为何?有没有将词语计数和其他文学或非文学因素相联的方式,可以促进类似模型的"解释力"(p.640)和/或批评潜力,如果没有,为什么?就像哲学、社会学和科学技术研究领域中发生的一样,文学研究能否应用理论视角(如女性主义经验主义或新唯物主义)重新想象文学数据和统计研究?没有这些方法论和认识论上的反思,笪章难用统计方式对统计模型的暴露就落入她归到这些论点头上的同一陷阱中:将"机械发生的事混淆为深刻的见识"(p.639)。我们非常需要机械的--实证的、简化论的和非历史的--方法处理文学数据、统计学和机器学习。不幸的是,笪章难的批判却显示出它强烈批评的问题。


[1] Nan Z. Da, "The Computational Case against Computational Literary Studies," Critical Inquiry 45 (Spring 2019): 606.下不一一注释,只随文标注页码。--译者注

主编:徐力恒     责编:李瑞芳     美编:李瑞芳

关注零壹Lab,获取更多数字人文信息!