零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities
作者简介
但汉松,南京大学英文系副教授、硕士生导师,主要研究美国文学。
“今日的未来遗产”专辑论文之二
壹
上世纪60年代初,一个南非青年游荡在昔日帝国的首都伦敦。虽然他憧憬成为艺术家,但凭着不赖的智商还是在IBM谋到了编程的差事。他操作的是当时很稀罕的Atlas计算机。工作之余,他琢磨着用计算机统计聂鲁达(Pablo Neruda)诗歌中的高频词,然后将这些词打散重组,最后连缀成“诗”。他想,或许有天这个笨拙的机器能凭借“非此即彼”(either-or)的计算逻辑,写出伟大作品打败莎士比亚。[1]此人后来去德克萨斯大学奥斯丁分校留学,并在那里完成了关于贝克特(Samuel Beckett)小说文体分析的博士论文。后来,他成为了职业作家,拿到了诺贝尔文学奖,并把这段往事写入自传体小说《青春》(Youth)里。他,就是库切(J. M. Coetzee)。
如果将库切与Atlas计算机的这段遭遇,定义为“数字人文”(Digital Humanities)前史中计算与文学相遇的某个象征事件[2],或许并不为过,因为它体现了数字人文两条主要的隐线:自然语言处理(NLP)和文学文体学(Literary Stylistics)。前者发轫于1950年图灵(Alan Turing)所提出的“图灵测试”(Turing Test),他将机器智能的判定标准定义为人与机器交流的无差别性,即机器是否能获得与人类一样的NLP能力。然而,在NLP研究的前三十年,计算机专家和语言学家的合作走了很大弯路。当时人们普遍认为,可以借助传统语言学研究,将自然语言的语法规则一网打尽,并在此基础上将人类语言的全部知识以符号代码的方式教给计算机,从而实现用电脑模拟人脑来处理自然语言。但事实上,基于乔姆斯基形式语言的编译器技术很快遇到了瓶颈。首先,自然语言真实词句的形态极其庞杂,仅依靠知识工程的方式来穷尽文法规则是不现实的;其次,即使这样的规则集合可以写出来,那么它们必然是与语境相关的语法(context dependent grammar),而程序语言使用的是与上下文无关的语法(context independent grammar)。如果考虑自然语言的上下文,那么“计算复杂度基本上是语句长度的六次方”,甚至当时IBM大型计算机都无法完成这样的计算量。[3]
七十年代统计语言学的出现改变了自然语言处理的窘境,也为数字人文的出现奠定了方法论基础。这种从规则到统计的变化,让计算机科学家不再执迷于对自然语言进行深层研究,而是利用统计模型在语料中寻找自然语言的浅层规律。其中一个核心模型就是隐含马尔可夫模型,它被证明能有效计算出句子内相邻词同时出现的概率。[4]于是,计算机需要做的不是根据人工规则挖掘语义,而是按照训练数据所得出的统计经验,预测出哪种词与词的连缀组合方式具有最大可能性。随着计算机运算能力的飞跃,以及互联网技术下自动抓取的自然语言数据量的激增,这种基于统计的NLP技术已成为了当下的主流。现在,人工智能驱动的NLP为数字人文中的文本挖掘提供了巨大便利,让我们能够研究词语共现(concurrence)的规律,甚至对海量文本做情感分析(sentiment analysis)。
但是,这一条隐线是以计算机科学为主导的,同时辅之以统计学方法,并未向文学批评伸出橄榄枝。换言之,转向统计思维的NLP技术无意去探索文学这种更复杂的自然语言形式,它针对的是特定的日常生活情境(如语音识别、输入法、垃圾邮件分类、网络舆情监控等等),仅满足于在普通的语言质料中寻找人类语言使用的近似规律与模式。真正矢志于将计算与文学相结合的,其实是另一条更重要的隐线,那就是以应用语言学家为主导的文体学研究。1958年在印第安那大学召开的“文体学研讨会”被视为是语言学与文学之间的交叉学科在英美诞生的标志。所谓的文体学,按照辛普森(Paul Simpson)的定义,是“一种将语言置于主要位置的文本阐释方法”[5]。库切在60年代初对贝克特小说的文体分析,就是这个新兴学科的产物。而更早期的“新批评”先驱瑞恰兹(I.A. Richards)等人在提出Basic English的时候,其实也是在对英语文学的文体特征做一种定量的统计计算。
作为一种将文学和语言学相结合的跨学科研究,文学文体学在近五十年有了迅猛的发展,而英美是西方文体研究事实上的中心。甚至可以说:早在近年来“数字人文”热之前,应用语言学的学者们早已跨越文学和语言学的鸿沟,在文学的人文计算领域耕耘了半个多世纪。然而,和NLP一样,文学文体学的发展经历了曲折。当六七十年代“新批评”在美国走向式微时,文学文体学曾短暂接过了其衣钵,因为两者都关注文学语言的形式。但在解构主义、后结构主义的冲击下,这种依赖传统语言学对文学做定量分析的方法受到质疑,被认为是保守的、孤立的、机械的。美国重要的文体学杂志要么停刊,要么转而刊登叙事学论文。[6]面对瓶颈,文体学几乎与NLP同时在八九十年代出现了重大转向,不过后者得益于统计与概率,而前者则是因为韩礼德(M.A.K. Halliday)带来的系统功能语法。
文体学的这种功能转向,对理解数字人文与文体学的异同颇为关键。韩礼德最大的理论贡献,是不再像索绪尔、乔姆斯基那样将语言视为一个符号系统,而是将语言作为社会的、文化的现象,转而关注语言具体情境下的使用。韩礼德将意义理解为一个在语境中生成的复杂系统,进而区分了三种意义:概念意义(ideational),人际意义(interpersonal)和语篇意义(textual)。[7]值得注意的是,韩礼德以戈尔丁(William Golding)的短篇小说《继承者》(The Inheritors)为个案,阐述了这种功能文体学的具体实践。通过对小说中尼安德特人和智人语言的及物性过程(transitivity)做定量统计与分析,韩礼德以图表的方式展现了小说语言是如何形塑世界和世界观的。[8]随着功能文体学的蓬勃发展,文体学家从分析语气、情态、语调、人称、自由间接引语、及物性、表达情感色彩与态度的形容词和副词入手,探讨文学文本中反映的作者/叙述者与人物、读者之间的关系以及由此产生的文本意义。
M.A.K. Halliday
然而,韩礼德及其追随者的功能文体学分析较为精细,更适合分析诗歌和中短篇小说。将文体学进一步推向“人文计算”的,则是八十年代兴起的语料库语言学(corpus linguistics),其中代表人物是辛克莱尔(John Sinclair)。辛克莱尔代表了英国“伯明翰学派”的话语分析(discourse analysis)之路。他以文学文本为语料库来驱动自然语言中的话语研究,这对未来的数字人文发展具有重要的方法论启示。辛克莱尔早期研究以文学文体学为主,分析过拉金、华兹华斯和莎士比亚等人的诗歌,后期则倾向于将文学作为数据库,因为他相信“只有通过亲近文学,才能找到一种系统化工具来描述语言”[9]。不难想象,辛克莱尔从语料库语言学发展出一种适合文学的语料库文体学(corpus stylistics),它比一般的文学文体学研究更像“大数据”,毕竟前者可以对长篇小说进行分析,甚至包括相关性高的多部小说的聚类分析(cluster analysis)。
必须特别指出的是,语料库文体学不等于文体测量学(stylemetics)和文体统计学(statistical stylistics)。后面两种研究虽然听上去更强调计算,也像是严格意义上的纯实证研究,但它们往往并不关注文本阐释,而是“通常以词频为研究变量来判断语篇的统一性,作者的身份和语篇产生的年代。”[10]它们的经典应用,是对所谓“莎士比亚伪作”做文体测量并确定争议作品的归属,但很难说这种以文本“指纹”推断作者身份的研究是文学阐释,毕竟在面向文学的语料库文体学中,阐释应为研究的题中之义。研究者对语料库的使用,比如“在对语料进行加工标注的基础上,通过词频统计、主题词检索、索引、词类分布以及特殊结构的人工标注与检索统计等手段”,目的应是为了阐释“文学作品的主题、人物形象的塑造、叙事的发展以及作家风格等”。[11]辛克莱尔的名言是,“当你同时看大量的语言时,它就会显得不一样。”[12]这句话也适用于语料库驱动的文学话语分析。正是因为对很多作品同时进行分析,批评家才能发现那些传统阐释法无法找到的意义模式。一个经典的例子,就是辛克莱尔在语料库词汇搭配研究中特别关注的“语义韵”(semantic prosody)[13]。
将韩礼德和辛克莱尔结合得最好的,或许当属英国文体学家图兰(Michael Toolan)。一方面,他像韩礼德那样拓宽了文体学研究的对象,将“文体”和“话语”视为文学的一体两面,从而将文体学与叙事学糅为一体,使之成为了“叙事文体学”(narrative stylistics)。在研究“文体”时,他聚焦于语言成分,包括“词语选择、小句模式、[文字]节奏[如韵律、词语或句子的长短]、语调、对话含义、句间衔接方式、语气、眼光、小句的及物性等等”;而在探讨“话语”时,图兰关心的是“讲故事的人选定创造事件的特定顺序,选定用多少时间和空间来表达这些事件,选定话语中(变换的)节奏和速度[究竟是快速简要概述还是慢慢地详细描述]。此外,还需要选择用什么细节、什么顺序来表现不同人物的个性”等等。[14]另一方面,图兰又续接了辛克莱尔的语料库文体学,尤其是近年来,开始将研究方向转向基于语料库的文体研究,探究短篇小说的叙事进程和叙事性。图兰的语料库涵盖了20世纪短篇小说的代表作,使用了一些经典的统计语言学分析工具(如Word-Smith Tools,Wmatrix)以及特别的软件程序,追踪文本中高频词和新词汇的分布规律,以此来揭示短篇小说文本叙事进程的各种规律。[15]
注:
[1]库切:《青春》,王家湘译,浙江文艺出版社2004年版,第178-179页。
[2]数字人文更广为人知的起点,是1949年布萨(Roberto Busa)神父和IBM合作的“阿奎那项目”,内容是使用穿孔卡和磁带存储的计算机对阿奎那的神学著作进行词语索引、作者身份界定等文本计算工作。
[3]吴军:《数学之美》,人民邮电出版社2014年版,第22页。关于自然语言处理发展历史的详细介绍,可参考第2章“自然语言处理——从规则到统计”,第15-26页。
[4]吴军:《数学之美》,人民邮电出版社2014年版,第27-39页。
[5]Paul Simpson, Stylistics: A Resource Book for Students, London: Routledge, 2004, p. 2.
[6]英国的情况不太一样,文体学受到的冲击较小。申丹认为,主要是因为英国比美国保守,而且叙事学在英国始终未成气候,减少了对文体学的另一种冲击。——参见申丹:《关于西方文体学新发展的思考》,《外国语》2005年第3期。
[7]Nina Nørgaard, Rocío Montoro and Beatrix Busse, Key Terms in Stylistics, London: Continuum, 2010, p. 184.
[8]M.A.K. Halliday, “Linguistic Function and Literary Style: An Enquiry into the Language of William Golding's 'The Inheritors'”, in Seymor Chatman, ed. Literary Style: A Symposium, New York: Oxford University Press, 1971.
[9]John Sinclair, Trust the Text: Language, Corpus and Discourse, London: Routledge, 2004, p. 51.
[10]卢卫中,夏云:《语料库文体学:文学文体学研究的新途径》,《外国语》2010年第1期。
[11]同上。
[12]John Sinclair, Corpus, Concordance, Collocation, Oxford: Oxford UP, 1991, p. xvii.
[13]辛克莱尔被称为“语义韵之父”,他发现“许多词倾向于出现在某一特定的语义环境下”,并将语义韵定义为“这是一种联接意义和目的的功能性选择,选择的所有词项都构成某种韵律”。参见John Sinclair, Corpus, Concordance, Collocation, Oxford: Oxford UP, 1991.
[14]申丹:《关于西方文体学新发展的思考》,《外国语》2005年第3期。值得注意的是,申丹反对图兰将文体和话语混为一谈的做法。
[15]参见Michael Toolan, Narrative Progression in the Short Story: A Corpus Stylistic Approach, Amsterdam and Philadelphia: John Benjamins, 2009.
主编: 陈静 责编: 顾佳蕙 美编: 张家伟
关注零壹Lab,获取更多数字人文信息!