01 Lab | Social Network Analysis and Character Functions in the Trilogy of the Big Wave (I)

Date: 2018-09-18 Wei Zhao

   公众号:lingyilab

零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities

作者简介:赵薇,女,首都师范大学文学院博士后,芝加哥大学Textual Optics Lab研究员,研究方向为二十世纪中国文学、数字人文

转载已获得授权,原文刊发于《山东社会科学》

2018年第9期,在此感谢

◆  ◆  ◆  ◆  ◆  

李劼人(1891-1962)是中国现当代文学史上杰出的大作家、文学翻译家和社会活动家。近几十年来,针对作家的接受和研究状况,学界一直可以听到这样一种呼声:李劼人的作品自问世以来,便遭遇“冷遇”的局面。一个屡被援引的说法是李劼人的作品“被各种权威史志刻意遗忘”,1980年代以前几乎没有被任何一本现代文学史提到,更不要说专门性研究。凡此种种,似乎都和小说家毕其一生蔚为大观的著述状况及其应获得的文学史地位并不相符,由此甚至引发了困扰学界的“李劼人难题”、“李劼人接受之谜”的相关说法。[1]“新时期”以来,李劼人作品的接受经历了一个逐步升温的过程,[2]但即便如此,人们仍然倾向于认为作家人们仍然倾向于认为作家的影响更多还局限在成都(或川省)范围内,多数情况下依旧被作为一个“地方作家”而得到谈论,至今缺乏与其“重要性”相称的研讨氛围。至于为什么会如此,这本身就是一个值得深思的问题,在某种程度上也构成了本研究的起点。

本文的讨论对象是李劼人的代表作“《大波》三部曲”(《死水微澜》(1935)、《暴风雨前》(1936、1956)、《大波》(1937、1957-1962)中的社会信息网络与人物功能。[3]作为“联络小说”或“大河小说”的“《大波》三部曲”同时也是历史小说,素有“小说的近代的《华阳国志》”之称,[4]详细揭示了从清末(1894)至辛亥年间(1911),随着帝国主义的入侵,风起云涌的社会运动给川中各阶层民众日常生活带来的深刻影响——从“死水微澜”到终于掀起“轩然大波”,社会舆论不断发酵,各方势力间的矛盾斗争激化,成都市民社会显形,持续半年之久的争路风波终至成为辛亥革命的导火索。就其小说的“历史叙事”而言,李劼人的三部曲在某种程度上模糊了历史记录、社会调研和文艺写作的边界,最后一部《大波》既可以作小说解读,又是保路运动的历史文献,常被视为“文史互证”的典型。[5]关于这一点,此前研究大多是在“地方志”书写的意义上予以展开的。[6]但应该看到的是,尽管作者对蜀地史志的兴趣无不从各类文章中流露出来,但在三部曲中,“历史”仍旧要以“故事”讲述的形态道出,历史叙述编织在世情悲欢的故事脚本中,时而潜成背景,时而走向前台,将这二者紧密联系在一起的,恰是贯穿三部曲始终的社会信息观念。在此意义上,三部曲绝不仅仅是一次史志编纂类的写作,它更是一组架构恢弘、持之有据的“全景式”小说。“历史”的表皮之下,小说家更想以晚清“新小说”连缀“故事”和“话柄”的结构手法,来传递现时代泥沙俱下的海量社会信息,有机地反映动荡剧变中的社会现实和错综复杂的人际关系,最终弄清楚这场政治革命的来龙去脉。因而不难看到,一些重大的近代史问题在文本中都有表征,如近代的地方自治与宪政问题,帝国主义与民族主义问题,官僚政治的解体、城市的近代化、革命的发生学等等,皆被以一种包罗万象的杂语形式维系起来:即作为信息传播载体的小说话语。也正因此,“四川交通和信息的近代化”这一问题本身在很大程度上已构成了《大波》三部曲想要探讨的一个重要主题。而信息传播与近代地方革命之发生、与现代“小说”形式和功用之关系,这一关乎作品价值实现的关键角度正是此前的李劼人研究所欠缺的。[7]

在此背景下,为了深入地探讨这一问题,同时也为了能够从微观的角度进一步揭示李劼人长篇小说文体观念的发展轨迹,我们将利用社会网络分析(Social Network Analysis)的方法对小说文本中的人物关系和人物功能进行一次初步的分析实践。本文中“社会网络”的概念来自于网络理论和结构社会学,它将人类社会的不同活动层面都揭示成关系网,社会成员或集团之间通过信息交流、互动,和对社会资本的占有、创生和再生产改变着网络自身的结构及其资源配置状况。因而本文所采用的方法也可看作是由文学社会学伸展出来的量化分支,吸纳了数据统计分析和可视化分析等数字人文研究的手段。同时,考虑到小说从本质上说仍是一种语言艺术,“写小说就是写语言”(汪曾祺),所以我们将以小说对话语言为主要分析变量,力求将其与传统的文本细读更加精确、深入地结合起来,希望通过对一些重要的统计概念在人物和情节研究中所提示的叙事学功用的讨论,去发现新体长篇小说形成期的“李劼人叙述”为现代中国小说的体式探索和文体实现所提供的独特价值。

>>>>

一、社会网络分析与汉语小说情节分析

近年来,在结构社会学和信息网络科学的强势渗透影响下,社会网分析(SocialNetwork Analysis,简称SNA)成为颇受瞩目的一门交叉学科。它将社会关系看做节点(node)和边(tie)组成的网络(network),节点表示网络内的独立行动者(actor),网络则用来表示行动者之间的交往关系(interaction)。通过数据提取、分析和输出图象几个步骤,逐步得出关于网络的结构特征,如中心性、直径、平均数、聚类系数、平均路径长度等社会学方面的指标,继而从数量上和形态上来把握网络的整体特征,找出网络中的关键性节点和结构组件。尽管社会网分析的方法在社会科学诸分支领域中已大展身手,但在人文研究特别是文学研究中仍处在起步阶段,仅就当前视野而言,比较有代表性的有斯坦福大学比较文学系FrancoMoretti(弗朗科·莫瑞蒂)教授创建的文学实验室(LiteraryLab)近十几年来做过的大量试验性研究,他本人所提倡的“远读”(Distant Reading)概念,与传统文学研究的“细读”(CloseReading)相对,建立在对巨量文本数据的收集和统计分析基础上,在世界文学研究中广为人知,也已经引起一些汉学界小说研究者的注意。[8]

当今时代,数字人文(Digital Humanities)是一门基于一定规模的数据处理、呼唤跨学科合作才能开展的前卫研究。然而,诚如莫瑞蒂所言,对于个人能量有限的人文学者,大规模的数据分析是困难的,其所最擅长的细读本领便很可能让其在最初回避掉大规模的数据处理,转而选择别有意义的“情节分析”(Plot Analysis)。这一转移,便将关注点拉向了对文本中的空间与时间、网络社群集团的划分、核心人物的发现等等与小说叙事研究倏忽相关的几个方面上。在此,莫瑞蒂实际上涉及到了情节分析与传统叙事性文本研究的对接之处:一张网络结构图,可以带来情节的“可视化”,把随时间发展的“情节流”用一个二维的符号系统共时地呈现出来,简化和抽象为本文中诸多由“边”和“节点”组成的人物关系网——既是关系网,又是情节结构,就如同X光的成像图,通过对小说人物关系的呈现,我们可以在瞬间对故事情节一目了然。

图1《哈姆莱特》中的人物关系——由红色边连接起来的人物角色在剧中都死去了,在莫瑞蒂看来,“全部的悲剧都发生在这里”。(引自Moretti, 2012)

然而,一张图即便包含了文本的全部信息,也并不意味着什么,文学研究者的本职任务更在于分析和解释。而阐释高手正是从一张《哈姆莱特》的人物关系图出发(图1),看到了所谓悲剧的本质,再从关键人物Horatio的网络空间出发,就莎士比亚悲剧的主题“对君权正统性的维护”再次做出精彩诠释。而经由Horatio所勾连起的市民社会的存在,正提示了以宫廷秘政所代表的英国王权统治向官僚政体的转化之必然。值得注意的是,莫瑞蒂所谓情节分析,是建立在对网络中的关键节点,亦即对核心人物的发现之上的。[9]

在这一类研究中,莫瑞蒂实际上借助了社会网研究中最重要的“中心性”(centrality)概念,重申了人物系统中等级秩序的存在。也就是说,按照传统人物观,人们习惯上会将焦点聚集在所谓“主角”或“主人公”身上,然而从社会网络的角度看,真正的关键性人物之所以不可或缺,却并非因为他有什么本质化的属性或角色认定,而是由于通过精密的观察和计算会发现,他的“位置”对整个网络结构的稳定性具有至关重要的作用,换句话说,他的存在对于网络而言更是功能性的,因而他的风格(style),无论是言辞风格还是人格特征,都关乎文本主题的生发。尽管在Distant Reading中,莫瑞蒂并没有明确使用“中介中心性”这一类统计学概念,也没有将情节分析与社会网络分析联系起来,但这种针对人物网络映射结构所做出的文学社会学分析无疑是令人信服的。也正是在这一意义上,网络理论可以帮我们颠覆和重建传统人物理论的等级秩序,从大容量、多人物文本中发现真正具有叙事潜能的关键角色。

如果说,莫瑞蒂还仅仅是为小说社会网络分析提供了初步构想,那么,接下来的工作则需要人们将其推向具体的量化实践。这无疑是一项十分诱人却颇具挑战性的工作,其主要难度,首先在于应如何界定节点之间的“关系”,也就是说,两点间可以“连线”的标准是什么?如果两者之间有关系的话,关系的“深浅”又如何?如何衡量加权网络(weighteddegree)中每条边的权重?[10]目前在英语世界中可以看到的研究大多采取了共现词频(co-occurrence)的统计方法来界定人物角色之间的关系程度,但诸如此类的提取结果在很大程度上仍然囿于自然语言处理等手段技术的限制,未必具有借鉴意义。[11]在莫瑞蒂关于“远读”的一些研究中,作图时的“连线”标准是两个角色是否同时出场,并产生了言语交流,至于每条边的“权重”(weight,即以具体的数值来表示人物间关系的程度),由于莫瑞蒂还没有引入更精确的量化测量手段,故而无法统计表示出来。所以,图1只是一张十分简易的人物网络关系示意图,而非加权网络(weighted degreenetwork)图。在我们关于长卷本长篇小说的研究中,两个人物的关系到底如何,仅仅以是否同时出场并且“说过话”为标准是不够的,还需引入更多的测量变量,如对话字数、对话频次和是否为主要信息交流者等等。而且,与戏剧剧本不同,戏剧中的对话行为几乎代表了戏剧行为的全部,但在小说文本中,对话(discourse,即直接引语部分)却并非叙事的全部,还会有一定量的间接引语的存在(“转述体”),也能提示人物关系的程度。但好在对某些小说来说,言语信息(直接引语)的交流,表现了情节的绝大部分内容,这使得以相类似的方式来从文本中提取信息成为可能。

如果回到汉语文本和中国长篇小说(Chinese Novel)的研究中,必须提到的是台湾大学电机资讯学院网络与多媒体所廖儁凡的论文《中国古典白话小说中的社会网路关系:以<儒林外史>为例》(2010)为此类研究开辟出的崭新路径。在该文中,作者延续了前辈研究者的思路,从网络聊天室使用成员的对话模式得到启发,开发出一种可用于描绘戏剧角色关系网络的会话模式。[12]廖儁凡在他的论文中将其用于《儒林外史》人物网络的数据提取和演算,并为这些人物的关系(边)设计出一套算法来计算其权重。具体说来,即以“会话”为单元切分小说中所有的对话,如果两个人物角色同时参与一场会话,则可视为“有关系”,而关系的程度如何,则由对话字数、对话情形(分为说话者-主要听众、说话者-次要听众、听众-听众三种情形)和会话总量几个变量来决定赋值情况。[13]

廖儁凡为小说网络研究贡献出他的专长,一举完成了从数据抓取、算法开发到网络绘制及主要特征计算等一系列工作,但由于这篇论文将关注点放在了用SNA建构小说人物关系网的可能性上,所以作者的视野和考虑大多还局限在技术层面,而未能就方法的适用性和准确性做更深入的甄别和探讨,更无意去挖掘它为文学社会学及小说研究带来的新意义,这便为后来者留下了进一步探索的空间。

>>>>

二、《大波》三部曲中的信息传播

从中西比较的角度来看,作为“联络小说”的《大波》三部曲,不仅与欧洲十九世纪所谓“大河小说”在体式和规模上有颇多形似之处,还继承了中国近代长篇章回体在人物设置上的一般特点,以及晚清“新小说”以人物话语连缀起诸多传闻轶事、社会信息的布局之法。这种出现于1930年代的多卷本小说洋洋数百万言,具有人物众多、[14]对话容量巨大、社会场景分布广泛且无所不包,涉及重大历史事件层出不穷等特点。

因此,引入SNA的一个重要缘由便在于小说的叙述形态和主题内容。我们知道,“《大波》三部曲”以讲述辛亥四川保路运动的《大波》为最终鹄的,《大波》其实是关于共和革命在四川的“起源叙述”。那么,李劼人对“革命”性质和起因的理解某种程度上便构成了三部曲历史叙述的重要动因。从全书命意上看,作者早期倾向于是由海外传导而来的维新改良运动为封闭的川中盆地带来了暴风骤雨般的洗礼。“革命”的来袭,从最难惊动的天外小镇写起(《死水微澜》),才见微知著,继而才有省城中“山雨欲来风满楼”的预感(《暴风雨前》),最后是掀起全省上下的轩然大波(《大波》),才愈发显示出日渐开化的长江中上游社会被动受到影响的历时性过程。在这个过程中,任何细小的风吹草动,都源自外界信息的传入:

“当义和团、红灯教、董福祥,攻打使馆的消息,潮到成都来时,这安定得有如死水般的古城,虽然也如清风拂过水面,微微起了一点涟漪,但是官场里首先不惊惶,做生的仍是做生意,居家、行乐、吃鸦片烟的,仍是居他的家,行他的乐,吃他的鸦片烟,而消息传布,又不很快;所以各处人心依然是微澜以下的死水,没有一点动象。”[15]

这一以“水波”喻“消息”的原喻贯穿整个三部曲,“事件”或者说有关天下大势的消息是一点点“潮到”成都腹地的。在某种意义上小说所着意描绘的正是事态和“新闻”经由人们的舆论传播影响于整个地方社会的过程,这趋势越往后期表现得越明显。如果说在前两部作品中,“故事”还成其为讲述重心,“消息”传布的后果充其量只如死水中泛起波澜,到了1937年的《大波》,或者说从《暴风雨前》的后半部开始,作者已开始尝试新的情节连缀方式——亲历者对重大事件的感知遂成为占据主导的叙述动力。当士绅阶层发起的保路废约倡举带动了包括官、绅、军、民在内的最大范围的社会动员,为了表现“民气”的不可违逆,信息的生产,信息在公共空间的传布便成为最重要的叙述线索。叙述者除了津津乐道于各种新兴媒体和舆论渠道的出现,如报业的影响、茶馆成为市民的议事厅,最常见的叙述模式即所谓“摆龙门阵”——通过“口耳相传”的古老方式,一个人把时局动向告给另一个人,再付之以各种议论,情节单元就算完成了,信息由此流散下去。于是大量的史实以“对话”的形式进入故事主角的意识,充塞人们的日常生活,让人们透过虚构主人公视角去认清“形势”,指点江山。到了重写版中,则发展为叙述人基本退出,全面依赖对话来完成情节,作者甚至会为了信息的传递来专门安插人物。如此,《大波》中的人物关系网在某种意义上也可以被视为信息传播网络了:

所以这角色(指《暴风雨前》中的伍平,笔者注)对历史的认知,建基于一团团的道听途说。历史由是演绎成一块公共网络,由各种对话和各种消息(和误传)织成。这样的历史织网操控了角色的行动”[16]。

对信息的极度敏感和重视,使得承载消息的人物对话在李劼人的文本中有了一层绝然不同以往的意义。在《暴风雨前》中,像“打四圣祠教堂”这么关键的情节单元,都是通过直接引语交代出来的。所以很多时候读者甚至会有一种直接阅读对话,或者说直接读“剧本”的感觉。[17]既然在李劼人的小说文本中,“对话”已形同于“台词”,接下来便可以以对话来衡量小说中人物角色关系的“深浅”,继而建构起一个“文本中的社会空间”了。具体说来,便是以三部曲的人物对话为基础,建立各个文本的语料库,再现出五部小说中虚构人物的关系网,再借助于几种特征性算法,求取每个网络中具有最大度中心性(Degree Centrality)、中介中心性(Betweenness Centrality )、以及特征向量中心性(Eigenvector Centrality)的角色人物和他们的社群化(Modularity)情况,以便发现小说中的重要角色及其阶层流动状况,以及这种流动性所提供的叙事功能、和历史事件的关联等。当然,这样做的依据首先是:和《儒林外史》相似,对话在李劼人文本中占有相当大的比重——这一点从对话字数占全篇总字数的比例上不难看出:


表1 三部曲中对话所占比例

在三部曲中,除《死水微澜》的对话较精炼,各个文本的直接引语部分都占到了全本字数的四分之一以上,《暴风雨前》更是超过了三分之一;而如若把直接引语前面的提示语部分也算作“对话描写”的部分,则所有文本的对话比重都在三分之一以上。建国后的两个重写文本中,《大波》(重写本)的对话描写超过全文字数的半数以上(55%),而《暴风雨前》(1956)的对话部分也接近全文的二分之一(46%)。这使得这些文本成为一部部活在人物对话中的历史小说,其实也是清末以来求维新启蒙之功的社会小说“用少许结构,以对话叙述方式出之”的议政传统使然。[18]

>>>>

三、方法与步骤概述

具体而言,本文完成了以下几步工作:

1. 以半人工的手法提取对话角色

抽取全部对话片段,切分对话节句,将每一节句的说话者、主要听众、次要听众等角色分别提取出来,[19]如下图所示:

图2.《大波》(1937)中的对话关系数据表

2. 用Matlab计算出人物关系权重

根据权重公式设计命令,计算出每一对可能有关系的边的权重。权重的赋值公式如下:

在此,按照此算法公式,决定两人物节点之间边关系如何(即x与y关系)的主要是二人的历次会话情形(以求和函数∑Ti 来表示,Ti表示每次由不同对话情形决定的赋分类型,Dxy则为二者间的所有对话)、对话节句的字数(以Si表示)以及会话发生的总次数(以Cxy表示)。在三种会话情景中:两者一为说话者、一为主要听众时,赋值最高(即Ti=5);其次则是一为说话者、一为次要听众的情况(即Ti=3);二者同为次要听众时赋值最低(Ti=1)。这是因为,我们认为在一次多人参与的会话中,角色和其主要说话听众的关系,要比和次要听众的关系“深”,而且三百个字的发言亦比二十个字的发言重要,而一般认为,两人出现于同一会话场景中的总次数越多,双方便也越“有关系”。将Matlab的计算结果导出,发现四部小说全部的人物关系中最“深”的前三组为:

表2 三部曲中关系最深的前三对人物

3. 将所有人物关系的权重数值导入软件,使用R语言包Tnet(R-packageTnet)计算出四个加权网络的各种特征值。[21]

4. 将所有人物关系的权重数值导入Gephi, 绘制四个文本的网络图,计算出网络的各种统计特征值(如各种中心性)加以比较分析,就结果所提示的叙事学含义进行阐发。

注释

[1] [日]竹内实:《埋没的作家》,萧崇素译,王嘉陵述,载《李劼人研究:2007》,巴蜀书社2008年版,第458-462页;伍加仑,王锦厚:《解放以来的李劼人研究简介》,《当代文坛》1986年第2期。陈思广:《认同与思辨——1976-2010年李劼人“大河小说”的接受研究》,《李劼人研究:2011》,四川文艺出版社2011年版,第200页。白浩:《“然而,事情却有点奇怪”——李劼人小说的市民文化精神与接受之谜》,《李劼人研究:2011》,四川文艺出版社2011年版,第212-234页。

[2]参见唐弢主编:《中国现代文学史(二)》,人民文学出版社1979年版,第274页;杨义:《中国现代小说史(第二卷)》,人民文学出版社1988年版,第425-447页;《李劼人的生平和创作》,四川省社会科学院1986版;《李劼人作品的思想与艺术》,中国文联出版社1989年版;《李劼人小说的史诗性追求》,成都出版社1992年版;《李劼人研究》,四川大学出版社1996年版;《李劼人的人品与文品》,四川大学出版社2001年版;《李劼人研究:2007》,巴蜀书社2008年版;《李劼人研究:2011》,四川文艺出版社2011年版,Kenny Kwok-kwan Ng, The lost geopoetic horizon of Li Jieren: the crisis of writing Chengdu in revolutionary China, Leidenand Boston: Brill, 2015.

[3]《死水微澜》、《暴风雨前》和《大波》分别于1936年7月、1936年12月和1937年由中华书局出版初版本。1954年11月至1962年12月,李劼人对三部曲进行了修改和重写。其中《死水微澜》变动最少,只占十分之一的篇幅;《暴风雨前》抽去几章,补写几章,修改篇幅达到了四分之一;而《大波》则几乎是重写,基本观点、社会场景、主要人物和情节线索皆有所扩充,篇幅也由原来的54万字增加到98万字,是1937年版本的一倍,耗时长久的重写工作最终未能完成。

[4]郭沫若:《中国左拉之待望》,《中国文艺》1937年第1卷第2期。

[5]李劼人一向以史官的严肃态度写作《大波》。据载,1954年为确保重写本《大波》素材的真实,李劼人即与戴执礼等多有往来,借阅还未出版的《四川保路运动史料》全部稿件。而学者们编纂《四川近代史》时,竟也从李劼人作品中摄取史料。参见李劼人,彭光烈:《谈话节略》,《李劼人研究:2011》,四川文艺出版社2011年版。

[6]详见《李劼人作品的思想与艺术》,中国文联出版社1989年版、《李劼人小说的史诗性追求》,成都出版社1992年版、《李劼人的人品与文品》,四川大学出版社2001年版、《李劼人研究:2007》,巴蜀书社2008年版、《李劼人研究:2011》,四川文艺出版社2011年版。

[7]此前注意到这一点的还有浙江大学传媒学院的李思屈(李杰)教授和四川商务职业学院的谢天开主编。见李思屈(李杰):《<大波>:历史的情感记忆与传播》,《李劼人研究:2011》,四川文艺出版社2011年版;谢天开:《从<大波>看清季四川交通近代化》,《李劼人研究:2011》,四川文艺出版社2011年版。

[8]商伟,杨彬:《小说研究的路径与方法》,《文艺研究》2013年第7期。

[9]Franco Moretti, Network Theory, Plot Analysis. Distant Reading, London: Verso, 2012.

[10]所谓“加权网络”weighted degree network,即以具体的测量数值为网络中的每条边赋予权重,以此表示两个节点(人物)间关系的程度“深浅”。

[11]例如,Andrew Piper(安德鲁·派博)的此类研究便需要统计两个人物名字出现在同一叙述性语句中的频次,以此反映两者关系的“深浅”,这不失为一种测量手段。但问题可能是,当人物名字同时出现的时候,也许仅仅基于偶然,而并非一定产生了我们所认定的叙事学意义上的“社会关系”。反之,人物和人物相遇或者说发生联系的时候,也不一定会以实名出现。参见Andrew Piper: “Development of a (Semi-) Automatic Character Network Tool”, https://txtlab.org/?p=528 ; “Detecting Literary Characters”, https://txtlab.org/?p=559 ;“The Constraints of Character. Introducing a Character Feature-Space Tool”, https://txtlab.org/?p=611.

[12]P. Mutton, “Inferring and visualizing social networks on Internet relay chat”, in Information Visualisation, IV 2004.

[13]廖儁凡:《中国古典白话小说中的社会网路关系:以<儒林外史>为例》,硕士学位论文,台湾大学2010年。

[14]重写本和1937年版《大波》中的出场人物分别为570和204个,而字数近130万字的《战争与和平》,人物才一百多号。

[15]李劼人:《李劼人全集》(第一卷《死水微澜》),四川文艺出版社2011年版,第171页。

[16]吴国坤:《大鸟吃小蝇——地方记忆及对李劼人<暴风雨前>的另类读法》,《现代中文学刊》,2015年第1期。

[17]实际上,李劼人小说中另一种引人注目的引语形式是间接引语,表现为频繁转述他人言语或事情经过的“转述体”。关于转述体如何成就了李劼人长篇小说重要的修辞特征,继而决定了他的文体价值和意义,关系着晚清长篇小说叙述语体的转型问题,这需要另一篇文章来深入辨析和讨论。

[18]参见阿英:《晚清小说史》,江苏文艺出版社2009年版,第5页。

[19]此处之所以放弃全自动的角色提取法“词夹子演算法”,而采取这种半自动模式,是为了避免抓取听众时候的错误。由于辨认谁是主要听众、谁是次要听众的工作,对于研究者尚且困难,就更不要说机器识别了,所以本文暂且绕过语言学,没有涉及自然语言处理(NLP)的技术手段。

[20]此处所据,来源于廖儁凡论文中为权重赋值的公式,但在使用Metlab计算的过程中又做了简化处理。

[21]由于在同一部文本中每一对关系权重天差地别(从1~100000不等),所以在后续的特征值计算时,本应使用Tore Opsahl等人针对加权网络(weighted network)而设计的算法。这一改进对于小说人物关系网络的准确建构来说至关重要,也是廖儁凡关于《儒林外史》的研究中所忽视的一点。Tore Opsahl等人在Gephi软件所采用的Brandes算法基础上对以往非加权网络的度中心性和中介中心性算法做了改进,为将边数和边关系的权重对于结果的影响同时考虑进来,他特别添加了一个α参数,以便在计算各种中心性指标时,可以自由调节边数和边权重两种影响因子的比例。经本研究验证,这两种算法的确存在一定偏差,但在排序的前三名上体现并不显著。参见Opsahl, T., Agneessens, F., &Skvoretz, J, “Node centrality in weighted networks: Generalizing degree and shortest paths”, in Social Networks, 32(3), pp.245-251, 2010. BrandesUlrik, “A faster algorithm for betweennes centrality”, in The Journal of Mathematical Sociology, 25 (2), pp.163-177, 2001.

主编 / 陈静     责编 / 顾佳蕙    美编 / 傅春妍

关注零壹Lab,获取更多数字人文信息!