公众号:lingyilab
零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities
当我们追溯任何关于跨学科领域的学术活动的历史,都会不可避免地碰到许多基本问题。诸如该领域的范围应该是什么?相关的领域之间是否有重叠,哪个领域影响了活动的发展?对于其他——也许是更加传统的——学科有何影响?对于活动的发展按线性时间顺序的描述真的适当吗?或许接下来的这个问题有些离题,有什么能够引导我们进入迄今为止尚未探索的途径?这些问题中的每一个本身都能够构成一篇论文的基础,但鉴于本文的篇幅以及背景,我们采取的方法是通过按时间顺序的记述追溯人文计算的发展。在此范围内,将重点介绍那些里程碑式的事件,即已经取得的重大学术进展或已经实质上被其他学科所采用、改进或吸收的已完成的人文计算工作。
在此我并不想定义人文计算是什么。这本《指南》的主题范围事实上已经就此给出了大量信号。我只想说,我们关注的是在被宽松地定义为“人文学科”(the humanities),或在英式英语里被称为“艺术学科”(the arts)中应用了计算程序的研究及教学。在人文计算的发展过程中,有关文字资源的应用程序已经占据了核心地位,这一点也可以从大量有关的出版物看出,这篇文章也因此将必然关注到这个领域。同时这里也不是试图定义“跨学科”的地方,但就其本质而言,人文计算不得不包含“两种文化”,即将科学的严格、系统、明确、程序的方法特征带到人文学科中,来解决那些迄今为止大多以偶然的方式被处理的人文学科内的问题。
与许多其他跨学科的实验不同,人文计算有一个非常知名的开端。在1949年,一位意大利耶稣会修士,罗伯特·布萨(Roberto Busa) 神父开始了一项即便就今日而言仍然非同寻常的任务:为圣托马斯·阿奎那及相关作者的著作中的所有词汇制作一份词汇索引(index verborum),包括了总计大约1100万的中世纪拉丁语词汇。布萨神父想到也许有机器可以帮到他,而他也听说过计算机,所以他到美国访问了 IBM 的托马斯·J·沃森(Thomas J. Watson) 以寻求支持(Busa 1980)。在其帮助下,布萨开始了他的工作:所有的文本逐渐被转移到穿孔卡,为这个项目编写了一个语汇索引程序,最终出版了印刷卷册。第一册于1974年出版(Busa 1974)。
这个纯粹机械式的语汇索引程序根据单词的图形形式(即字母顺序)排列词语,可以在相当短地时间内搜索到结果。但布萨对此并不满意。他想要生成“词形还原的”(lemmatized)语汇索引,也就是词语按照词典起始字排列,而不是按照它们的简单形式。他的团队尝试编写了一些计算机程序来解决这个问题,而最终是以一种半自动的方式,即用以人工处理那些程序无法处理的单词形式,完成了所有1100万词汇的词形还原(lemmatization)。布萨对他的工作要求很高。他的卷册排版优雅,并且他决不会为了让工作快点完成而降低学术标准。他对人文计算产生了持久深远的影响。他所体现出的远见和想象力甚至远远超过了当前这一代伴随互联网成长的从业人员。1992年,有关阿奎那的资料光盘出版。光盘资料具备了超文本功能(cum hypertextibus) (Busa 1992),同时还有拉丁语、英语及意大利语的用户指南。布萨神父是“布萨奖”(the Busa award)的首位获得者,以表彰他在应用信息技术进行人文研究上所取得的杰出成就。在1998年匈牙利德布勒森的获奖演讲中,他探讨了在万维网上使用精致的分析工具生成多媒体学术资料的潜力 (Busa 1999)。
在1960年代,其他研究者开始意识到使用语汇索引的好处。多丽丝·伯顿(Dolores Burton) 于1981-1982年在《计算机与人文科学》期刊发表了四篇系列文章,尝试对1950年代开始的讨论做一些总结 (Burton 1981a, 1981b, 1981c, 1982) 。这些研究者中的一些是独立学者(individual Scholar),他们的兴趣主要集中在一组的文本或作者上。在英国,罗伊·威斯比(Roy Wisbey) 制作了一系列早期中古高地德语(Early Middle High German)文本的索引(Wisbey 1963)。在美国,斯蒂夫·帕瑞斯(Stephen Parrish)对马修·阿诺德(Matthew Arnold) 和 W·B· 叶慈(W B. Yeats) 诗歌所做的语汇索引介绍了康奈尔大学出版社出版的一系列的语汇索引 (Parrish 1962)。在此期间,也能看到欧洲一些重要的语言学院配备了计算设备,主要用于协助辞书编纂,其中包括建于南希大学的“法语宝库” (Trésor de la Langue Française)(Gorcy 1983),意在归档储存法语文档资料,还有另一个是位于莱顿的荷兰语词汇学研究所 (De Tollenaere 1973)。
虽然这时候的许多活动主要专注于语汇索引的制作,并以此为最终目的,但就这些工具的一项运用却开始获得了自己的生命。事实上,早在被用于计算机应用之前,定量方法就被用于研究风格与作者问题。比如奥古斯塔斯·德·摩根(Augustus de Morgan) 在1851年写的一封信中就提出将词汇表的定量研究作为调查保罗书信作者的一种手段 (Lord 1958)。另外T·C·门登霍尔(T. C. Mendenhall) 在他19世纪末的著作中描述了他的计数器。两位女士计算了莎士比亚、马洛、培根以及许多其他作者作品中双字符、三字符以及其他更多字符单词的数目,试图通过这个来判断到底是谁写出了莎士比亚的作品 (Mendenhall 1901)。但计算机的出现使得在更多、更准确地记录词频成为可能,这些都是人工所不能及的。1963年,一位苏格兰牧师安德鲁·莫顿(Andrew Morton) 在一家英国报纸上发表了一篇文章,声称根据计算机的计算,保罗书信中只有四篇书信是圣保罗本人的作品。莫顿的研究基于对希腊文本中常见词汇的词频统计,并加上一些非常基础的统计数据。他持续考察了各种不同的希腊文本,并发表了更多的论文与书籍。这些著作关注检查常用词(通常是小品词)的频率,同时也关注句子的长度——虽然人们可以反驳,用于识别句子的标点是现代的编辑们添加到希腊文本中的 (Morton 1965; Morton and Winspear 1971)。
据信,首先将计算机应用于有争议的作者身份研究是由阿尔瓦·伊勒嘉(Alvar Ellegard) 对“朱尼厄斯的信件”(the Junius Letters)[1]的研究。尽管这项发表于1962年的研究并未使用计算机统计词数,但伊勒嘉的确使用了机器计算来帮助自己从手稿中获得一个词汇表概览 (Ellegard 1962)。1960年代早期出现了被认为是最具影响力的基于计算机的作者身份研究,即摩赛勒(Mosteller)和华莱士(Wallace)的
《联邦党人文集》(Federalist Papers)研究,试图确定12篇有争议文章的作者身份 (Mosteller and Wallace 1964)。由于两位可能的作者在同一主题,这些有争议的文章上有很多材料,使得此项研究成为比较研究的理想案例。摩赛勒和华莱士最初关注于他们所使用的统计学方法,但他们得以说明了麦迪逊很可能就是那些有争议文章的作者。他们的结论已被普遍接受,《联邦党人文集》甚至被当作检测关于作者身份辨别的新方法的标准 (Holmes and Forsyth 1995;Tweedie et al. 1996)。
在这个时候,技术的局限性备受关注。用于分析的数据只能是文本或数字。它们必须通过手工费劲地输入到穿孔卡或者纸带上。就卡片而言,每张卡片只能容纳80个字符或一行文本(仅限于大写字母)。而就纸带来说,虽然可能允许小写字母,但却是无论如何都是无法供人阅读的。布萨神父就有过将满满几卡车的穿孔卡从意大利的一个中心转移到另一个中心的经历。所有的计算都是以批处理的方式进行的,在工作完成并被打印出来之前用户根本就无法看到任何结果。人们很快就认识到了字符集呈现是一个本质问题,但这个问题直到后来,随着Unicode[2]的出现才得以解决。但这种解决方法并不适用于所有类型的人文材料。在此之前,人们设计了许多不同的方法来表现穿孔卡上的大小写字母,最常见的办法是在真正的大写字母前插入一个星号标记或类似的符号。类似的处理方法也适用于重音符以及其他非标准的字符。至于非罗马字符则必须全部以按字母转写的形式表现。
大多数大规模的数据集都保存在只能串行处理的磁带上。一盘全尺寸磁带从一头卷到另一头需要花费的时间大概是4分钟,所以软件也被设计为尽可能减少磁带的活动量。想要像在磁盘上那样随意访问数据是不可能的,因此数据不得不以序列的方式存储。对于文本数据而言,这不构成什么问题,但对历史资料而言,这种储存方式意味着数据的简化,这代表一个对象的几个方面(构成关系数据库技术的几个数据表)必须简化到成一个简单的线性流。就这一点本身而言,就足够让历史学家对基于计算机的项目敬而远之了。
表现的问题远远超出了特定字符集的范围。对语汇索引和检索程序而言,通过其在文本中的位置来识别引文是非常有必要的。传统文档检索系统所采用的方法并不适用这种情况,因为传统方法倾向于设定文档结构与那些期刊论文的结构类似,因此就无法处理诗歌或戏剧中存在的结构,或者那些划线很重要的手稿资源的结构。人们提出了各种各样定义文档结构的方法,但这一时期发展出来的最精细的则是被应用于COCOA 语汇索引程序中的方法 (Russell 1967)。COCOA 以保罗·布拉特利(Paul Bratley) 为一个古苏格兰文本档案馆设计的格式为范本,允许用户为文档结构定义一个匹配文档特殊设置的规范,同时也允许对重叠结构进行标记,这就使得在为资料的手稿资源编码一个引言系统的同时,也可以为打印版本编码一个引言系统。COCOA 在文件空间上也很节约,但相对来说,对人而言较少可读性。
另外一个得到广泛应用的引言模型则更加依赖于穿孔卡的格式。在这一通常被称作“固定格式”(fixed format)的方案中,每行是以一个编码的字符序列开头,这个字符序列提供了既定的引言信息。引言中的每个单元分别定位行中的特定列,比如标题在1-3列,诗句号在5-6列,而行号在7-9列。此项信息的录入因为穿孔卡机器的功能得到加速,但此项信息也占据了计算机文件内的更多空间。
我们依旧能够在不久前创建的电子文本中找到这些引言方案的遗产。特别是 COCOA 具有非常深远的影响,许多其他模型都从它衍生而来。COCOA 无法轻松地处理文本内容中诸如名字、日期以及缩写等特征不明显的标记,但它可以处理重叠结构,这一点要远胜于几乎所有的现代标记方案。
在这一时期,那些对人文计算感兴趣的人也第一次有机会聚集在一起分享想法和问题。1964年IBM 在约克城高地组织了一场研讨会。随后出版的由杰西·贝辛格(Jess Bessinger) 和斯蒂夫·帕瑞斯编辑的《文字数据处理研讨会会议记录》(Literary Data Processing Conference Proceedings)(1965) ,除了输入要依赖于穿孔卡之外,读起来就像是来自二十多年后的东西。这些论文讨论了复杂的问题,诸如手稿材料的编码以及语汇索引的自动分类。在后一问题中,拼写变形以及词形还原的缺乏被认为是严重的障碍。
可以肯定地是,约克城高地研讨会只是一个单一活动。事实上,第一个关于文字与语言学计算的定期系列会议,也就是后来的文字与语言学计算学会/计算机与人文学科学会 (the Association for Literary and Linguistic Computing,缩写为“ALLC”/ Association for Computers and the Humanities “ACH”) 研讨会的前身,是由罗伊·威斯比和 迈克·法灵登(Michael Farringdon)1970年三月在剑桥大学组织的。这是一个真正的国际性事件,具有良好的代表性,无论是就大西洋两岸还是就澳大利亚而言。经威斯比(1971) 细致编辑的会议记录为后续出版物设定了标准。对这些会议做个简单回顾,我们可以看到其主要的兴趣是输入、输出、编程与词典编纂、文本编辑、语言教学以及风格学。甚至在当时,人们就已经完全意识到了需要找到一种存储和维护电子文本的方法论。
另外一个关于萌芽期学科领域的标志是一份新期刊杂志的创建。1966年由约瑟夫·雷宾(Joseph Raben) 担当编辑工作的《计算机与人文学科》(Computers and the Humanities)开始发行。凭借非同寻常的热情,雷宾创办了这份新期刊。这份杂志在刚开始的那几年,至少在定期的系列研讨会以及在此基础上发展而来的学会良好运行之前,成为了传播有关人文计算信息的主要转播媒介。雷宾认识到了人们希望知道现在进展的状况如何。同时,他还知道,对于那些考虑启动一个项目的人而言,他们想到的第一件事就是需要看到学者动态的期刊目录。另外也有其他针对某些特定团体的非正式的时事通讯,值得一提的是由斯蒂夫·韦特(Stephen Waite)编辑的针对计算机和经典著作的《演算》(Calculi)。
在1960年代,一些致力于在人文学科使用计算机的中心相继建立了。威斯比于1963年在剑桥建立了文字与语言学计算中心(the Centre for Literary and Linguistic Computing),目的是为他的关于早期中古高地德语文本的工作提供支持。威海姆·奥特(Wilhelm Ott)则在图宾根建立了一个小组,他们开始开发一整套用于文本分析的程序,专门用于批注本的制作。TuStep 软件模块一直沿用到今天,它为从数据输入与核对到复杂的印刷文本的制作的全部阶段的处理确定了非常高的学术标准。
早期阶段的工作主要特点就是受到技术的阻碍,比如字符集、输入/输出设备以及批处理系统的缓慢运作等都影响了研究。但无论如何,研究者们还是找到了一些应对这些问题的方法,尽管这些方法有些累赘。更为重要的是,他们所面对的关键问题依然是我们今天要面对的,特别是需要超越图形字符串的层面去看待“词语”,以及有效率地处理不同的拼写、多个手稿以及词形还原。
如果要用一个词来描述这一时期,那几乎肯定就是“联合”(consolidation)。有更多的人使用早期发展而来的方法论,创建了更多的电子文本,启动了更多使用相同程序的项目。关于有可能做什么的知识慢慢在普通的学术通信渠道中扩散开来。越来越多的人在他们的日常生活中接触到计算机并开始思考计算机能够对他们的研究和教学做点什么。
知识的扩散不仅仅受助于《计算机与人文学科》,也得益于定期的系列会议。1970年在剑桥的研讨会开启了一项在英国的双年系列会议,它后来成为人文学科计算的一个重要焦点。在爱丁堡 (1972)、加的夫(1974)、牛津 (1976)、伯明翰(1978)和剑桥(1980)的一系列会议全都产生了高质量的论文。文字与语言学计算学会是在1973年伦敦国王学院的一次会议上创建的。一开始它每年发行三期内部通讯。它也开始组织一个有一些特邀演讲的年度会议。在1986年它有了一份名为《文字与语言学计算》(Literary and Linguistic Computing)期刊。在1970年代中期,另一项被称为“人文学科计算国际研讨会” (ICCH) 的系列会议在北美启动。为了与英国的会议错开,该会议每逢奇数年举行。英国的会议与 ALLC 年会开始慢慢结合。他们继续关注文字与语言学计算但稍微偏重于“语言学”,为此他们为日渐增长的欧洲研究者提供了一个论坛,这个论坛后来被称为语料库语言学(corpus linguistics)。ICCH 吸引了大量的论文,比如关于在写作教学中计算机的使用,以及关于音乐、艺术及考古学的论文。计算机与人文学科学会 (ACH) 产生自这个研讨会,它创建于1978年。
学术的计算机机构也开始意识到对人文计算的需要。在使用大型机计算的那个时期,人们需要注册之后才能使用计算设备。与此同时,注册也为学术计算的工作人员提供了机会去了解用户想要什么,去考虑哪些标准软件可以提供给许多不同的人使用。英国的 COCOA 语汇索引程序的第二个版本恰恰是为了这个目的设计的,以能在不同的大型计算机上运行 (Berry-Rogghe and Crawford 1973)。该程序在1970年代中期被分发到不同的计算中心,而许多中心也指定了专人作为技术支持。由于对程序用户界面不甚满意,加之编写该程序的阿特拉斯实验室(Atlas Laboratory) 中止了对该程序的支持,使得英国的资助机构转而赞助在牛津大学开发一个新程序。该程序被称为牛津语汇索引程序 (the Oxford Concordance Program,简写为“OCP”),这个软件在1982年已经完成等待发布并吸引了全世界许多不同国家的用户的兴趣 (Hockey and Marriott 1979a, 1979b, 1979c, 1980)。与此同时也出现了其他打包的或通用的软件,这大大减少了项目在编程支持方面的费用。
为了避免重复开发,在文本存储及维护领域也走向了联合。随着打包软件[3](packaged software)的出现以及大量编程不再成为必须,每一个项目都要花大量的时间去准备。1976年牛津文本档案馆 (OTA))建立背后的主要动机就是确保一位研究者已经处理完成的文本不会丢失。OTA 承担维护电子文本,并在遵守存放者以及相应的版权许可的前提下,向任何出于学术目的、想要使用它们的人提供这些文本。它是数字图书馆的开端,尽管一开始并没有人这样称呼它,而它的工作人员不得不设计他们自己的描述及记录资料的方法 (Proud 1989)。而未记录材料的总数凸显了用于描述电子文本的识别程序的必要性。
OTA 的方法是为任何已存储的文本的维护提供服务。它设法依靠很少的预算在相当长的时间内实现这一点,但它无法推动创建特殊的文本。某些学科领域的学者团体更加专注于创建某个文本档案馆,以便作为研究资源。其中值得一提的是在加州大学欧文分校创建并由西奥多·布鲁纳 (Theodore Brunner)领导多年的希腊语库 (Thesaurus Linguae Graecae,简称为“TLG”)。布鲁纳募集了上千万美元用以支持古希腊文本“数据库”的创建,它涵盖了从荷马到大概公元600年的所有作者、大约7000万词语 (Brunner 1993)。后来帕卡德人文学院制作了一个与之互补的古典拉丁文合集,配合 TLG 为古典研究的学者提供了其他学科许多年都无法比拟的研究资源。直到针对古英语辞典的古英语语料库的完成,古英语学者建成了类似的,较为全面的、但要小一些的语料库 (Healey 1989)。
在此阶段,更多的人文计算中心成立了。其中一些,比如位于卑尔根的挪威人文计算中心(the Norwegian Computing Center for the Humanities,现在的 HIT),凭借政府的大力支持,整合了大范围的应用和项目。其他比如位于宾夕法尼亚大学的文本计算分析中心 (the Center for Computer Analysis of Texts ,缩写CCAT) 则更加集中关注于该中心创建者们的学术兴趣。世界各地成立了许多的兴趣机构,其中的学者们都得到了良好的支持。
在这一阶段,人文计算开设了各个不同方面的课程。其中一些课程是由学院计算中心的工作人员授课,主要是关于使用特定的软件程序的制作技术。其他一些课程则更广泛地关注于技术的应用。学院课程常常倾向于关注他们自己的兴趣,这导致相同应用领域中的学生项目增多。当时发生了一场学生是否应该学习计算编程的争论。有些人觉得它取代了拉丁语成为一种“精神原则”(mental discipline)。其他人则认为它太困难、从人文学科的核心工作中占用了太多时间。字符串处理语言SNOBOL一度曾经很流行,因为它对于人文学科的学生而言比其他的计算机语言——当时最重要的Fortran——更加简单。
在处理工具方面也有所进展,主要是通过从磁带到磁盘存储的转换。文件不再必须以串行的方式进行搜索。一度出现了各种不同的管理数据库材料的技术,其中一些对于人文学科的材料非常有效率 (Burnard 1987a),然而关系模型[4]逐渐占据了上风。这种模型在大型机实施中呈现出更好的结构,在这种结构中,历史学家以及其他人能够处理从资源中抽取出来的材料(而不仅仅是资源本身)。然而,关系技术对于需要被填充到表中的信息呈现而言仍然存在一些问题。在1970年代至少有两种硬件设备被发明出来用以协助搜索。一种被安装在戴维·帕卡德(David Packard)的 Ibycus 计算机上,该计算机是被建造用来处理TLG 以及一些其他的古典材料 (Lancashire 1991: 204–5)。另一种则是内容寻址文件存储 (CAFS),它工作于英国的 ICL 计算机上 (Burnard 1987a)。将(数据)处理转移到硬件的想法非常吸引那些不得不处理大量材料的人文学科研究者,但它并未大规模的流行,这可能是因为传统硬件速度的进步更具压倒性。
概览这一阶段的各种出版物,可以看出基于最初通过语汇索引程序生成的词汇表所撰写的论文具有明显的优势。那些结果不仅对于某些文体分析家显得有趣,对于语言学应用也是如此。愈来愈多复杂的数学被加诸于词汇表统计,一些更加偏向于人文学科的研讨会参与者受到冷落。除此之外,在方法论方面还真没有什么新鲜或令人兴奋的成就,而且对于方法论的批判评价可能比期待中的更少一些。在此阶段期间,人文计算所取得的最重要发展在于因更多传播渠道的出现(研讨会与期刊)而产生的支持力量,以及认识到标准软件和存储并维护文本的必要性。传播主要集中于人文计算的渠道,很少在主流的人文学科出版物中出现。这似乎说明我们当时仍然处于这样一个阶段,即人文学科中基于计算机的工作的学术声望是值得怀疑的,学者们也更倾向于在他们更能够被接受的渠道发表作品。
这一阶段人文计算出现了一些意义重大的发展。其中一些发展归功于两种新技术:个人计算机和电子邮件。而其他的发展则单纯地因为使用的增加以及减少重复劳动的需求。
一开始有几种不同的相互竞争的个人计算机品牌。有些是专门为游戏开发的,有些是独立的文字处理器,无法用于其他任何东西,而其他则是专门针对教育市场而非通用。基于IBM架构的IBM PC和模块逐渐开始占据主导地位,另外苹果的麦金塔电脑(Apple Macintoshes)也吸引了大量用户,尤其是针对图形处理。
现在个人计算机是学术生活不可缺少的东西,但在其早期阶段,个人计算机的要比现在昂贵得多,早期的购买者都是狂热的爱好者以及那些熟悉计算的人。它对人文计算最初的影响就是人们不必再为了使用计算机去计算中心注册。个人计算机用户可以做任何他们想做的事情,但并不一定能够从那些已经存在的专业知识中获益。这导致了重复劳动,但同时也促进了创新,因为用户不会受到已有东西的制约。
在1980年代末期存在三种基于DOS的文字分析程序: Word-Cruncher、TACT 和 MicroOCP,每一种都具备非常出色的功能。个人计算机用户可以在家使用这些程序工作,如果使用 Word-Cruncher和 TACT,可以瞬时获得搜索结果。MicroOCP 则是从一个大型机程序开发而来,它使用批量语汇索引技术而不是交互式搜索。然而个人计算机的主要应用程序是可以与所有程序共享的,也就是文字处理。这吸引了更多的用户,他们很少了解其他的应用程序,倾向于认为文字处理程序的功能就是计算机能够为他们做的全部事情。
苹果的麦金塔电脑有两点吸引人文学科用户的地方。首先,在远远早于个人计算机的视窗系统(Windows)之前它就拥有一个图形的用户界面。这意味着它能够更好地显示非标准字符。它终于能够在屏幕上显示古英语字符、希腊文、西里尔字母以及几乎任何其他字母,而且能够轻易地操作包含这些字符的文本。其次,麦金塔电脑也自带了一个程序,它允许用户轻松地创建一些初级的超文本。HyperCard 提供了一个文件卡片的模型,卡片之间能够互相关联。它同时包含了一个简单的编程工具,这第一次使得人文学科的学者们编写计算机程序变得容易。超文本对于教学的益处很快就被认识到了,然后很快就出现了各种各样的范例。它们当中的一个很好的例子是由帕特里克·康纳(Patrick Conner)创建的 Beowulf 工作站 (Conner 1991)。它向用户展示了一个文本,上面带有指向现代英语版本以及各种不同版本的语言学注释和背景注释的链接。Perseus 项目的第一个版本也通过 HyperCard 交付给了终端用户。
网络,或者至少就电子邮件而言,在一开始只局限于计算机科学家团体和研究机构。到1980年代中期,大多数学术计算服务都提供了跨越国境线收发电子邮件的设施。在1985年尼斯的ALLC 会议上,人们殷切地交换电子邮件地址,一个新的即时通讯的时代开始了。很快地,电子邮件就被发送给用户组,人们创建了用于电子讨论列表的邮件列表服务程序(ListServ)软件。1986年 帕特里克·康纳创建了针对人文学科的历史最悠久的电子讨论列表 Ansaxnet (Conner 1992)。
1987年春天,在南卡罗来纳州哥伦比特区的 ICCH 会议上,一群主要从事人文计算支持工作的人聚集到了一起,他们一致同意要找到一种定期保持联系的方法。当时来自多伦多大学的威拉德·麦卡蒂(Willard McCarty)同意看看他们怎么才能做到这一点。在他从会议返回的途中他发现了ListServ的存在,于是 Humanist 诞生了 (McCarty 1992)。第一条信息发布于1987年5月7日。麦卡蒂自告奋勇担当了他乐意称之为“电子研讨课”的编辑角色,除了1990年代早期有一段时间 Humanist 是由来自布朗大学的人担任编辑之外,他一直都承担了这个工作。
Humanist 在某种意义上已经成为电子讨论列表的模板。麦卡蒂一直维持着优秀的编辑水准,而且讨论的水平通常也很高。对我们这些身处欧洲的人而言,每天早上三到六篇 Humanist 摘要作为定期早餐意味着愉快一天的开始。Humanist 已经成为一个社区维护和发展的中心,它对人文计算的定义做出了意义重大的贡献。它的存档要追溯到1987年,包含了关于在此期间的发展及关注的庞大信息资源并被语言学家列表 (Linguist List) ——最主要的针对语言学家的电子论坛——的创建者当做了样本。
在该阶段,以印刷形式的出版物开始大规模地尝试制作关于项目、软件及出版物的目录索引。两卷本的人文计算年鉴 (Humanities Computing Yearbook ,简称“HCY”)得到出版。1988年,由伊恩·兰开夏(Ian Lancashire)和威拉德·麦卡蒂编辑的第一册出版,包含400页的内容。第二册(1989-90年)有 700页的内容以及更好的索引。之后持续的几年时间中,直到它开始变得过时之前,HCY都是极具价值的资源,它填补了原来由《计算机与人文学科》学者动态目录所扮演的角色,后者在1970年代早期就已停办。筹备HCY 是一项真正艰巨的任务,在出版了两册之后就停办了。在1990年代早期,普遍的共识是未来在线数据库将成为更有效率的资源。尽管有若干项目试图想要继续与HCY类似的事情,但一直没有出现能与之相提并论的,从此,人们也不可能再对所有有关项目和出版物的活动有宏观上的认识了。
就学术发展而言,在此阶段有一项活动脱颖而出。1987年11月,南希·艾德(Nancy Ide) 在 ACH 同事的协助下在波基普西的瓦瑟学院(Vassar College, Poughkeepsie)组织了一场特邀会议,意在探讨为人文学科电子文本创建一个标准的编码方案的可能性 (Burnard 1988)。早前就有人进行过不同的尝试,试图解决不同而且相互冲突的编码方案的问题,用瓦瑟会议中的一位与会者的话来形容,就是“混乱”。现在,时机已成熟,可以继续进行了。学者们厌倦了浪费时间去重新格式化文本以适应特殊的软件,对已有方案的种种不足更是倍感沮丧。1986年,一种新的编码方案出现了。由 ISO 发布的标准通用标记语言 (The Standard Generalized Markup Language ,简称“SGML”)提供了一种定义标记方案的方法,它可以操作许多不同的文本类型,既可以处理元数据也可以处理数据,不但能够表现文档的基本结构特点,也可以表现复杂的学术评注。
与会成员同意设立一套准则——波基普西准则(the Poughkeepsie Principles),作为创建一套新的解码方案的基础,同时项目管理也被委托给一个指导委员会。该委员会由来自 ACH、ALLC以及计算语言学学会(The Standard Generalized Markup Language)的代表组成 (Text Encoding Initiative 2001)。随后这个团体就在北美募集了超过100万美元的资金并指导文本编码倡议 (Text Encoding Initiative ,简称“TEI”))的《电子文本编码和交换指南》(Guidelines for Electronic Text Encoding and Interchange)的发展。这项工作最初被规划为四个区域,每个区域由一个委员会带领。委员会的成果由两位编辑汇总为第一稿并于1990年发布以征求公众意见。更进一轮的工作包含了诸多工作小组,以便详尽地着眼于特定的应用领域。TEI 《指南》的第一个完整版本于1994年5月,以印刷形式和电子版本形式发布。
TEI 的规模、范围及影响都远远超过了任何瓦瑟会议与会者的设想。这是第一次系统化地试图对所有人文学科学者有可能感兴趣的文本的特征进行分类和定义。总的来说,用大约400个编码标签标记了一个结构,该结构可以很轻松地针对新的应用领域进行扩展。《指南》中对于标签的规定说明了一些相关的问题,但更深层次的学术上的挑战则是伴随着工作的进展而出现的。TEI 的工作激发了人们对于标记理论以及将人文学科的知识表现自身作为一个主题的兴趣。TEI《指南》的出版恰逢全文数字图书馆的发展。数字图书馆项目之前与人文计算并无联系,但《指南》简直就是为数字图书馆项目而生的,后者可以直接以TEI 的工作为基础而不必从头发明一套标记方案。
许多TEI 工作是通过使用私人以及公共的电子邮件讨论列表并配合一台存放已发布的文件草稿的文件服务器来完成的。从一开始所有TEI 小组的人员就被要求定期使用电子邮件,而这个项目也成为这种工作方式的一个有趣范本。然而,参与者们很快就意识到很难在电子邮件讨论中达成结果,幸运地是,他们有足够的资金用于举办定期的面对面的技术会议从而确保能够做出决定,所以不同工作小组的标记建议能够有效率地得到合理化。
除了个人计算、网络以及TEI 的主要发展之外,自1970年代以来的那种人文计算活动也在继续发展,拥有了更多的用户和更多的项目。某些应用领域渐渐从人文计算分拆开来并形成了他们自己的文化及传播渠道。“计算机与写作”就是一个很快就消失的主题。对人文计算而言更重要的是失去了语言学计算的某些领域,特别是语料库语言学,他们拥有了自己的研讨会和会议。计算语言学一直以来都独立于人文计算在发展,所以除了唐·沃克(Don Walker) 在 TEI 指导委员会上的努力之外,它仍然是一个独立的学科。沃克与比萨的计算语言学研究所的安东尼奥·扎波里(Antonio Zampolli)一直都致力于将人文计算和计算语言学这两个社区联合到一起,但成果有限。只有在人文计算的学者们开始真正需要用到在计算语言学中开发的工具(形态分析、句法分析以及词汇数据库)时,出于防守以及语音分析社区的需求,计算和语料库语言学的工作才有所扩展。除了扎波里和他的同事尼可莱塔·卡佐拉里(Nicoletta Calzolari)于1989年6月在第一次 ACH/ALLC 联合会议上做出的关于计算语言学和文字与语言学计算之间的聚合这篇里程碑似的报告之外 (Calzolari and Zampolli 1991),这些社区相互之间很少有交流,而人文计算也并没有从计算语言学的技术中得到本来可以获得的好处。
四、互联网时代 从1990年代早期到现在
在1990年代有一项发展的影响远远超过了其他发展。这就是互联网,更确切地说是万维网(World Wide Web)的到来。1993年出现了第一个图形浏览器 Mosaic。现在互联网的使用已经是进行任何学术活动的一个重要组成部分。整整一代学生伴随着互联网成长,他们很自然的将它作为信息的第一来源。
最初,一些长期从事人文计算的从业者们就像微软曾经做的一样,并不能真正理解网络可能带来的影响。那些参与了TEI 的人深刻认识到超文本标记语言 (HTML)是一套有缺陷的标记系统,它延续了文字处理器和基于外观的标记的所有问题。那些在其之外的人则是带着好奇的心态看待网络。它是一种查找信息的工具,但并未被人文计算真正当作重要的工具。它给那些第一次考虑进入人文计算的研究所和组织提供了一个机会。他们将网络视为一个优秀的出版平台,这不仅是对他们的学术工作的成果而言,也有助于他们在一个庞大的用户社区中突出他们的活动。于是,一个新的用户群体出现了。
任何人都可以在网络上都可以成为出版人,在很短的时间内,对人文计算兴趣的广泛关注转变为通过互联网传递学术资料。从制作人的角度看这样做的好处非常巨大。文本格式不再受到印刷书籍格式的限制。从理论上讲几乎不存在大小的限制,而超文本链接则为处理注释提供了一个非常有用的途径,以及其他等等。出版物可以以增量的方式创建,一直到它完成准备发布为止。它可以马上就提供给它的读者,也可以很容易地修正和更新。
从1990年代初期到中期,许多新项目纷纷出现,其中一些也实际上成功募集到了资金并得以启动。尤其是在电子学术版本领域,有一些会议和出版物专门讨论电子版本看起来应该是怎么样的 (Finneran 1996; Bornstein and Tinkle 1998)。当时正是编辑理论家们着眼于作为物理对象的文本的时候,他们准备以数字图片的形式表现这些文本。除了由彼得·罗宾森(Peter Robinson) (Robinson 1996, 1997, 1999) 以及可能其他一二人的工作这几个显著例外之外,很少有出版物得见天日,除了一些蓝本和小样本,而到了这个十年的下半段,对这方面的兴趣已经逐渐衰减了。人们提出了很多具有想象力的想法,但一旦这些想法成熟到可以从理论转化为实践的程度,开始要面对输入并标记文本以及开发软件的繁重工作的时候,人们的注意力就开始转移到其他地方。
对于这些电子资源合集应该如何称呼引起了诸多争议。许多人偏爱“档案馆” (archive) 这个术语,比较著名的有布莱克档案馆(Blake Archive)以及其他在弗吉尼亚大学人文学院高级技术研究所进行的项目。“档案馆”意味着一系列收集的材料,在那里用户一般不得不选择一条导航路线。“版本”(Edition)意味着很多的学术附加值,它反映了一位或多位编辑的观点,这可能会影响到特定的导航路线的选择。SGML(标准通用标记语言,Standard Generalized Markup Language)常见于基于 TEI 的应用,可以为提供建立导航路线提供一种关联的方式,但更为重大的挑战则在于设计和建立一个有效率的用户界面。然而重点主要还在于导航,而不是在过去塑造人文计算主要应用领域的分析工具及技术。在网络的早期阶段,相比使用原生HTML的传递技术,SGML编码的文本的传递技术相当笨拙,呈现出的用户界面在很多方面都无法令人满意。不过由于浏览它们的方式简便,许多此类出版项目的影响还是很可观的。越来越多的人开始熟悉人文学科中的技术理念,但对于如何将材料放到网络上依然知之不多。
尽管一开始的时候大多数此类出版项目是由学者团体发起的,但不久之后图书馆也开始考虑将他们的藏书内容放到互联网上。美国的几家研究所建立了针对人文学科基础资源材料的电子文本或电子图书馆合集,大多数通常使用OpenText SGML搜索引擎 (Price-Wilkin 1994)。尽管它提供了优秀、快速的工具用于搜索词语(字符串),但实际上它提供的功能并不比一本查找词语的参考书工具多多少。其他项目则使用 DynaText SGML 电子书系统发布资料。这套系统提供了更结构化的搜索,但它的界面并不特别直观。
Orlando 项目开发了一种用于电子出版物的全新想。,该项目意在阿尔伯塔和圭尔夫大学创建英国女性著作历史。凭借充裕的研究基金,他们创建了一套 SGML 文档,包含了以作者的短篇传记、他们著作的历史以及一般历史性事件这样的形式呈现的新材料 (Brown et al. 1997)。这样就可能考虑抽取这些文档的一部分重组成新的材料,比如针对特定的时期或主题生成年表。这个项目介绍了一种全新的学术写作的形式,它与过去所完成的任何事都有根本的区别。至于它是否真的会被大规模使用,还有待观察。
互联网也使得合作项目能够以一种以前绝不可能的方式得到开展。单是允许身处不同地方的人能够对同一个文档收集做出贡献,就早期的工作方法而言这是一个巨大的进步。在Orlando 项目中,两个研究所中的研究者们将文档添加到一个作为基于网络的文件管理系统开发的文档档案馆,出于管理的目的,该系统使用了某些 SGML 标记。此外还出现了合作编辑手稿资源的想法,处在不同地点的人能够添加注释层,比如 Peice 项目 (Neuman et al. 1992) 和 Codex Leningradensis (Leningrad Codex Markup Project 2000)。这在技术层面上相当清晰。但不怎么清晰的问题是项目管理,诸如谁来控制或审查注释,以及这一切应如何维护以应对将来(可能出现的变化)。
将TEI 作为一个模块归纳到数字图书馆项目带来了一些涉及整个TEI 哲学的有趣问题,因为TEI主要是由那些想要尽可能灵活多变的学者们设计的。所有的 TEI 标签都可以被重新定义,人们可以在任何合适的地方添加标签。而在图书馆和信息科学领域秉持的却是很不一样的哲学,标准一旦被制定就必须得到严格遵守——这是为了确保读者能够轻松找到书籍。很遗憾在TEI 创建的时候,图书馆和信息科学并未从中做出多大的贡献,但是早在“数字图书馆”这个术语投入应用之前很久TEI 项目就已经启动了。有少数人做出了良好的贡献,但与学者社区不一样,在图书馆社区拥有多年电子文本工作经验的人只是少数。不过 TEI 曾经被编码档案描述(EAD)的开发者用作一个模块,该系统作为在文献中搜索艾滋病的标准具有非常广泛的影响。
在1990年代初期人文学科电子资源具备了一个新的维度,可以提供图片、音频和视频形式的多媒体信息。在数字图像化的早期阶段,有许多讨论是关于文件格式、像素深度以及其他图像处理技术方面的问题,但人们很少谈到除了浏览之外人们到底能用这些图像做些什么。能够访问网络上的图像资源自然有许多优势,但越来越习惯于可搜索文本提供的灵活性的人文计算从业者们,再次倾向于认为图像化项目并不真正适合他们。除非像 Beowulf 项 (Kiernan 1991)那样,图像能够被操作并以某种方式得到增强。还有一些有趣的研究实现了从图像到文字的链接,下拉到文字所在的行 (Zweig 1998)。如果其中大部分都能自动完成,那我们就有必要重新规划手稿研究的某些方面。人们现在已经认识到了其他格式的多媒体的潜力,但只有在高速访问的条件下才能真正实现对它的利用,而未来很可能在于与电视的逐渐交汇。
网络所促进的电子资源访问渠道的扩张导致了其他理论领域对人文计算的兴趣。在一个新的学者团体中,电子资源自身成为研究对象并且被一群新的学者所分析,他们中的一些人对于资源的技术层面几乎没有什么了解。其中,超文本尤其吸引了众多的理论家。这有助于扩大对于人文计算的兴趣范围以及相关讨论,但也有可能对于创建和使用这样一种资源到底需要什么造成误解。两种文化的问题再次出现,一种是实际上做事的,而另一种则是偏爱谈论做事的。
开设学术项目的导论课程是大型学术社区接受某个课题领域的另一个标志。就人文计算而言这发生在1990年代晚期,有趣而值得一提的是,当时只有很少的专业标题包含了“人文计算”几个字。伦敦大学国王学院为许多人文学科提供了辅修的“应用计算”学士专业,而它新设立于人文计算中心的文学硕士专业也被称作“应用计算”文学硕士专业。加拿大的麦克马斯特大学(McMaster University)则提供了多媒体学士专业。弗吉尼亚大学即将开设一门称为“数字人文学科”的文学硕士专业,该专业由媒体研究项目主办。据我所知,阿尔伯塔大学是第一个开办在名称中带有人文计算字样专业的大学,尽管格拉斯哥大学在很多年前就开设了历史和计算的哲学硕士专业。
由于互联网促进了计算机在人文学科应用方面更为广泛的使用,其他的组织也开始加入进来。这导致了更进一步定义领域的尝试,或者至少为此设定一项研究议程。当时的盖蒂艺术历史信息项目(Getty Art History Information Program)在1996年公布了一项在我看来非常有趣的网络传统文化研究议程 (Bearman 1996)。该议程有八张纸,涵盖了真正结合了数字图书馆和人文学科研究及教学的主题。这些领域的每一个就其自身而言都能形成一项研究计划,但该倡议未能得到进一步地实施。与此同时 ALLC 和 ACH 仍然继续每年组织一次会议,关于标记以及其他技术问题的论文占据了主要优势。为了筹备2002年在德国举办的研讨会,有人试图为人文计算制作一份路线图和新方向,并由此产生了一份有用的调查 (Robey 2002)。尽管并没有多少新内容,但如果由一个更大的社区投入更多的劳动,也许会得到更有用的东西。但在人文学科电子资源更多地是由来自人文计算社区外部的人员所开发的时代,如何与其他社区融合成了一个更大的问题。
如果要在所有人文计算的活动中突出某一项活动的话,在我看来,它必须是 TEI。它代表了在我们这一领域迄今为止已达成的最具深远意义的智识上的进步。它影响了整个标记社区。在XML(可扩展标记语言)正在开发的时候,TEI 吸引了 SGML社区内领先从业人员的注意力,TEI 的编辑之一 迈克 斯伯格-麦克奎恩(Michael Sperberg-McQueen) 受邀成为新的 XML 标记标准的合作编辑。TEI 完成的关于超链接的工作构成了 XML 中链接机制的基础。TEI 在很多方面是超越时代的,因为只有在最近两三年随着XML 的迅速普及,对于描述性标记的需求才被更多的社区认识到。与此同时,从TEI 发展而来的标记理论家社区继续就知识表现提出一些具有挑战性的问题。
依然还有其他领域需要深入研究。人文计算能够大大促进将文化遗产放到互联网上的兴趣,这不仅是对学术用户而言,对于终身学习者和一般公众而言也是如此。人文计算开发的工具和技术有助于对这种材料的研究,就像 Perseus 项目显示的那样 (Rydberg-Cox 2000),结合计算语言学的技术可以打开新的视野。在我们需要找到既能够减少数据创建的费用又不损失学术价值或功能的办法的情况下,我们的工具和技术也可以协助促进数字化和编码过程的研究。通过互联网,人文计算有了更多的受众,从新设立的专业毕业的学生将不仅仅在学术界工作,也会就职于电子出版业、教育技术以及多媒体开发行业。纵观其历史,人文计算在继续维持其高学术标准的情况下,仍然显示出对于想象和创新的强烈愿望。现在互联网已经成为日常生活的一个主要特征,人文计算有机会远远超出迄今所能达到的程度。
[1] 译者注:《朱尼厄斯的信》是指一组写于1769年至1772年之间的、作者署名为“朱尼厄斯”的信件。这69封信件后被整理成书,于1772年出版。关于这些信的作者的身份,有诸多猜测,但未有定论。
[2] 译者注: Unicode(中文:万国码、国际码、统一码、单一码)是计算机领域的一项标准,对师姐上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式处理和呈现文字。
[3] 译者注:被绑在一起成为整套的软件,比如微软的办公软件。
[4] 一种基于谓词逻辑和集合论的数据模型,主要用于数据库的管理。
参考文献
Bearman, D., (ed.) (1996). Research Agenda for Networked Cultural Heritage. Santa Monica, CA: Getty Art History Information Program.
Berry-Rogghe, G. L. M. and T. D. Crawford (1973). Developing a Machine-independent Concordance Program for a Variety of Languages. In A. J. Aitken, R. W. Bailey, and N. Hamilton-Smith (eds.), The Computer and Literary Studies (pp. 309–16). Edinburgh: Edinburgh University Press.
Bessinger, J. B. and S. M. Parrish (1965). Literary Data Processing Conference Proceedings. White Plains, NY: IBM.
Bornstein, G. and T. Tinkle (1998). The Iconic Page in Manuscript, Print, and Digital Culture. Ann Arbor: University of Michigan Press.
Brown, S., S. Fisher, P. Clements, K. Binhammer, T. Butler, K. Carter, I. Grundy, and S. Hockey (1997). SGML and the Orlando Project: Descriptive Markup for an Electronic History of Women's Writing. Computers and the Humanities 31: 271–84.
Brunner, T. F. (1993). Classics and the Computer: The History of a Relationship. In J. Solomon (ed.), Accessing Antiquity: The Computerization of Classical Studies (pp. 10–33). Tucson: University of Arizona Press.
Burnard, L. (1987a). CAFS: A New Solution to an Old Problem. Literary and Linguistic Computing 2: 7–12.
Burnard, L. (1987b). Principles of Database Design. In S. Rahtz (ed.), Information Technology in the Humanities(pp. 54–68). Chichester: Ellis Horwood.
Burnard, L. (1988). Report of Workshop on Text Encoding Guidelines. Literary and Linguistic Computing 3: 131–3.
Burton, D. M. (1981a). Automated Concordances and Word Indexes: The Fifties. Computers and the Humanities15: 1–14.
Burton, D. M. (1981b). Automated Concordances and Word Indexes: The Early Sixties and the Early Centers.Computers and the Humanities 15: 83–100.
Burton, D. M. (1981c). Automated Concordances and Word Indexes: The Process, the Programs, and the Products. Computers and the Humanities 15: 139–54.
Burton, D. M. (1982). Automated Concordances and Word Indexes: Machine Decisions and Editorial Revisions.Computers and the Humanities 16: 195–218.
Busa, R. (1974-). Index Thomisticus. Stuttgart: Frommann-Holzboog.
Busa, R. (1980). The Annals of Humanities Computing: The Index Thomisticus. Computers and the Humanities14: 83–90.
Busa, R., (ed.) (1992). Thomae Aquinatis Opera Omnia Cum Hypertextibus in CD-ROM. Milano: Editoria Elettronica Editel.
Busa, R. (1999). Picture a Man.… Busa Award Lecture, Debrecen, Hungary, July 6, 1998. Literary and Linguistic Computing 14: 5–9.
Calzolari, N. and A. Zampolli (1991). Lexical Databases and Textual Corpora: A Trend of Convergence between Computational Linguistics and Literary and Linguistic Computing. In S. Hockey, N. Ide, and I. Lancashire (eds.), Research in Humanities Computing 1: Selected Papers from the ALLC/ACH Conference, Toronto, June 1989 (pp. 272–307). Oxford: Clarendon Press.
Conner, P. W (1991). The Beowulf Workstation: One Model of Computer-assisted Literary Pedagogy. Literary and Linguistic Computing 6: 50–8.
Conner, P. W (1992). Networking in the Humanities: Lessons from Ansaxnet. Computers and the Humanities 26: 195–204.
De Tollenaere, F. (1973). The Problem of the Context in Computer-aided Lexicography. In A. J. Aitken, R. W. Bailey, and N. Hamilton-Smith (eds.), The Computer and Literary Studies (pp. 25–35). Edinburgh: Edinburgh University Press.
Ellegård, A. (1962). A Statistical Method for Determining Authorship: The Junius Letters 1769–1772. Gothenburg: Gothenburg Studies in English.
Finneran, R. J. (1996). The Literary Text in the Digital Age. Ann Arbor: University of Michigan Press.
Gorcy, G. (1983). L'informatique et la mise en oeuvre du trésor de la langue française (TLF), dictionnaire de la langue du 19e et du 20e siècle (1789–1960). In A. Cappelli and A. Zampolli (eds.), The Possibilities and Limits of the Computer in Producing and Publishing Dictionaries: Proceedings of the European Science Foundation Workshop, Pisa 1981. Linguistica Computazionale III (pp. 119–44). Pisa: Giardini.
Hamilton-Smith, N. (1971). A Versatile Concordance Program for a Textual Archive. In R. A. Wisbey (ed.), The Computer in Literary and Linguistic Research (pp. 235–44). Cambridge: Cambridge University Press.
Healey, A. (1989). The Corpus of the Dictionary of Old English: Its Delimitation, Compilation and Application. Paper presented at the Fifth Annual Conference of the UW Centre for the New Oxford English Dictionary. Oxford, September, 1989.
Hockey, S. (1986). Workshop on Teaching Computers and the Humanities Courses. Literary and Linguistic Computing 1: 228–9.
Hockey, S. and I. Marriott (1979a). The Oxford Concordance Project (OCP) – Part 1. ALLC Bulletin 7: 35–43.
Hockey, S. and I. Marriott (1979b). The Oxford Concordance Project (OCP) – Part 2. ALLC Bulletin 7: 155–64.
Hockey, S. and I. Marriott (1979c). The Oxford Concordance Project (OCP) – Part 3. ALLC Bulletin 7: 268–75.
Hockey, S. and I. Marriott (1980). The Oxford Concordance Project (OCP) – Part 4. ALLC Bulletin 8: 28–35.
Holmes, D. I. and R. S. Forsyth (1995). The Federalist Revisited: New Directions in Authorship Attribution.Literary and Linguistic Computing 10: 111–27.
Kiernan, K. S. (1991). Digital Image Processing and the Beowulf Manuscript. Literary and Linguistic Computing6: 20–7.
Lancashire, I., (ed.) (1991). The Humanities Computing Yearbook 1989–90: A Comprehensive Guide to Software and Other Resources. Oxford: Clarendon Press.
Lancashire, I. and W. McCarty, (eds.) (1988). The Humanities Computing Yearbook 1988. Oxford: Clarendon Press.
Leningrad Codex Markup Project (2000). Project "EL": The XML Leningrad Codex.
Lord, R. D. (1958). Studies in the History of Probability and Statistics: viii. de Morgan and the Statistical Study of Literary Style. Biometrika 45: 282.
McCarty, W. (1992). Humanist: Lessons from a Global Electronic Seminar. Computers and the Humanities 26: 205–22.
Mendenhall, T. C. (1901). A Mechanical Solution of a Literary Problem. The Popular Science Monthly 60: 97–105.
Morton, A. Q. (1965). The Authorship of the Pauline Epistles: A Scientific Solution. Saskatoon: University of Saskatchewan.
Morton, A. Q. and Winspear, A. D. (1971). It's Greek to the Computer. Montreal: Harvest House.
Mosteller, F. and D. L. Wallace (1964). Inference and Disputed Authorship: The Federalist. Reading, MA: Addison-Wesley.
Neuman, M., M. Keeler, C. Kloesel, J. Ransdell, and A. Renear (1992). The Pilot Project of the Electronic Peirce Consortium (abstract). ALLC-ACH92 Conference Abstracts and Program (pp. 25–7). Oxford.
Parrish, S. M. (1962). Problems in the Making of Computer Concordances. Studies in Bibliography 15: 1–14.
Price-Wilkin, J. (1994). Using the World Wide Web to Deliver Complex Electronic Documents: Implications for Libraries. The Public-Access Computer Systems Review 5: 5–21.<http://jpw.umdl.umich.edu/pubs/yale.html>, accessed July 21, 2004.
Proud, J. K. (1989). The Oxford Text Archive. London: British Library Research and Development Report.
Robey, D. (2002). New Directions in Humanities Computing, <http://www.uni-tuebingen.de/zdv/zrkinfo/pics/aca4.htm>, accessed May 15, 2003.
Robinson, P., (ed.) (1996). Geoffrey Chaucer: The Wife of Bath's Prologue on CD-ROM. Cambridge: Cambridge University Press.
Robinson, P. M. W. (1997). New Directions in Critical Editing. In K. Sutherland (ed.), Electronic Text: Investigations in Method and Theory (pp. 145–71). Oxford: Clarendon Press.
Robinson, P. M. W. (1999). New Methods of Editing, Exploring and Reading The Canterbury Tales.http://www.cta.dmu.ac.uk/projects/ctp/desc2.html, accessed May 14, 2003.
Russell, D. B. (1967). COCOA - A Word Count and Concordance Generator for Atlas. Chilton: Atlas Computer Laboratory.
Rydberg-Cox, J. A. (2000). Co-occurrence Patterns and Lexical Acquisition in Ancient Greek Texts. Literary and Linguistic Computing 15: 121–30.
Text Encoding Initiative (2001). Text Encoding Initiative, http://www.tei-c.org, accessed May 15, 2003.
Tweedie, F. J., S. Singh, and D. I. Holmes (1996). Neural Network Applications in Stylometry: The Federalist Papers. Computers and the Humanities 30: 1–10.
Wisbey, R. (1963). The Analysis of Middle High German Texts by Computer: Some Lexicographical Aspects.Transactions of the Philological Society, 28–48.
Wisbey, R. A., (ed.) (1971). The Computer in Literary and Linguistic Research. Cambridge: Cambridge University Press.
Zweig, R. W. (1998). Lessons from the Palestine Post Project. Literary and Linguistic Computing 13: 89–97.
(本文节出自《文化研究》,2014年,第2期;译者:葛剑钢)
主编:陈静 责编:徐力恒 顾佳蕙 美编:张家伟
关注零壹Lab,获取更多数字人文信息!