零壹Lab | 什么是人文计算,什么不是?——数字人文的前世

发布时间: 2016-10-24 John Unsworth

   公众号:lingyilab
零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities

编者按

本文节译自John Unsworth 2002年发表的文章"What is humanities computing and what is not"。副标题为编者所加。

原文链接http://computerphilologie.uni-muenchen.de/jg02/unsworth.html (访问时间:23:44, Oct. 20, 2016)

John Unsworth, 美国弗吉尼亚大学图书馆馆长,曾与最近访问中国的Susan Schreibman和Ray Siemens 合编A Companion to Digital Humanities一书。2013年8月,白宫任命Unsworth为国家人文基金会的咨询委员会——国家人文科学理事会的成员。关于作者的更多介绍,可以参阅:

https://static.lib.virginia.edu/directory/staff/jmu2m.html

https://news.virginia.edu/content/uva-selects-john-m-unsworth-university-librarian-and-dean-libraries

什么是人文计算,什么不是?

针对“什么是人文计算(humanities computing)”这一问题,我将开门见山地给出一个简短的回答。人文计算是再现(representation)的一种实践,是一种模型化的做法,或者就像Wallace Stevens所说的:“模拟(mimicry)”。它还是一种论证的方式(就像Davis与他的合著者所定义的)以及本体论层面的一些约定(ontological commitment),而它在再现方面的实践则是由来自对有效计算和人类交流两方面的需要所共同塑造的。

1. 作为模型或模拟的人文计算

Davis等人使用了“替代品(surrogate)”一词,而不是“模拟”或者“模型”。替代品的例子如图书馆的馆藏目录(相对于全文的再现)。目录显然不是它所指示的原物,它是某种替代品,而且它抓住了标题、作者、出版日期、页码、主题等原物的某些特征,并使之更加明显。显然,它省略了其它特征——比如这本书的全文。关键在于,所有替代品都是不准确的;它们不可避免地包含了简化的假设,也可能包含一些人造物——也就是再现的制作过程中引入的一些新特征。作为一种知识再现(knowledge representation)的实践,人文计算明确知晓其再现是替代品这一事实,而且其自觉程度要高于一般人文学科的做法——比如在文章、书籍和演讲中对关注对象的再现。

2. 作为推理方式的人文计算
事实上,Davis等人表述的意思是指任何知识再现都是智力推理的一种碎片式理论,而且任何知识再现都始于“某种针对人们如何明智地进行推理的洞悉,或是针对究竟明智地推理意味着什么的某种信念。”Marvin Minsky解释说:当个体遭遇一种新的情况(或对其观点进行实质性改变)时,他会从其记忆中选取被称为框架(frame)的某个结构;一个被记起的框架有待做出必要的细节改变以适应现实。一个框架代表一种典型的情况,比如呆在某个类型的客厅里,或者参加一个儿童的生日聚会。而且,推理和再现是相互交织的——我们通过再现来思考。

这样的例子包括用语索引(concordance)。它假定一个文本的语辞布局(verbal patterns)是理解该文的关键,它可以支持某种类型分析,因为它可以发现某些词在文本中的使用频率。它还可以支持某些词语是不重要这样的一些论断。大多数索引软件可以使按频率分类和检测语境中的关键词比其他功能(或推理形式)更加简便。

3. 作为本体论层面约定的人文计算

选择某种再现就意味着做出相应的一套本体论层面的约定。从效果而言,这些约定是一副强大的眼镜。它决定了我们能看见什么,使世界的某些部分进入正焦范围,而以其他部分的模糊为代价。这种约定及其聚焦、模糊效果并不是再现选择的负面效应,而是其本质所在:它是不可避免的,其原因就是再现必然的不完美。它通常是如此的,因为对约定的明智选择使我们得以关注我们认为世界上至关重要的一些方面。

OHCO(Ordered Hierarchy of Content Objects)就是一个例子,它是指文本是内容对象的一个有序的层次结构。这就意味着,内容对象会产生嵌套(nest)——章中有段、册中有章等等。它还意味着某种语言如果捕捉了有序的层级关系,并且在其对此类关系的表达中承载了内容,就可以捕捉对文本而言重要的东西。SGML就是如此。但是,就像Jerry McGann和其他人所指出的,这一文本观中缺少了某些文本本体论——比如比喻——因为它们不是等级性的。或者更确切地说,它们破坏等级结构。Davis等人会认为这并不是SGML(或XML,它对嵌套nesting要求是一样的)或者OHCO论文之漏洞的一个表现,而恰恰说明两者都是真实的知识再现——它们将某些事物带入聚焦范畴,而模糊掉其他事物,使我们可以对外在世界的一些具体方面给予特殊的关注。

4. 由高效计算需求塑造的人文计算

Davis等人这样解释:“从纯粹机械的观点来看,机器的推理(以及多少更具争议性的人的推理)是一个计算的过程。简言之就是说,要使用一种再现,我们必须用它进行计算。因此,计算的效率问题必然成为再现概念的核心。”

这方面的例证是标记和计算(markup and computation)。在某个特定的层级系统中要求多个元素恰当地嵌套,就是为了实现有效率的计算。事实上,原初形式的SGML语法的确是太灵活,而牺牲了效率。XML简化了SGML的一些表述性的可能——使SGML难以用于软件编写的那些可能性,XML的软件数量很快就超过了所有SGML的软件。但另一方面,如果要计算那些不能在整齐嵌套层级体系中表达的事物,这些软件就一点用都没有了。

5. 由人类交流需求塑造的人文计算

知识再现还是我们藉以表达对世界看法的方式,是我们向机器(或彼此)讲述这个世界的表达与交流媒介。作为表达的媒介,它的运行如何?它的概括性和精确性如何?它的表达是否具有精确性?用该语言交流或思考的难易程度如何?如果这一知识再现使事情成为可能但并不便利,那么作为真正的使用者,我们可能无法区分究竟是我们误解了这一再现,因而不知如何使用它;还是它确实无法表达我们所要说的内容。知识再现是我们用以交流的语言,因此,我们应该做到不用太花力气就能使用这种语言。

在人文计算的进化历程中,标识语言要作为一种交际的媒介仍是有问题的。专家们可以用这些语言交流和思考,但我们大多数人不行。

6. 人文计算和语言表达

语言表达这一要求的重要性在于,它将人文计算或者计算型人文学者置于一个特殊的位置上。在这个位置上他们必须要做一般的人文学者不会做的事情:第一,提供对思想的明确表述;第二,必须基于给定的规则提供这些表述。

简而言之,一旦我们开始用XML这类规范语法来表达我们对某文学文本的理解,那么我们对该文本的再现就必须接受验证——为了内部的一致性,尤其是为了与既有规则的一致性。

结论

为了在这个全新的世界里找到方向,我们必须进行再现,而那些再现是要能被计算的,因为计算机是我们和这个世界的中介。如果需要制作这样的种种再现,它们应该由了解这个领域的人来制作。如果人文学科需要获得再现,我们作为学科内的人士应该来尝试书写,否则任由他人来涂鸦,那将是我们的失败。

从某种形式上,语义网络是我们的未来,而且它要求对人类记录进行规范的再现。而那些再现应该由接受过人文训练的人来制作。制作这样的再现本身是一个要求人文训练的学科,但又需要数学、逻辑、工程和计算机科学等科目的元素。迄今,大部分拥有这些混合技能的人都靠自学成才。但是,当我们逐渐开始严肃地思考如何将世界转化为可计算的时候,我们就需要有意识地培养这样的人才。

如果我们希望跨越具体收藏、机构、语言和国家的边界而彼此交流思想,计算性媒介中基于共识的本体论(历史、音乐、考古、建筑、文学中的)是必要的。我们在人文学科中需要计算方法的严谨精确,不是不顾而恰是因为人类的理解力和创造力可以突破围堵、超越再现,也可以模糊各种区分。

*注:本文下篇为John Unsworth于2012年所作的《人文计算是什么?》,文章可于本公众号10月24日推送内查看。

延伸阅读

Randal Davis/R. H. Shrobe/P. Szolovits: What is a Knowledge Representation? AI Magazine, 14(1) 1993, pp. 17-33. <http://www.medg.lcs.mit.edu/ftp/psz/k-rep.html>.

S. J. DeRose/D. G. Durand/E. Mylonas/A. H. Renear: (1990) What is Text, Really? Journal of Computing in Higher Education, 1.2 (1990), pp. 3-26.

»Is Humanities Computing an Academic Discipline?« An Interdisciplinary Seminar at the University of Virginia (1999-2000): <http://www.iath.virginia.edu/hcs/>.

T.A. Letsche/ W. Berry: arge-Scale Information Retrieval with Latent Semantic Indexing. Information Sciences -Applications 100 (1997), pp. 105-137. <http://www.cs.utk.edu/~berry/lsi++/index.html>.

Wallace Stevens, Notes Toward a Supreme Fiction. seeAlfred A. Knopf: The Collected Poems of Wallace Stevens. New York 1951, p. 384.

Willard McCarty/Matthew Kirschenbaum: Institutional Models for Humanities Computing. <http://www.kcl.ac.uk/humanities/cch/allc/archive/hcim/hcim-021009.htm>.

Willard McCarty: We Would Know How We Know What We Know. Responding to the Computational Transformation of the Humanities.<http://www.kcl.ac.uk/humanities/cch/wlm/essays/know/know.html>.

Tito Orlandi: The Scholarly Environment of Humanities Computing. A Reaction to Willard McCarty's talk on The Computational Transformation of the Humanities.<http://RmCisadu.let.uniroma1.it/~orlandi/mccarty1.html>.

Allen Renear/Elli Mylonas/David Durand: Refining our Notion of What Text Really Is. The Problem of Overlapping Hierarchies.<http://www.stg.brown.edu/resources/stg/monographs/ohco.htm>.

TEI-L.<http://listserv.brown.edu/archives/tei-l.html>.

The Text Encoding Initiative Consortium.<http://www.tei-c.org/>.

翻译:吴维忆     责编:徐力恒     美编:卢言乐

关注零壹Lab,获取更多数字人文信息!