约翰·昂斯沃斯
布兰迪斯大学
编者按:
本文间接地提醒我们,使用最为广泛的计算模型——通用图灵机(Universal Turning machine),按照定义能够模拟其他任何机器。昂斯沃斯在本文中认为,使用计算机或“通用的建模机器”带来的一个重要后果是(使用者本人和旁观者)很难在处理的各种任务之间建立清晰的边界(举个当代的例子,如:开展有关社交网络研究和在社交网络上发布研究成果)。因此,本文探讨了什么是人文计算,什么不是人文计算。与2012年本文发表时相比,这个探讨在当下更有相关性和重要性。它为一个存在已久的问题提供了独特的视角——数字人文是否“仅仅”是通过数宇方式研究的人文学,以及计算机是否仅仅是一个工具。“计算机可以用来做许多事情;其中,利用计算机对人文数据进行建模,帮助我们理解人文数据的活动,我称之为人文计算。它与使用计算机模拟打宇机、电话或留声机等其他活动截然不同。”昂斯沃斯的上述论述是本文的重要基础。
我们是模仿者。云是老师。
(Wallace Stevens, Notes Toreard a Suprere Fiction²)
任何想进行推理的智能实体都要面对一个重要的和不可回避的现实:推理是一个内在的过程,而它想推理的大多数事物都存在于外部。
(Davis et al. ,1993)³
摘要
关于“什么是人文计算?”上述两个引言已有所预示,我将开门见山地给出一个简短的回答。人文计算是一种再现实践,一种建模的形式,如同华莱士·史蒂文斯所说的“模仿”。同时,如戴维斯和他的合著者所说,人文计算是一种推理方式和一组本体论约定。具体实践一方面成形于有效计算的需要,另一方面出于人际沟通的需要。稍后我们再讨论这个观点,但在此之前,我们先考虑一下,为什么人们会提出“什么是人文计算”这样的问题?
首先,我认为这个问题出现的原因在于,将一个工具本身与其用途进行区分很重要,哪怕只是为了评估工具各种用途的有效性。锤子用来钉钉子很好,拧螺丝就不行了;当作武器还凑合,用作乐器就糟糕了。和锤子相比,计算机的通用性更为广泛(事实上,是一个通用的建模机器),于是它所实现的各种活动之间的界限往往会被模糊。我们在处理文字还是邮件?在做研究还是购物?在消遣还是工作?这些活动都是面对数据:可都是数据处理吗?是,也不是。尽管我们利用计算机所做的各种事情都是在Window系统和Web上进行,但是它们的目标、修辞、结果和收益却不尽相同。我们的所有活动可能看上去一样,在相同的界面下,在同样的图标、莱单和行为等“话语体系”下进行,但是它们并不是等值的,也不是基于相同的假设——它们事实上是不可互换的。我猜想,本文的读者在职业活动中都会使用文字处理器和邮件作为基本工具;同时,我也料想大多数读者都来自人文学科。即便如此,你们并不都进行人文计算——看在上帝的分上,也无须进行人文计算,当然你们也不必全是中古历史学家、现代主义者和语言学家。
因此,在利用计算机所做的诸多事情中,对人文数据进行建模,帮助我们理解人文数据的活动的,我称之为人文计算。这项活动与使用计算机模拟打字机、电话或留声机等其他活动截然不同。
提出“什么是人文计算”的第二个原因是为了区分典型的人文计算和冒充的(参见提托 ·奥兰迪)或伪装的人文计算。在奥兰迪教授看来,冒充者将部分并非“人文计算”的活动以“人文计算”的面貌呈现出来。它也许基于计算机(例如,它可能在网页发表),呈现的内容也可能很具吸引力;但是如果它一点错误都没有,如果人们无法判定它是否有效,是否具有内在的一致性和逻辑的连贯性,那么它就不是人文计算。冒充带来的问题是,它通过快速提供粗制滥造的模仿物贬损了市场,而真正的人文计算成本高,难度大,耗费时间。换个方式说,冒充者为了追求表面效应、快速产出和现成的结论,牺牲了自洽性和内在的逻辑连贯性(其中很可能应该是大量和复杂的表示行为)。就处理表现方式以及对技术和知识基础设施的规划和验证而言,冒充行为与那些细致缜密的项目在进行不公平竞争。
坏消息是,今天所有的人文计算项目,即便是最好的项目,都存在一定程度的冒充行为。但是,具体的程度很重要。对于那些真正希望提出科研问题的用户,确定冒充程度的方法是通过给他们提供研究课题的交互性来对其进行判断。如果没有提供交互性,没有交互,那么这个项目很可能就是纯粹的冒充行为。如果它提供了一些交互(臂如:关键词搜索),那么我们可以稍微认真地对待它。如果它提供了结构化的搜索,那么它值得被认真地对待。如果它提供了组合查询,则更是如此。如果它允许改变参数和值以构建新的模型,那么它开始像是建立在一个全面的表示基础之上。如果它允许引入新的算法,用以计算参数和值更改后的结果,那么它真是设计精良。如此等等。这个评估尺度似乎基于功能特征,其实不然。那些功能特征是支持某些功能性所需的基础设施的指标。据我所知,根据这个冒充行为的相对尺度,不存在完美的典范项目。但是,我们可以看到这个评价尺度暗含的原则——一种资源为独立的想象和思考提供的空间越大,那么这个资源的设计愈是缜密,构思愈是精心,制作愈是精良。
最后,也是最直白的,人们提出“什么是人文计算”是为了在我所作的上述区分的基础上争取新的和持续的个人的、职业的、机构的和文化性的资源投入。投入可以是受资助的项目、新增的本科或研究生学位,或者新的中心和机构。在这个层面上,人文计算与其他的知识追求——历史学研究、文学研究和宗教研究等——共同竞争大学和其他外部资助机构的关注和资金。在实践中,人文计算的内容很可能需要并且落人竞争学科的传统知识范畴。因此,正如维拉德·麦卡蒂经常指出的:将根据传统人文学科制订的研究计划中的计算,与比较少见的情形——根据我们能够利用计算机做什么来制订和提出的人文研究计划中的计算进行区分确实存在困难。
因此,鉴于人文计算不是一般性目的的学术计算——不是文字处理、邮件、网页浏览——那么它是什么?你怎么知道你正在进行人文计算?或者什么时候你需要学习如何进行人文计算?在本文的开篇,我说过:
人文计算是一种表示实践,一种建模形式或者……模仿。它是一种推理方式和本体论观点的集合。它的表示实践一方面成形于对有效计算的需要,另一方面源于人类沟通的需要。
我一直持有上面的观点,但是这些论断中的术语来源于戴维斯、施罗布和索洛维茨于 1993年在《人工智能杂志》上发表的《什么是知识表示?》一文。下面,我将逐一展开这些术语,首先对戴维斯等人的引用进行扩展,通过人文计算领域的一些实例对上述六点逐一进行探讨,并在最后的总结部分说明它们为什么重要。
1. 作为模型或模仿的人文计算
戴维斯等人使用的术语是“代理”而不是“模仿”或“模型”。下面是他们关于“代理”的表述:
关于任何代理的第一个问题是它的预期身份:代理的对象是什么?代理与它在现实世界预期的指示对象之问必定存在某种形式的一致性;一致性就是表示的语义学。
第二个问题是忠实度:代理与真实的事物之问有多相近?它撷取了原物的什么特性,遗漏了什么?在原则上和实践中,完全的忠实一般是不可能的。原则上除了事物本身,其他任何事物都必定区别于它(如果没有其他区别,所处的位置也不一样)。反过来说,对一个对象的完全精确的表示唯有对象本身。其他所有的表示都不准确,不可避免地包含了简化的臆断,可能还有人工痕迹⁴。
1.1 示例
一个编目记录(catalogue record)(相对于全文再现[full-text representation])。编目记录显然不是它描述的事物本身;但是,它是一种代理,撷取并呈现了原始对象的某些特征——名称、作者、出版日期、页数、部分参考文献。显而易见,它遗漏了其他特征,例如书籍的全文。其他类型的代理或许会表达某些特征(例如:全文的文本),但是可能仍会遗漏其他方面(插图、封面、艺术、装订)。你可以尽你所愿继续寻找其他的代理,或者直到发现一个代理,它与原物的区别仅仅是处于不同的位置。但是你找到的所有代理都是“不准确的,不可避免地包含了简化的臆断,可能还有人工痕迹” ⁵——这意味着在创造表示的过程中引人了新的特征。作为一种知识表示实践,人文计算努力克服这种认识:它的表示是非常有意识的代理,可以说,比我们人文学者在“呈现”文章、书籍和讲稿中的研究对象时更加有自主意识。
2. 作为推理方式的人文计算
事实上,戴维斯等人说的是,任何知识表示都是“智能推理碎片理论”(fragmentary theory of intelligent reasoning) ⁶,任何知识表示都起始于:
有些见解说明了人们是如何进行智能推理的……智能推理到底是什么……智能推理的表示理论通常是隐性的,但是通过分析表示的三个部分可以让它变得显性:1)智能推理基本概念的表示;2)表示认可的一组推论;3)推荐的推论。认可的推论表明究竟什么能够被推理,而建议的推论关心的是应该推理什么。(由于认可的推理集一般太大以至于必须对它加以区分才能使用,所以需要指导)。我们之前分析的本体告诉我们如何认识推理,建议的推理则说明了如何推理。这三个部分也可看作表示对于三个根本性问题的回答:1)智能的推理是什么意思?2)我们从已知的事物能够推理什么?3)我们从已知的事物应该推理什么?对于这些问题的回答是知识表示的精髓和思维模式的核心,让我们更好地理解了知识表示。⁷
随后,戴维斯等著者引述了马文·明斯基(Marvin Minsky)的一篇基础性文章。文中提出了框架理论,明斯基的阐述如下:
每当一个人遇到新的情况(或者观点发生重大改变),他从记忆中选择一个被称为框架的结构,通过改变记忆框架的细节使其符合现实。框架……表示了一种模式化的情景,比如身处特定类型的起居室,或者参加孩子的生日派对。⁸
他们继续解释说明了推理和表示是如何相互交织在一起的——人们如何通过表示来进行思考。
2.1示例
语汇索引(concordance)。(1)智能推理基础概念的语汇索引?它假定,文本的语言模式是打开文本意义的钥匙。(2)语汇索引认可的推理集?它支持某些类型的文本分析,因为它能够反映文本中特定词汇或者特定长度词汇的使用频率。假设它能够使用停用词表,它能够对某些词汇不重要的推论予以支持;如果包含词形还原工具,它能够对词干比实际的词形更加重要的概念给予支持;但是(3)它建议的推理集?大多数的语汇索引软件使得通过频率分类和关键词的语境分析比其他功能(或推理形式)要更加容易。
关系型数据库(relational database)。想一想,一个关系型数据库如何通过构建表格中的字段为推理提供依据;想一想,它如何认可与表中元素组合有关的任何种类的问题。实际上,它通过在不同表格中的元素之间建立关系来推荐某些形式的查询。
3. 作为本体论约定的人文计算
关于本体论约定,戴维斯等人认为:
选择一个表示意味着做出一套本体论约定。约定实际上是一副强大的眼镜,决定了我们能够看见的东西,将世界的某个部分置于聚焦之下,而模糊了其他部分。这些约定和它们的聚焦或模糊效果不是选择一种表示所附带的副作用,而是至关重要的:一种知识表示是一个本体论约定的集合。这是不可避免的,因为表示不可能完美无瑕。这样也是有益的,因为对于约定的审慎选择为集中精力于这个世界我们认为具有相关性的某些方面提供了机会。⁹
3.1示例
内容对象的有序层次结构(OHCO)(瑞尼尔[Renear]、米洛纳斯[Mylonas]和杜兰德[Durand]1993年的《重新理解文本的本质》,虽然与戴维斯等人的文章出自同年,但是它借鉴了较早的一篇文章,即S. J. 德罗斯[S. J. DeRose],D. G. 杜兰德,E. 米洛纳斯和A. H.瑞尼尔(1990)的《文本到底是什么?》)。这个文本观认为,文本是内容对象的有序层次结构,打个比方,也就是说内容对象相互嵌套——书包含章节,章节包含段落,如此等等。它意味着,表达有序层级关系并允许在关系表达中传递内容的语言能够表达关于文本的重要内容。于是,出现了标准通用标记语言(SGML)。但是,杰米·麦甘恩(Jerry McGann)等人指出,这个文本观遗漏了文本的某些内容——例如:隐喻——因为隐喻是不具层级的,或者更确切地说,是反层级的。戴维斯等人会说,这不是说SGML或者XML(二者对嵌套有相同的要求)或者内容对象有序层次结构的命题存在瑕疵,而是表明二者均是真实的知识表示——它们将某些事物置于聚焦之下同时模糊了一些其他事物,使我们能够对某些特定的方面给子特别关注。
黛博拉·帕克(Deborab Parker)的《但丁项目》。黛博拉·帕克使用SGML制作的但丁(Dante)的《地狱》(Inferno)是一个简单得多的例证 10。在他们这个版本里,帕克标记了(使用TEI)但丁诗作中所有的篇、节和行,以及专有名词和修饰语;区分了神话的、历史的、圣经的和文学的出处,不同的动物和不同类型的人,专有名词的正则形式等。所有这些意味着,诗歌的形式作为专有名词标记的基底很重要;此外,通过关注被命名事物的所属类别,我们能够了解这首诗歌的重要元素。
4. 人文计算成形于对有效计算的需要
戴维斯等人解释:
从纯粹的机械论出发,机器中的推理(以及人的推理,更具争议)是一个计算过程。简单来说,使用表示我们必须对它进行计算。于是,关于计算效率的问题不可避免地成为这个概念表示的核心问题。¹¹
后文中,他们指出,不同的表示模式具有不同的效率。
传统的语义网(semantic nets)通过提供适当的链接集的权宜之计实现双向传播,而基于规则的系统则通过提供目标到规则的表征和事实到规则的表征实现合理的推理,前者结论匹配(反向链接),后者前提匹配(正向链接)。¹²
4.1示例
标记和计算(Markup and Computation)。要求元素正确地嵌套在指定的层级是为了实现有效的计算。事实上,SGML语法的原形确实过于灵活以至于缺乏有效性,这就是为什么语法中的某些属性(像重叠或并行层次)从来没有在软件中得到实现。XML从SGML中简化出一些其他的表达可能性——面向SGML难以开发的可能性——由此导致面向XML 的软件比面向SGML的软件多得多。另一方面,对于无法通过嵌套层次结构表达的事物,也没有软件能很好地处理它们。
潜在语义索引(Latent Semantic Indexing)。比较语汇索引和潜在语义索引的特征和效果。
与语汇索引一样,潜在语义索引依靠文档术语来揭示文档的语义内涵。但是,潜在语义索引将文档中的术语视为文档中所含概念的可变项。它假定词汇选择的多变性在一定程度上模糊了文档的语义结构。通过降低术语-文档空间的维度,文档之间的潜在语义关系得以揭示,大部分的“噪音”(词语的不同用法,不能帮助区分文档的术语等)被消除了。潜在语义索引对整个文档集中的词语用法进行统计分析,将具有相似词语用法模式的文档置于术语-文档空间中的相邻位置,并且允许语义相关的文档彼此接近,即使它们可能没有使用相同的术语(莱奇[Letsche]和贝瑞[Berry],利用潜在语义索引进行大规模信息检索¹³)。
如果你认为特定词语的出现具有重要意义,那么你可能希望着眼于语汇索引的有效性;但是另一方面,如果你认为特定词语表达的意义比表达意义的词语本身更加重要,你可能需要着眼于潜在语义索引的有效性。
5. 人文计算成形于人类沟通的需要
戴维斯等人总结道,追求效率与表达的完整性之间有些不可调和。
这个范围的任何一端似乎都有问题:忽视计算的效率将我们置于危险境地,但是我们也有可能过于关心计算效率,由此创造的表示可能很快,却并不十分实用。¹⁴
诚然,计算机赤裸裸的确凿性让它的结果——尤其是当结果出来得很快——看上去很权威,以至于我们可能忽视表示本身存在的不足,尽管它在计算上似乎表现得不错。但是最终,我们还是会发现它的不足,尤其是当我们不仅使用而且创造这些表示的时候。关于最后一点, 戴维斯等人继续说道:
知识表示也是我们表达世界观念的途径,是表达和交流的媒介,通过这个媒介我们向机器(以及彼此之间)传递关于这个世界的信息⋯⋯我们使用的表达和交流媒介。这反过来提出两组重要的问题。其中一组为大家所熟悉:作为表达媒介的表示效果如何?通用性如何?精确性如何?它是否具有足够的表现力?等等。一个重要但很少讨论的问题是,它作为沟通媒介的表示效果如何?换言之,我们使用这种语言进行交谈或者思考有多么容易?什么样的事情可以很容易地用这种语言进行表达,而什么样的事情会很困难以至于无法表达?注意,这里的问题是“有多么容易”,而不是“我们能不能”?这是我们必须使用的一种语言,因此那些原则上可能的事情表示是有用的,却是不足的。真正的问题涉及实际的效用。如果表示让事情具有可能性但是不简单,那么作为实际的用户,我们可能永远不清楚我们是否误解了表示,或者不知道如何使用它,抑或不知道它是否真实地表达了我们希望表达的东西。表示是我们沟通使用的语言,因此我们必须能够不费力地讲这种语言。¹⁵
5.1 示例
使用标记语言的困难(the difficulty of using markup languages)。自从我们开始使用诸如 SGML等标记语言,人们一直担心,人文学者永远不能轻轻松松地使用这种语言。平心而论,优质的(使用XML,现成可用的)软件消除了一些复杂性,例如通过提供只能够在层级的特定节点上合法使用的元素。但是,你得能够理解DTD的目的和意图,以便合理地使用它;你得明白样式表的原理,如此等等。人文计算发展到现阶段,标记语言作为沟通交流媒介仍然存在问题,这个说法应该是一个共识。专家能够用这些语言进行“交谈”或者“思考”,但是我们大多数人不会。这样的例子有很多,例如有关TEI-L(TEI用户列表)的讨论,其中的问题就是人们是否误解了TEI,或者对于我们希望表达的文学和语言学文本中的某些内容,TEI是否真的无能为力。
6. 人文计算和形式化表示
戴维斯和他的合著者没有提及知识表示的另一个特征,因为他们的讨论认为这个特征是理所当然的。这个特征就是形式化语言(formal languages),任何知识表示都必须通过形式化语言来表示。
形式化语言由简单的符号组成,这些符号从一套公理中推理而来,并按照某些规则相互作用(关于系统允许的符号、功能和句式的表述)。因此,这个系统包含由简单待号的有效组合构成的任意数量的公式——组合是由公理根据既定规则产生的。¹⁶
对我们而言,形式化表示的重要之处在于,它要求人文计算,更确切地说,要求人文计算学者必须做我们人文学者通常都没有做的两件事:清楚地表达想法,以及根据既定规则来表达想法。简而言之,一旦我们开始使用一种语言,如XML,来表达我们对譬如文学文本的理解,形式化语法要求我们明确按照一定的规则将语法应用于文本之中,那么我们就会发现,文本表示需要验证——验证内在的一致性,特别是与既定规则的一致性。
结论
讲述了我认为人文计算是什么之后,还需要说明它的好处在什么地方,或者它为什么重要。我们是否能够用形式化语言、易于计算的术语,以及具有内在一致性并符合公开规则的话语表达我们对于人文学科的认识?为什么我们需要对此感到担忧?既然我们清楚,这么做必然会在一定程度上损害表达能力,牺牲一些细微的差别和要表达的意义,那究竟为什么我们还要一往无前呢?我的答案是为了导航和交流。
在我们现处的文明阶段,信息空间是我们要勘察、探索和掌控的领域,勘察的对象不是大洲、区域或士地,而是学科、本体和概念。为了在这个新世界中航行,我们需要表示,而且这些表示需要是可计算的。因为,计算机是我们深人这个世界的媒介,而那些表示需要由了解这个领域的人亲自创造。在对人文学科进行表示时,如果人文学科内部的人胡写乱画,或者允许他人胡写乱面,那就危险了,我们可能会以失败告终。不能因为没有任何表示能够恰当地处理我们知道的所有东西或者丈量我们的领域,我们就放弃表示,这样过于吹毛求疵。我们应该明白,地图从来都是概略的和简化的,但这正是地图的有用之处。
在某种形式上,语义网是我们的未来,它要求人类对记录进行形式化表示。那些表示——本体、模式或知识表示,随你怎么称呼它——应当由接受过人文学科训练的人来创造。创造它们需要人文学科结合数学、逻辑、工程和计算机等方面的训练。直到现在,大多数具备这种综合能力的人都是自学成才的;但是,当我们开始认真地将已知的世界进行可计算处理时,我们需要有意识地培养这样的人才。还有大量的工作等待这些人去完成——绝不只是技术性工作。大部分的“勘察”将是社会工作、建立共识和妥协让步。即便如此,这些工作仍然需要由知道如何使用计算来实现和体现共识的人来担当。
如果我们希望能够跨越作品、机构、语言和国家的边界进行交流,那么在计算媒介中,一些基于共识的本体论(历史的、音乐的、考古学的、建筑的和文学的等)将是必要的。那些本体反过来存在于话题网络中和“贸易区”网络中。维拉德·麦卡蒂从一本书中借用“贸易区”这个术语阐释人文计算,而这本书引入人类学的概念解释物理学实践。如那个隐喻的谱系所示,终归有一天人文学科需要严谨的计算方法,人类的理解力和创造力需要在表示上不断创新和突破,并做清晰区分,这就会催生这种计算需求。
注释
1. 约翰·昂斯沃斯。最早发表在《计算机语言学年鉴》(Jahrbuch fur Compaterphitologie)4, pp. 71 - 84, http://computerphilologie.uni-muenchen.de/jg02 /unsreorth.html.
2. The Collected Poems of Wallace Stevens, New York: Alfred A. Knopf, 1951, p. 384.
3. 兰德尔·戴维斯(Randall Davis)、霍华德·施罗布(Howard Shrobe)和皮特·索洛维茨(Peter Szolovits)于1993年在《人工智能杂志》(AI Magaxine), 14 (1),pp. 17 - 33发表了《什么是知识表示》(“What is a Knowledge Representation?”)一文,详见http: //www.medg. lcs.mit.edu/ftp/psz/k-rep.html(2002 年10月31日访问)。
4. 同上。
5. 同上。
6. 同上。
7. 同上。
8. 同上。
9. 同上。
10. http://www.iath.virginia.edu/dante(2002 年10月31日访问)。
11. 同3。
12. 同上。
13. 见http://www.medg.Ics.mit.edu/ftp/psz/k-rep.html (2002年10月3日访问)。
14. 同3。
15. 同3。
16. 同3。
参考文献
Davis, R. , Shrobe, R. H. and Szolovits, P. (1993).“What is a Knowledge Representation?”AI Magazine, 14 (1), pp. 17 - 33, http: // www. medg. lcs. mit. edu/ftp/psz/k-rep. html (accessed October 31, 2002).
DeRose, S. J., Durand, D. G., Mylonas, E. and Renear, A. H.(1990).“What is Text, Really?”Journal of Computing in Higher Education, 1 (2), pp. 3 - 26.
“Is Humanities Computing an Academic Discipline?”An Interdisciplinary Seminar at the University of Virginia (1999-2000), http: // www. iath. virginia. edu/hcs (accessed October 31, 2002).
Letsche, T. A. and Berry, M. W. (1997).“Large Scale Information Retrieval with Latent Semantic Indexing,”Information Sciences—Applications, 100, pp. 105 - 37, http: // www. cs. utk. edu/~berry/lsi++/index. html (accessed October 31, 2002).
McCarty, W. (n d.).“We Would Know How We Know What We Know. Responding to the Computational Transformation of the Humanities,”http: // www. kcl. ac. uk/humanities/cch/wlm/ essays /know/know. html (accessed October 31, 2002).
MeCarty, W. and Kirschenbaum, M. (n. d. ).“Institutional Models for Humanities Computing,” http: // www. kcl.ac. uk/humanities/cch/allc/archive/hcim/hcim-021009. htm (accessed October 31, 2002).
Orlandi, T. (n. d. ).“The Scholarly Environment of Humanities Computing. A Reaction to Willard McCarty's talk on The Computational Transformation of the Humanities,” http: //RmCisadu. let. uniromal. it/~orlandi/ mccartyl. html (accessed October 31, 2002).
Renear, A. , Mylonas, E. and Durand, D. (n. d. ). “Refining our Notion of What Text Really Is. The Problem of Overlapping Hierarchies,”http: // www. stg. brown. edu/ resources/ stg/ monographs/ ohco. htm (accessed October 31, 2002).
TEI-L (n. d.). http: // listserv. brown. edu/ archives/ tei-l.html (accessed October 31, 2002).
The Text Encoding Initiative Consortiun (n. d. ). http: // www. tei-c.org (accessed October 21, 2002).
作者按:
人文计算曾是什么?
如同“人文计算”向“数字人文”的转向一样(帕特里克·斯文森,《作为数字人文的人文计算》,《数宇人文季刊》,2005),“人文计算”的历史在其他地方(维拉德·麦卡蒂《人文计算是数字人文》,《数字人文季刊》,2009)亦有讨论。在回顾《什么是人文计算,什么不是》时,我注意到文章对它提出的问题似乎有些焦虑。“人文计算”不仅是一个聚焦于计算机使用的重要术语,也是一项自成一体的智力活动。或许也不完全是自成一体,作为一项智力活动,它似乎需要从另一个研究领域:人工智能(artificial intelligence)来获得证实。但是,即便提供了这种证实,文章仍然要问:
我们是否能用形式化语言、易于计算的术语,以及具有内在一致性并符合公开规则的话语表达我们对人文学科的认识?为什么我们需要对此感到担忧?既然我们清楚,这么做必然会损害表达力,牺牲一些细微的差别和意义,究竟为什么我们还要一往无前呢?
我当时的答案是“导航和交流”,我的意思是语义网,但是我当时并不清楚我是不是认真的,因为“语义网”直到2001年才(由蒂姆·博纳斯-李[Tim Berners Lee])提出来。当时我认为,可计算的人文很重要,因为“在我们现处的文明阶段,信息空间是我们要勘察、探索和占领的领域,勘察的对象不是大陆、区域或士地,而是学科、本体和概念”。但是事实上,我在文中所说的勘察是一些工艺,其中大多是手工添加的标记。实话实说,重新看这篇文章的修补工作,讨论的不足主要与“易于计算处理”想法有关。我同意计算框架必须得到对这个想法清晰明确的解释,但是事实上,关于计算自身的价值或计算分析工作的价值,我都没有给出太多实例。也许这是因为直到2003年我才开始涉足文本挖掘;直到2004年谷歌图书才问世,随后世界上大量文化记录的数字化逐渐揭开了人文大数据时代的序幕。
约翰·昂斯沃斯,2012年11月