01 Lab | How can the Combination of Statistics and Humanities be Possible? (I) -- Interview with Dr. Ke Deng, Center for Statistical Research, Tsinghua University

Date: 2017-01-24

   公众号:lingyilab

零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities

导言:近年来,统计学越来越多地被应用到人文研究领域。从简单的词频统计到复杂的文本挖掘,统计学与人文研究的结合不仅仅带来了人文研究方法的变化,同时也对人文学者形成了影响。他们开始思考如何能在提出问题研究前期阶段就能结合统计学思路与方法去做一些设想。此次零壹Lab访谈对象是清华大学统计学研究中心的邓柯博士,他与人文、社科的学者都有持续合作、研究。此次他从统计学家的视角,谈了他怎么看待统计学与人文研究结合的问题。


邓柯

  • 北京大学统计学博士、哈佛大学统计系博士后、副研究员

  • 清华大学统计学研究中心副主任

  • 研究兴趣:统计建模、统计计算、生物信息、文本分析、计算机网络透视

  • 论文发表于PNAS, Journal of Royal Statistics Association (Series B), Journal of American Statistics Association, Annuals of Applied Statistics 和 Statistics in Medicine

  • 2014年入选“青年千人计划”

“我本人现在做的事情,是希望从更深入的统计分析或者数据科学的角度,去缩小统计学在人文研究中的应用效果与人文学者的真正希望之间的落差”

 陈静 (以下简称“陈”):今天我们先从一般的问题聊起。比如,统计学怎么应用于人文研究?因为在社会科学领域,统计学的方法应用的相当普遍,相关的研究路径也会被冠以“量化研究”之名。但对人文学科来说,在研究中应用量化研究方法还是比较少的,甚至有时候会受到非议和排斥。你和人文社会学者都有合作,作为一个统计学家,你在这方面的经验是怎么样的?

 邓柯 (以下简称“邓”):这个问题比较难回答 。从大背景上而言,人文研究领域中的很多新问题,如果从数据分析和信息利用的角度来看,确实面临着很大的挑战。许多传统的技术和方法,在实际的使用过程中,其效果离很多人文学者的真正期望还是有很大落差。这是客观的现实。我们,或者说我本人现在打算做的事,就是希望从更深入的统计分析或者是数据科学的角度来缩短这个距离,去弥补这个落差。我们想努力去做,但必须很客观地说,因为这个落差本身是一个长期存在的问题,我们现在做的工作不能一下就能弥补这个落差,但我觉得我们目前在做的工作在一些方面有了新的尝试,有与以前的方法不太一样的地方。在人文学科里面我们有不同的合作伙伴。从我个人的经历而言,不同学科的学者们一起讨论、一起合作、一起展开一些项目的研究、一起做研究上的探索,整个过程都是很融洽,而且是非常让人激动的 。讨论中会有很多非常有意思的互动,对双方都能有所激发,有所鼓励,我个人很享受这个过程。此外,我们确实也看到了在很多应用案例中,一些统计的思想方法和技术,能够为我们的合作伙伴在不同层面上去真正地解决一些实际问题。比如刚才说的弥补大的鸿沟,可以说是比较高的一个层次。实际上,在很多具体层面上,中观或者微观的,统计学与人文学科的结合会产生非常有效的结果。

比如说跟哈佛大学的包弼德(Peter K. Bol)教授合作的时候,我们在处理一些古文。其中有很多看上去比较像人名的词汇,那我们想解决的就是能不能有一种方法比较精准地判别这些词汇是不是人名。之前CBDB的做法就是在数据中收集很多正规表达式(regular expressions),但这要求在提取之前必须要先知道这些表达式的模式是什么,而现在的问题就是,如果从一开始,学者并不知道这些关系,该怎么办?有没有一种办法自动地去探索、并提取这样的一些关系呢?这个问题看起来很微观,但我们的几个学生确实就是从这些小的问题出发,做了一些尝试和思考,比如通过提取算法、建立模型来解决这个问题。这些问题尽管本身不是很大的问题,但确实能比已有的办法更好一点。在我看来,这就是一个量变到质变的过程,统计学和人文学科的合作,需要有这样的积累。


“算法的迭代是之前逻辑的顺承,新的模型和算法是对问题的精简或者进行优先级别排序”

 陈 :你说的这个点非常有意思。对统计学者来说,如何介入人文学科内部,用统计的思维和方法解决某个问题是很重要的。而对人文学者而言,我的理解是,如何找到这个适合用统计学思维或者方法的问题很重要。因为人文学者需要一个时间去熟悉、适应新的方法和技术,但往往等他们适应了,却又出现了更多新的方法和技术,这个技术迭代就给人文学者造成了困难。

 邓 :从我的角度来看的话它们没有那么大的冲突。因为,算法的迭代并不是说完全提出一种新的方法,就把以前那个逻辑思路就完全推翻了。它实际上是一个顺承。比如之前的方法可能需要很多的人工干预,需要人去做很多判断和动作。但是现在有了新的模型、新的算法以后,再去进行信息处理和模型的判定就能够把这个问题精简,或者把这个东西进行优先级排序。举例来说,如果你要处理一万条数据,但这一万条数据可能有一半实际上是不相干的,或者说,真正的最重要的可能就10%,其它的数据可能是不相干的、不重要的。按照之前的方法处理这个问题是很难的,因为不知道哪个重要哪个不重要。你做的时候只能人工去看一遍。但是现在我们的方法、思路就是,我们还按照这个思路去做,但我们有一些方法对人工干预的部分进行更好的预判和推荐。比如说,会告诉你有些东西它有很大的可能是非常不相关的,或者说非常不重要的,那这些数据你可以先不着急看,放到后面再去看。然后会推荐我们认为最相关的、最有可能的那五百条给你去看。这五百条看完,其实从效果上来讲,想解决的问题95%都已经解决了。虽然可能有5%被错误地分在了后面,但如果你现在时间比较紧张,那你就可以先看这五百条,达到了问题解决的95%。然后那些东西,你可以将来慢慢地去做。这样做从资源的投入和项目进度的管理上来说,都给了项目经理一个更大的掌控空间和灵活性。

再举一个例子,以我和你现在做的大运河的数据为例。以前我们拿到几百万、上千万字的文本,我们其实是不知道怎么去处理的,很难处理去做。现在就是我们有了一个TopWORDS(最相关词汇)这样的方法,可以很快地把词库拉出来。这个词库很可能有10万的词汇,看起来很多,但比起上千万字的文本而言,难度上已经降低了很多。然后我们再对10万词汇进行标注,找出来最相关的词,我们我们现在的方法是人工干预,一个词一个词的去识别。但是我们下一步的思路就是找到一个方法让程序对我们关心的词汇进行推荐,而这些词的数量可能就是1万。由此可见,这个是一个从中观到微观的过程。

另外,这1万个词汇实际上是有不同的分类的,比如说有河流,有水利建筑,有古代的人文风光、风土人情的描述等等。现在都得人工去看,去进行分类和标注,就是说,还是需要花很多的工作量。但将来我们有了新的技术方法,这一步可能用其他东西简化了,用程序自动地给你们做一些分类。信息足够了,程序觉得说这个事情已经很确定了,它可以做一个推荐列表放在前面。有些词汇如果程序觉得不太好判断、不确定,程序会把它往后放,或者拉另外一个列表让你去看。这样的话就会极大地简化我们的工作,优化工作的流程,减少我们的工作量,提高工作效率。


“从统计学的角度来看,世界上没有绝对精准的东西”

 陈 :我能理解你说的思路和原则,但人文学科的学者对这种问题经常会有一点存疑。以CBDB为例,我个人会认为CBDB准确率到95%也好,90%也好,其实已经很好了,不可能是一个错误都没有的。在这点上,我同意Peter Bol教授说的,CBDB是一个数据库,而不是一个历史人物词典。因为词典就意味着每个词条的准确性都达到了一定的的准确度,而数据库或者资料库就意味着准确度并不是它的最重要的目的或者标准。但我在很多场合也会听到人文学者质疑这个问题。 因为对人文学者来说,查一个人名,他但凡查到有一条你是错的,那他就会认为你这个整个数据库就是有问题的,就会针对精准性提出质疑。那你对这个问题怎么看?

 邓 :我非常理解也非常尊重人文学科的这个传统 。但从数据分析或者统计的角度来看,统计学的特点跟这个想法正好是相反的。作为一个统计学家,我们每天处理的事情永远都是不精确的,永远都是充满了各种各样的、不确定的“噪音”(noise)。统计学家的一个核心任务就是,在一个充满了不确定性的,充满了错误和“噪声”的环境下,如何能够保证得到的结论还是基本正确的。或者说,我们对我们得到的这个结论的不确定性要有一个比较精准的度量。这是大的原则。比如,我们要测量一个人的身高,不可能绝对精准。但我会说误差在一厘米之内,或者在五毫米之内。那么,这个结果在很多情况下可能也就够了。所以从我一个做统计学的人的角度来讲,我们很自然地会认为,精准性不是一个问题。或者换句话讲,从我的角度来说,世界上没有绝对精准的东西。这个其实就是我们学科一直以来的观点。因为所谓的精确也都是相对的。比如说我们现在认为一个事情现在是对的,但可能从一个更长远的范畴或历史尺度来讲,它其实是错的。所以准不准其实是相对的。从这个角度来讲,我们也一直认为,精准度的需求其实是服务于我们的目标。比如说我们去测量身高,如果目的就是想看看这个人的某些状态,误差一两毫米是没有什么太大的问题的。但如果你是测量一个特别小的昆虫或者细胞,它的尺度就非常小。这个时候你的一毫米的误差可能就不可接受了。也就是说你这个数据的精准程度和“噪声”实际上是服务于我们的研究目的。不同的研究问题,对于噪声的容忍度是多少,是有区别的。从数据分析角度来讲,有错误和有“噪声”本身不是问题,核心问题在于我们所研究的问题,能接受和容忍的“噪声”的程度,与数据、方法所能提供保证的精度之间,是不是能够相匹配。

 陈 :那比如说像CBDB这样的人文项目,是否有可能仅仅靠统计学方法进行识别而不进行人工干预,从而达到较高的精准度吗?

 邓 :我当然觉得达到百分之百永远是困难的。刚刚我们谈了两点。第一点就是对于误差本身的理解,我觉得要有一个明确的概念,就是我们绝对追求零误差这件事情是很难实现的。第二点就是,精准性不一定是真的有意义的。当我们做一个很小尺度的问题,它的内容和信息量比较少的情况下,那我们是有可能有做到百分之百的精准的。因为在这种情况下,可以用人工的方式很仔细地去看。尽管我自己也不相信人工就一定是百分之百精准的。但当把这个小尺度的问题的尺度放大很多倍以后,这个事情从各个方面来讲就会变得很困难。这就好比说工业上制作一个产品,你在实验室里边你去做一个产品和在生产线上做一个产品,不计成本地手工精工打磨一个个的零件去做一辆车和流水线上年产百万辆车,肯定是不一样的。从实验室到生产线大规模生产,永远会有一个落差。

那我想在人文研究里面也可以这样类比。就是说,我们在做一个小尺度研究的时候,如果这个研究对象相对比较集中,资料使用范围可能相对来讲并没有那么大,那么至少我觉得(精确度)应该是没有问题的。但如果我们研究的尺度非常大,比如说到CBDB这样一个规模,它想包含的人物以后可能达到上百万、几百万,关系可能达到几千万或者上亿条。那你在这么大的一个尺度下管理,我觉得,要想做到零误差,这个本身也是非常困难的。一旦这个尺度变大了以后,控制误差的数量就变得难了。但同时,从相对误差的比例来讲,还是能够有效的控制住。这就回到了我们聊的第一个问题,就是我们想回答什么样的问题。数据量大了以后,多少都会有一些问题。但如果我们有一定技术上的把握,有一些方法,就能对误差比例进行控制。在这样一个情况下,我们在做很多数据分析和处理的时候,在一定假定下能让它的结果变得有意义。


“数据中的噪音也可以有意义”

 陈 :所以,在这里就显出文本选择的重要性了,就是你说的范围。如果人文学者在一开始选定范围的时候犯了一个错误,那就有可能导致后面的一系列研究都出错,是这样么?如果是的话,这个对你的干扰有多大?

 邓 :我觉得这个问题,可以从两个层面去谈。我先说第一个层面。举例来说,在理想状态下,我们做好了pattern lab,人文学者提供的文本数据运行一遍,就可以得到一系列的结果。然后人文学者就可以用这个结果去支持他的研究。这是一个完整的流程。假设人文学者第一次来找我,拿来了一些文本,我们做完了,但发现这个文本弄错了,有严重的失误,那该怎么办呢?我有几种方法。一种方法就是,你发现它有错,发现它范围不合适,那你回去重新再选一波来。选完以后呢,我们丢进去再去做。从我们数据分析的角度来讲,算法分析的最大好处就是它的成本是很低的。在不修改pattern lab、文本体例、数据结构类似或者是一样的情况下,对我们来讲事情就不难 。 文本错了,就再去选一个对的,一天的时间也差不多了 。程序可以用一天跑完人工需要花1年甚至是10年看完的文本。

第二个层面就是,数据中确实有错误,或者说数据中有冲突和“噪声”,这在我们的一些的合作研究中是出现过的。比如在与CBDB合作处理大量人物、以及他们之间亲属关系的时候,我们用算法进行数据的象征性测试,发现它里面有很多的冲突。比如说有一个信息源它告诉我说A是B的父亲,可是另一个却说A是B的叔叔。这就显示了很多信息从逻辑上来讲是不相容的。历史学家可能会说这是一个错误,但从统计学的角度来说,我们更愿意说这是一个噪声。同一时代的两本书谈同一件事,其中的某些信息很可能不一样的。可能两个都不对或者至少有一个错,或者两个都对。这个我们都不清楚,但是只是说它里面可能会有一个。这种冲突就是一种噪声。虽然信息对不上,但这个东西是有信息的。因为即使它错了,那它可能不一定会错一百年,它不会错十年,它可能错了几个月。那么数据虽然有它的质量的缺失,但是它是有意义的。其实我们在现在的算法里面,已经试图尽量地考虑这种问题,把数据当中这样一种可能的噪声和错误,也系统地纳入到模型当中进行考虑。其实我们发现这也是非常有意思的:当综合了很多信息一块儿来考虑的时候,实际上在很大的程度上,可以实现错误信息的识别和精准的定位。

 陈 :就是自动纠错。程序可以自己找出来矛盾的地方,然后还能大概做一个猜测。

 邓 :对。它实际上可以把多种信息搁在一块儿做一种综合的匹配。比如说发现两条信息源记录的一个人它的出生年龄可能是有偏差的,但是它可能给我们有很多别的信息。比如说我知道这个人有三个儿子,分别知道他儿子的出生年月,然后又知道他的考上进士时间,而且还可以知道他和谁是朋友。那我们可以推测,这每一条额外的信息,都帮我们对这个人的生命过程有所理解。再比如说,如果我们通过大量的数据分析发现,古人生第一个小孩的时间是有年龄分布的,那么拿之前那个信息套过来的话忙,就可以推断出来他的出生年月是多少。每一个信息源本身的信息量可能是不够的,噪声很大。但如果能把很多信息源综合起来分析,那就有可能得到一个精准的推断。当有了这种比较精准的推断,再去看两个互相矛盾的信息,也就看得出哪条信息更可信一点。当然,再重复一次,这个结论不会是决定性的,不会是百分之百准确的。

主编:陈静     责编:徐力恒 顾佳蕙 张家伟     美编:张家伟

关注零壹Lab,获取更多数字人文信息!