18 世纪德语历史文献的数据挖掘:以主题模型为例

发布时间: 2019-09-03 王涛

18 世纪德语历史文献的数据挖掘:以主题模型为例

摘 要

主题模型是新近开发出来的研究方法,对于拓展数字人文的研究路径非常有价值。LDA 是主 题模型算法之一,将它运用到“德语文献档案”收录的 1700 - 1800 年间的文献,在归纳、分析文本的主题后,对 主题模型方法的有效性进行评判。主题模型的演算结果让我们对 18 世纪德意志精神世界有了更加立体的认 知:18 世纪的作者具有强烈的历史意识,对知识体系的构建异常积极,小说受追捧与公共领域的兴起密切相 关,宗教启蒙是时代主题。这些结果表明,启蒙运动具备多重面相。在历史研究中需要将以主题模型为代表 的远距离阅读与细读有机结合起来,才能够得到更具说服力的研究成果。主题模型作为一种文本挖掘的方 法,仍然存在改进的空间,而这种进步需要人文学者与计算专家的通力合作。这也是数字人文继续发展的必 由之路。

关键词

数字史学 主题模型 德意志 启蒙运动 远距离阅读


部分正文

数字史学(digital history)在西方学界方兴未艾,国内学者近年来也开始涉足。除了必要的理论探讨外,①史料型数据库建设是主要的成果呈现形态,而有历史特质的个案研究基本上以量化历史的面目出现,用数据库方法梳理观念史的研究以对关键词频的统计为依据。②数字史学当然不能止步于数据库的建设,量化历史或者词频统计的方法也不是数字史学的全貌。某种意义上说,历史研究的史料除了容易量化的数据外,更多是无法量化的文本,因此对数据库进行有效的信息提取与可视化呈现,才是数字史学的核心价值。先行一步的西方学者已经在使用主题模型(Topic Modeling)的方法对大规模文献进行数据挖掘,③拓展了数字人文(Digital Humanities)的研究路径,在史学研究领域,也有值得期待的可能性。本文将在关于德意志启蒙运动的研究实践中使用这种工具,并结合具体案例对其有效性进行评判。

主题模型的基本概念

手头有近700份文献,字符数在3000万左右,我们用什么方法在最短的时间内了解文献的整体面貌,并对文献内容进行整理?传统的方法是让不同的人同时阅读,做读书笔记,然后分享阅读成果,最终整合成一份读书报告。这种合作阅读(collaborative reading)的方式,通常被学者们用来处理庞杂的文献资料。它能够提升搜集信息的效率,④但也具有明显的劣势:它基于多人协作,处理信息的标准因人而异,让内容整合的客观性大打折扣。

……

在中国知网查看:https://kns.cnki.net/kns/detail/detail.aspx?QueryID=1&CurRec=1&recid=&FileName=XHAI201701022&DbName=CJFDLAST2017&DbCode=CJFQ&yx=&pr=&URLID=&bsm=QS0101;
本作品由中国知网负责全球范围内电子版制作与发行。版权所有,侵权必究。