How to Read 50,000 Pieces of Bibliographical References Using a Computer: An Academic History Analysis of Research on History of German based on Big Data

Date: 2019-09-03 Tao Wang

如何用电脑阅读5万份题录——基于大数据的德国史研究的学术史分析

摘 要

科班的学术训练要求在展开一项新的研究课题时,必须梳理已有的研究成果。对于有着深厚学术积淀的德国史研究而言,前辈学人的研究汗牛充栋,形成了大数据;在“数字人文”工具的协助下,研究者可以运用量化统计、主题模型等方法,对德国学术史进行了梳理,并以相关数据为基准对德国历史的研究趋势做出预测。应该强调的是,数字人文工具存在缺陷,它们的计算逻辑只见森林不见树木,我们需要更多具体历史问题的指引来解决这个盲点。


关键词

德国 大数据 学术史


部分正文

科班的学术训练要求我们在展开一项新的研究课题时,必须梳理已有的研究成果,从而在总结既有研究的基础上快速找到新课题的切入点。这个极为重要的学术规范,在大数据的背景下遭遇了困境。对于有深厚学术积淀的德国史研究而言,前辈学人的研究汗牛充栋,虽然跟海量级别的大数据(比如社交网络的信息流)相比,德国史研究资料只能算轻量级的“大数据”,但是它们的总量仍然超出了人力所及。事实上,我们不得不面临一个尴尬的处境:我们对既往研究成果的综述,其实非常不完整。以德国历史研究为例,没有学者会去通读所有的学术积蓄,他们仅仅截取跟自己研究领域相关的时段或者主题,在尽可能缩小的范围内进行整理。问题在于,“相关性”没有客观标准,最终结果很可能是对代表性研究的综述,甚至是对随机抽样的研究成果的综述。换言之,我们对真正意义上德国史研究的总体状况并不了解。但是,这种困境在“数字人文”工具的协助下,有望得到一定程度的改善。本文将以“大数据”的态度讨论德国历史的既有研究,并以相关数据为基准对德国历史的研究趋势做出预测。

一、方法与资料来源

数字人文经过几十年的发展,最重要的一个成果就是建设了大量数据库。我们在本课题的研究主要使用EBSCO公司旗下的大型数据库“历史摘要”(Historical Abstracts,以下简称HA),该数据库收录了全世界重要学术期刊的论文信息,包括作者、论文标题、刊物名称、主题词等关键信息,我们将围绕一篇论文的信息整合为“题录”,作为最基层的研究对象。题录涉及的语种有英语、德语、中文、法语、西班牙语等,总量在76000份以上(数据截止2015年底)。由于本人水平有限,只能关注德语、英语以及中文学术界的研究状况,数量减少到了5万份左右。严格说,HA收录的中文论文索引极其有限,全部数量不到200份,而德语、英语合计超过了5万份,相比之下,中文研究状况在HA的存在几乎可以忽略不计。不过,我们仍然会考察中文题录的情况,因为可以作为参照,获得一些有趣的发现。

……

在中国知网查看:https://kns.cnki.net/kns/detail/detail.aspx?QueryID=1&CurRec=1&recid=&FileName=LSJX201605004&DbName=CJFDLAST2018&DbCode=CJFQ&yx=&pr=CFJD2016;&URLID=&bsm=S;QS0103;
本作品由中国知网负责全球范围内电子版制作与发行。版权所有,侵权必究。