How to Read 50,000 Pieces of Bibliographical References Using a Computer: An Academic History Analysis of Research on History of German based on Big Data

Date: 2019-09-03 Tao Wang

如何用电脑阅读5万份题录——基于大数据的德国史研究的学术史分析

摘要

科班的学术训练要求在展开一项新的研究课题时，必须梳理已有的研究成果。对于有着深厚学术积淀的德国史研究而言，前辈学人的研究汗牛充栋，形成了大数据；在“数字人文”工具的协助下，研究者可以运用量化统计、主题模型等方法，对德国学术史进行了梳理，并以相关数据为基准对德国历史的研究趋势做出预测。应该强调的是，数字人文工具存在缺陷，它们的计算逻辑只见森林不见树木，我们需要更多具体历史问题的指引来解决这个盲点。

关键词

德国大数据学术史

部分正文

科班的学术训练要求我们在展开一项新的研究课题时，必须梳理已有的研究成果，从而在总结既有研究的基础上快速找到新课题的切入点。这个极为重要的学术规范，在大数据的背景下遭遇了困境。对于有深厚学术积淀的德国史研究而言，前辈学人的研究汗牛充栋，虽然跟海量级别的大数据（比如社交网络的信息流）相比，德国史研究资料只能算轻量级的“大数据”，但是它们的总量仍然超出了人力所及。事实上，我们不得不面临一个尴尬的处境：我们对既往研究成果的综述，其实非常不完整。以德国历史研究为例，没有学者会去通读所有的学术积蓄，他们仅仅截取跟自己研究领域相关的时段或者主题，在尽可能缩小的范围内进行整理。问题在于，“相关性”没有客观标准，最终结果很可能是对代表性研究的综述，甚至是对随机抽样的研究成果的综述。换言之，我们对真正意义上德国史研究的总体状况并不了解。但是，这种困境在“数字人文”工具的协助下，有望得到一定程度的改善。本文将以“大数据”的态度讨论德国历史的既有研究，并以相关数据为基准对德国历史的研究趋势做出预测。

一、方法与资料来源

数字人文经过几十年的发展，最重要的一个成果就是建设了大量数据库。我们在本课题的研究主要使用EBSCO公司旗下的大型数据库“历史摘要”（Historical Abstracts，以下简称HA），该数据库收录了全世界重要学术期刊的论文信息，包括作者、论文标题、刊物名称、主题词等关键信息，我们将围绕一篇论文的信息整合为“题录”，作为最基层的研究对象。题录涉及的语种有英语、德语、中文、法语、西班牙语等，总量在76000份以上（数据截止2015年底）。由于本人水平有限，只能关注德语、英语以及中文学术界的研究状况，数量减少到了5万份左右。严格说，HA收录的中文论文索引极其有限，全部数量不到200份，而德语、英语合计超过了5万份，相比之下，中文研究状况在HA的存在几乎可以忽略不计。不过，我们仍然会考察中文题录的情况，因为可以作为参照，获得一些有趣的发现。

……

在中国知网查看：https://kns.cnki.net/kns/detail/detail.aspx?QueryID=1&CurRec=1&recid=&FileName=LSJX201605004&DbName=CJFDLAST2018&DbCode=CJFQ&yx=&pr=CFJD2016;&URLID=&bsm=S;QS0103;
本作品由中国知网负责全球范围内电子版制作与发行。版权所有，侵权必究。