零壹Lab:记录数字媒介之日常,反思科技与人文精神
01Lab: Archiving digital lives, reconceptualizing sci-tech and the humanities
“数字人文研究技能与方法”读书会
北京大学人文社会科学研究院,2017年
三、 关系型史学数据库(下):
从开发者角度看CBDB,兼及数字文献学
(4月21日,周五)
(进行数字化时借用哈佛大学法学院租来的扫描仪)
思考题
1. 什么是数据化?数据化和电子化有什么区别?
2. 你最感兴趣的研究课题需要什么资料支撑?这些资料是否已经经过电子化和数据化?
3. 建立数据库或数据集时,应如何选择史料,将其变成数据?请从两个方面思考:从CBDB的角度、从你自身研究兴趣的角度。
4. CBDB把人物传记资料做成数据有哪几种方式?各有什么利弊?
5. 对文本进行标注,然后做成数据的做法有什么结果?其中隐含了看待文献的何种观念?
6. 以你用过的一个学术数据库为例,设想建设该资源时会遇到哪些主要困难。这些困难可以如何解决?
(为了标记地方志人物资料,设计的半自动线上标记平台)
阅读材料
1. 【精读】徐力恒,《唐代人物资料的数据化:中国历代人物传记资料库(CBDB)近年工作管窥》,《唐宋历史评论》,待刊。
2. 【精读】徐力恒、王宏甦,《CBDB开发者告诉你,他们是怎么妙用MARKUS的!》,零壹Lab,2017年2月20日,
3. 【泛读】Peter K. Bol, Chao-Lin Liu, and Hongsu Wang. “Mining and discovering biographical information in Difangzhi with a language-model-based approach,” Proceedings of the 2015 International Conference on Digital Humanities (DH 2015). Parramatta, New South Wales, Australia, 29 June-3 July 2015. 下载网址:https://arxiv.org/abs/1504.02148(点右上角“Download”下的“PDF only”)
4. 【泛读】赵思渊:《地方历史文献的数字化、数据化与文本挖掘:以〈中国地方历史文献数据库〉为例》,2016年第4期,页26-35。下载网址:http://qsyj.iqh.net.cn/CN/abstract/abstract2263.shtml(点“全文:PDF”下载)
5. 【需要时参考】程卉,《CBDB Computer Assisted Gazetteer Tagging System 操作手冊》。
6. 【需要时参考】杜协昌,《宋会要系统简介》。下载网址:http://thdl.ntu.edu.tw/L303_SongHuiYao/HelpDocs/SongHuiYao-20111203.pdf
(利用MARKUS标记墓志文本中的人物任官资料,导出数据用以输入CBDB)
参考网站
1.RegExr: http://regexr.com/
2. 正则表达式30分钟入门教程:http://deerchao.net/tutorials/regex/regex.htm
3. NotePad++下载网址:https://notepad-plus-plus.org/download/v7.3.3.html
4. Automating Data Extraction from Chinese Texts: http://did-acte.org/
5. 台湾大学《宋会要辑稿》资料探勘系统(可申请免费账号):http://thdl.ntu.edu.tw/L303_SongHuiYao/CustomizedHome.php
(准备唐代墓志全文,以作文本挖掘之用)
主编:徐力恒 责编:陈静 顾佳蕙 美编:傅春妍
“零壹Lab”将发布本读书会的更多学习资料,请持续关注!
关注零壹Lab,获取更多数字人文信息!