【青年研习营-1】数据分析的流程与实例展示——以豆瓣电影分析为例

Date: 2018-10-22

南京大学高研院数字人文创研中心主办的“数字人文青年营”由一群不同学院专业如信息管理学院、地理与海洋科学学院、新闻传播学院、商学院、艺术学院等的青年学生组成,通过定期邀请不同学科背景的学生举行讲座,促进青年学生之间有关数字人文相关理论知识、技术运用等方面相互分享、交流与学习。

2018年9月1日“数字人文青年营”的第一次讲座“数据分析的流程与实例展示——以豆瓣电影分析为例”于南京大学鼓楼校区逸夫馆8楼816室举行。该讲座报告人为信息管理学院大四本科生韩天尧。

韩天尧同学首先介绍了数据分析由采集、清洗、分析呈现、讲故事四个步骤构成,接着重点讲述了数据采集、清理、挖掘与可视化过程方法。数据采集分为基于网络的数据爬虫和基于物联网的从线上到线下,无处不在的数据采集。数据清理主要是将非结构化的数据进行结构化,使其能存放在关系数据库中。数据挖掘是通过算法和模型得出相关关系,数据可视化通过形式多样的图表直观地呈现结果。最后韩同学举出对豆瓣电影进行数据分析的案例,他通过对豆瓣电影网页数据进行抓取,并通过数据清理与分析去观察“谁是中国电影的烂片与好片之王”。在报告过程韩同学还分享了关于数据分析工具如python的使用与学习方法。