Analysis of the Attention and Emotional Changes of Official Media Towards Doctors Since the Founding of New China -- Based on Text Analysis of People's Daily News from 1949 to 2021

Date: 2025-12-19

作者:蒋悝 丁子仪


研究背景

自2019 年12 月以来,新冠疫情的爆发对人类社会生活产生了极大的影响,医生在新冠疫情的防控中发挥着极其重要的作用。在疫情不断持续的今天,医生的作用不可替代,在人民日报、新华社、光明日报等官方媒体中,关于医生的报道数量显著提升。小组成员通过讨论,对自建国以来,我国医生媒体报道关注度及其情感倾向变化这一主题产生兴趣。通过前期的文献调研,笔者选择使用人民日报数据库中关于医生的报道作为文献库,对关于医生的报道数量、情感进行分析。


研究假设

研究假设1:主流媒体对医生的关注度逐渐上升,医生报道数量呈现随年份整体上升趋势。

研究假设2:经济发展影响对医生的新闻报道情感,经济发展程度越高,对医生的报道越正向。

研究假设3:重大突发事件影响关于医生的新闻报道情感,疫情等突发事件可能导致医生报道情感提升。


数据收集与预处理

1.数据收集

本文中,笔者使用Python 对人民日报中新闻文本进行了爬取。为了保证检索的全面性,笔者首先采用医生为检索词,对全文字段进行检索。共得到28808 篇报道。随后,笔者使用医生作为检索词,对标题字段进行检索,共获得2199 条新闻报道。

2.数据预处理

由于人民日报的数据库具有较好地反爬机制,故笔者采用多个分库进行爬取,故数据格式存在较为明显的区别,需要进行庞大的数据预处理的工作。笔者主要使用了Python、R 语言等工具进行了数据的正则化、格式化处理,对部分缺失值进行了人工填补和自动填补和剔除,最终得到了2186 条标题含有医生的有效新闻报道,得到28508 条全文含有医生的有效新闻报道。

此外,为扩充新闻数据集,咨询老师的处理意见后,笔者通过分别统计标题中含有医生的新闻、和全文中含有医生的新闻中“医生”在全文中出现的次数,并且绘制了折线图,如图3.1所示,其横轴代表一篇报道中出现医生的频次,纵轴代表报道的篇数。红色的线代表标题中含有医生的报道,黑色的线代表全文中含有医生的报道。可以看出,全文和标题中医生的频次都在1 次处达到了峰值。在2 次3次间,两条线存在交点,这里笔者选择全文中至少出现医生2次以上为标准,对新闻集进行扩充。最终得到的新闻数据集中共有12109 条关于医生的新闻报道。


信息分析

通过讨论,本文使用报道数量作为衡量医生关注度的依据,使用情感分析对报道中关于医生的情感进行考量,使用相关分析对当年经济发展水平与医生的情感得分进行分析。

在文本处理过程中,笔者首先使用jieba 对中文进行分词并去除停用词,自定义词典选择了搜狗词库的医生职业相关词典。在情感分析中,笔者使用的工具是pysenti,情感词表整合了知网情感词典、清华大学李军情感词典、BosonNLP情感词典等内容。由于全文分析时情感得分包含了较多与医生无关的情感内容,故笔者通过对文本数据进行分析,发现在使用含有医生的上下三句话进行提取时既能够包含足够的语义信息,又能够尽量防止无关语义进入研究视野。

图1 医生出现频次图


描述性分析及聚类分析

1.描述性分析


图2 医生相关报道词云图

图2显示,关于医生的报道内容广泛,在医生、医院、工作等内容的基础上,也强调病人、患者等对象。医生的角色有乡村医生、赤脚医生、全科医生等转换。农民、贫下中农、大队等词语具有较为鲜明的时代特征。

2.聚类分析

笔者通过采集医生一词出现前后的三句话中所描述的信息,对其进行LDA 聚类,发现可以聚为5类。

图3显示,第一类报道中更关注现代医生的医疗服务,其中包含医生、健康、人工智能、工作、医疗卫生、互联网、团队、技术等词语。

图4显示,第二类报道中更加关注乡村基层医疗服务,其中包括医疗、服务、乡村、工作、基层、看病、卫生院、赤脚医生等内容。

图5显示,第三类报道中更加侧重疫情中医生的作用。其中包括医疗、工作、医疗队、疫情、治疗、武汉、肺炎、健康、感染、抢救、生命等内容。

图6显示,第四类报道中更关注患者。其中以患者、手术、治疗、病人、牧民、人民、村民、看病、孩子、老人、群众等词语较为常见。

图7显示,第五类报道与第三类报道有一定重合,其关注疫情期间医生的奉献,如手术、生命、社会、小时、时间、专家、执业、病房、夜班、孩子、临床、武汉市等内容。

图3 聚类1

图4 聚类2

图5 聚类3

图6 聚类4

图7 聚类5

数据分析

1.针对假设一

主流媒体对医生的关注度逐渐上升,医生报道数量呈现随年份整体上升趋势。图8展示了建国以来我国对于医生的报道文章数是处于一种波动上升的趋势,并且对于医生的报道分别在非典型性流感和新冠疫情的爆发之后产生了极大的上升。在非典爆发之前对于医生报道的增速较低,非典爆发之后对于医生的报道的增速有了极大的提高。自此可以初步得出,主流媒体对医生的关注度逐渐上升,医生报道数量呈现大体上呈现出一个上升的态势。

图8 报道量逐年变化图


2.针对假设二

医生的新闻报道情感倾向于当年经济发展情况基本无关。

我国经济发展如图9所示,在改革开放之前除去决策失误,基本属于正增长甚至是超高速增长,在改革开放之后处于高速发展阶段,年平均增长率在10% 左右,在习近平新时代追求高质量发展后,增速有所下降,但是仍旧处于中高速增长当中。

相关系数r 为= 0.162,p 值为= 0.222

从散点图10中可以看出,其横坐标代表当年GDP 增速,纵坐标代表当年医生报道情感得分。散点图呈现较为散乱随机的状态,并不能观察出较为明显的线性变化关系。在此基础上,笔者使用相关分析对当年情感得分与GDP 增速进行分析,发现其皮尔森相关系数为0.162,
P 值为0.222。因为P 值未通过检验,更加显示出两个变量不存在显著的相关关系,不用进行线性回归分析。至此,可以得出,对于医生的报道中,情感倾向于当年的经济发展水平基本无关。

图9 GDP 增速逐年变化图


图10 情感得分与GDP 增速散点图

3.针对假设三

重大突发事件影响关于医生的新闻报道情感,但疫情对于医生相关报道的情感影响可能是负向的。

图12可以得出:从建国至今的医生情感得分整体处于正分,大多数年份得分位于平均分上下波动。在三年自然灾害时期,医生的情感得分取得了较为明显的提升,甚至达到了最高点。且在重大传染病发生时期,如非典以及新冠时期医生的情感得分发生了较为显著的负向变化。非典发生时期,医生的情感得分显著下降,甚至达到了建国以来的最低点。在新冠疫情期间,医生的情感得分也有较为明显的下滑。至此可以得到结论,重大突发事件影响影响医生的新闻报道情感,但是其影响受到事件性质的影响。疫情对医生报道的情感并不具有正向作用,反而具有一定的负向作用。

图11 相关分析

图12 报道情感得分年变化图


总结与反思

总结

结论一:主流媒体对医生的关注度逐渐上升,医生报道数量呈现随年份整体上升趋势。

结论二:医生的新闻报道情感倾向于当年经济发展情况基本无关。

结论三:重大突发事件影响关于医生的新闻报道情感,但疫情对于医生相关报道的情感影响可能是负向的。随着疫情的结束,关于医生的新闻报道情感倾向逐渐上升。


反思

当前研究还存在较多不足,例如:

问题一:在关注度上,我们取了绝对数量,应该与其他职业或者整体报道数量作对比,以展示相对关注度,验证结论。

问题二:对重大突发事件对医生报道的影响,应该继续探究其影响机理。笔者后续将使用更加细粒度的时间窗口进行深入分析。

问题三:关于医生的报道中,尽管选择了出现医生句子前后三句话,但仍然存在较多语义信息的干扰,这极大地影响了研究的准确性,后续我们将采用语义角色识别和语法树,对与医生相关的情感进行更加准确的把握。