作者:
随着数字经济的快速发展,企业数字化转型已成为推动经济增长和社会变革的重要力量。近年来,上市公司年报等文本数据的积累为研究企业数字化水平提供了丰富的资源。传统上,企业数字化程度的衡量主要依赖于投入产出指标或问卷调查,但这些方法存在主观性强、数据获取成本高等问题。因此,借助自然语言处理(NLP)和文本挖掘技术,从企业年报文本中提取与“数字化转型/数字赋能”相关的关键词,并据此构建企业数字化指数,成为一种新的研究路径。
本项目旨在通过数字人文的方法,结合计算机科学与管理学的跨学科视角,探索企业数字化转型的量化衡量方法。通过文本分析和TF-IDF算法,我们能够客观地反映企业在数字技术应用上的广度和深度,为后续的比较分析和实证研究提供数据支持。相比传统方法,文本分析能够从企业的话语和叙事中提取信息,揭示企业在战略上对数字技术的重视程度,从而为数字化转型的研究提供新的视角和工具。
此外,本项目具有显著的数字人文色彩。一方面,我们运用了计算机科学的文本挖掘方法(如NLP技术和TF-IDF算法)来处理海量的年度报告文本,属于典型的数字工具应用;另一方面,我们服务于管理学和经济学的问题域,即评估企业层面的数字化转型程度。这种将计算技术与企业管理研究相结合的方式,体现了数字人文的精神:通过对文本等非结构化数据的分析,揭示经济社会现象的新洞见。

爬取上市企业2000年-2023年的财务报告并从中选取与“数字化”相关的词汇,剔除B股、仅保留A股数据。



定义了一个变量列表,里面包含所有数字化相关的关键词变量(从“人工智能”到“开放银行”)。对每一个关键词,计算:TF = ln(某个词出现次数 / 总词数 + 1)
对每一个关键词,先复制一份数据。如果这个词出现了(不等于0),就记为1(表示这份文档包含该词)。然后计算所有文档中有多少份包含了这个词(count变量)。
总文档数是62113份(剔除了B股后的年报数量)。IDF = ln(总文档数 / (包含该词的文档数 + 1))。如果一个词在很多文档中都出现(如“公司”),IDF值会很小;如果一个词只在少数文档中出现(如“区块链”),IDF值会很大。
对每一个关键词都计算了TF-IDF值。然后把所有关键词的TF-IDF值加起来,得到“企业数字赋能”指数。这个指数反映了这家公司年报中数字化相关词汇的相对重要性。


只保留三个关键变量并把计算出的指数和企业基本信息(行业、省份、城市)匹配起来。
删除证券简称为空的行。删除金融行业(行业代码包含“J”)。删除ST和PT股票(这些是财务有问题的公司)。对“企业数字赋能”变量进行缩尾处理,去掉最高和最低的1%极端值,防止异常值影响分析。保存最终的数据集。
词云图
https://www.mapchart.net/ 地理热力图
Execl数据透视图表

从图上可以看出“软件和信息技术服务业”“邮政业”“互联网相关服务”最为突出,(技术属性)
数字人文解读:
话语结构分析:对比不同行业词云。


总体来看,企业数字赋能水平呈现“东强西弱”的态势,而西部发展最为有力强劲的是四川、贵州等省份。从均值加权情况来看,广东、北京、浙江等地企业数字化指数最高,这与珠三角、长三角、京津地区领先于全国的经济发展水平高度相关。
数字人文解读:
文化基因透视:高指数地区可能对应不同的“数字文化类型”。例如,广东(珠三角) 的高指数可能源于“外向嵌入型”数字文化——依托全球产业链,快速应用数字技术优化外贸与制造。而北京的高指数则可能体现“政策引领与研发驱动型”数字文化——围绕国家战略与顶尖高校,专注于基础技术与标准话语权的构建。
时间阶段 | 关键政策 | 南京新百的数字化转型实践与关键动作 | 转型内涵与人文解读 |
2018年前 | “健康中国2030”规划纲要(2016年)发布,大健康产业上升为国家战略。 | 并购齐鲁干细胞、新加坡康盛人生等,主营业务从传统百货向生物医疗与大健康拓展。 | 这是企业基于对国家长期战略预判的主动叙事转型,通过跨界构建新的“健康守护者”身份,寻求与传统零售截然不同的价值增长故事。 |
2018-2020年 | 商务部等部委多次发文,鼓励实体零售数字化、线上线下一体化发展。 | 1. 启动会员数字化项目,建设大数据中心。 | 此阶段是对市场压力与政策号召的即时回应。数字化叙事从内部管理(数据决策)延伸到外部渠道(全渠道销售),“人货场”重构成为核心话语,劳模直播更是将“信誉”这一传统资产进行数字化赋能的巧妙叙事。 |
2021年至今 | 《“十四五”数字经济发展规划》(2021)、《零售业创新提升工程实施方案》(2023)等出台,明确推动人工智能、智慧商圈、体验消费。 | 1. “垂直动线革命”(2021),投入2亿改造空间。 | 企业的数字化叙事从工具应用升维至战略重塑。改造“动线”是改写物理空间的消费剧本;引入首店和AI,则是将政策话语中的“智慧”、“体验”具体化为可感知的文化符号与科技符号,旨在塑造城市级商业创新标杆的新身份。 |

如上表,2018年(项目启动)、2020年(直播元年)、2022年(新媒体改造) 这几个关键节点前后,指数出现显著跃升。这不仅意味着技术投入的增加,更意味着企业积极响应国家政策、在战略叙事向市场政府消费者传达其告别传统百货模式的决心,并塑造一个“智慧零售”引领者的新身份。
南京新百的案例表明,国家政策对企业数字化转型的推动提供了一套可供企业灵活征引的“话语资源库”和“行动脚本指南”。企业通过“数字化指数”所量化的投入,以及对政策关键词的叙事性运用,实质上是在实现 “实体零售的数字化转型与消费升级” 。在这个过程中,企业不仅升级了技术,更在政策框架内重新讲述并验证了自身存在的当代价值。
本项目运用文本挖掘(TF-IDF)这一数字工具,对上市公司年报这一人文社科文本进行量化分析,构建“企业数字化指数”,并从时空与行业维度进行解读。
趋势上:企业数字化叙事与国家级政策议程高度同频,呈现明显的“政策驱动”特征。
空间上:数字化指数勾勒出清晰的数字地理格局,并与区域经济文化基因深度融合,部分地区呈现“换道超车”潜能。
行业上:不同行业的数字化话语鲜明反映了其核心关切与转型焦虑(如制造业的“效率”、金融业的“风控”)。
年报作为“舞台”:企业的数字化陈述,可能是一种面向投资者、监管机构与公众的 “绩效展示” 和 “合法性构建” ,需要审慎看待话语与实践之间的距离。
指数作为“透镜”:本研究构建的指数,与其说绝对精确地测量了“数字化程度”,不如说它提供了一个观察 “企业如何思考并表述数字化” 的独特透镜,揭示了转型时代的企业心智与集体情绪。
本研究基于文本词频,未来可结合企业研发投入、专利数据等进行多维度验证;对文本的语境、情感、修辞等深层语义挖掘尚浅。
希望此方法能拓展至更多文本类型(如企业家演讲、政府工作报告),以更立体地描绘数字时代的观念变迁图景。
研究背景与意义
随着数字经济的快速发展,企业数字化转型已成为推动经济增长和社会变革的重要力量。近年来,上市公司年报等文本数据的积累为研究企业数字化水平提供了丰富的资源。传统上,企业数字化程度的衡量主要依赖于投入产出指标或问卷调查,但这些方法存在主观性强、数据获取成本高等问题。因此,借助自然语言处理(NLP)和文本挖掘技术,从企业年报文本中提取与“数字化转型/数字赋能”相关的关键词,并据此构建企业数字化指数,成为一种新的研究路径。
本项目旨在通过数字人文的方法,结合计算机科学与管理学的跨学科视角,探索企业数字化转型的量化衡量方法。通过文本分析和TF-IDF算法,我们能够客观地反映企业在数字技术应用上的广度和深度,为后续的比较分析和实证研究提供数据支持。相比传统方法,文本分析能够从企业的话语和叙事中提取信息,揭示企业在战略上对数字技术的重视程度,从而为数字化转型的研究提供新的视角和工具。
此外,本项目具有显著的数字人文色彩。一方面,我们运用了计算机科学的文本挖掘方法(如NLP技术和TF-IDF算法)来处理海量的年度报告文本,属于典型的数字工具应用;另一方面,我们服务于管理学和经济学的问题域,即评估企业层面的数字化转型程度。这种将计算技术与企业管理研究相结合的方式,体现了数字人文的精神:通过对文本等非结构化数据的分析,揭示经济社会现象的新洞见。
研究内容与目标
本项目的核心研究内容包括以下几个方面:
1.数据获取与清洗
利用Python爬虫技术获取上市公司年报文本,并对文本进行清洗、分词和去停用词处理,以提取出与数字化转型相关的关键词。
2.关键词提取与权重计算
通过TF-IDF算法对提取出的关键词进行加权,计算每家企业在每一年中数字相关术语的相对重要性,并将加权结果累加形成该企业当年的“数字化指数”。
3.数字化指数构建
基于TF-IDF计算结果,构建企业数字化指数,直观反映企业运用新一代数字技术(如大数据、云计算、人工智能等)改进业务流程和资源配置的程度。
4.可视化与比较分析
通过数据可视化手段(如趋势图、柱状图、热力图、词云图等),展示企业数字化指数的变化趋势和行业差异,并进行横向和纵向的比较分析,以丰富研究的深度和阐释力度。
5.数字人文视角的解释框架
结合政策和时代背景,对研究结果进行人文解释,探讨企业数字赋能程度与社会公众认知、行业文化变迁之间的联系,赋予量化指数更丰富的人文解读。
本项目的目标是构建一个客观、可量化的企业数字化指数,为研究企业数字化转型提供数据支持。同时,通过引入数字人文视角的解释框架,使研究结果不仅具有学术价值,还能体现对社会现象的深刻理解。
1.数据获取
使用Python爬虫技术获取上市公司年报文本。对文本进行清洗、分词和去停用词处理。
2.文本分析
提取与“数字化转型/数字赋能”相关的关键词(如人工智能、云计算、大数据等)。
采用TF-IDF算法对关键词进行加权,计算每家企业在每一年中数字相关术语的相对重要性。
3.指标构建
将加权结果累加,形成企业年度“数字化指数”。通过敏感性分析和与传统指标的对比,评估指数的可靠性。
4.数据可视化
绘制企业数字化指数的趋势图、对比柱状图、热力图等。制作词云图展示数字技术相关词汇的重要性。
5.比较分析与解释
横向比较不同类别企业的数字化指数(如不同规模企业、不同所有制企业)。
纵向比较不同时期的指数演变(如国家重大数字经济政策出台前后)。
结合政策和时代背景,对研究结果进行人文解释。
数据获取与清洗:利用Python爬虫技术获取上市公司年报文本,并进行文本清洗、分词和去停用词处理。
关键词提取与权重计算:提取与“数字化转型/数字赋能”相关的关键词,并采用TF-IDF算法对关键词进行加权。
数字化指数构建:计算每家企业在每一年中数字相关术语的相对重要性,并将加权结果累加形成企业年度“数字化指数”。
数据可视化:绘制企业数字化指数的趋势图、对比柱状图、热力图等,并制作词云图展示数字技术相关词汇的重要性。
比较分析与解释:进行横向和纵向的比较分析,并结合政策和时代背景,对研究结果进行人文解释。
报告撰写与修改:撰写研究报告,补充研究背景和文献综述部分,完善方法论描述,讨论结果的可靠性,并提出合理推断。
在“数字人文创新思维与方法”课程背景下,本项目聚焦于利用数字工具和文本挖掘方法,从跨学科视角探讨企业数字化转型/数字赋能的衡量方法。具体而言,我们以上市公司年报等大规模文本资料作为研究对象,通过文本分析提取与“数字化转型/数字赋能”相关的关键词,并据此构建企业数字化指数。
这样的做法源于近年来数字经济领域的新进展:随着上市公司年报文本等大数据资源的日益丰富,研究者开始借助机器学习和自然语言处理技术来度量企业的数字化水平[1]。
本项目延续这一思路,首先利用Python爬虫和文本挖掘手段收集并清洗企业年报文本,从中提取出反映数字技术应用的高频关键词集合(例如人工智能、云计算、大数据等)[2][3]。接着,采用词频逆文档频率(TF-IDF)算法对这些关键词进行加权,计算每家企业在每一年中数字相关术语的相对重要性,并将加权结果累加形成该企业当年的“数字化指数”[2]。数字化指数直观反映了企业运用新一代数字技术(如大数据、云计算、人工智能等)改进业务流程和资源配置的程度。通过这一指数,我们能够量化企业数字化转型的进展,并为进一步的比较分析和实证研究提供基础数据支撑。
本项目具有显著的跨学科特点和数字人文色彩。一方面,我们运用了计算机科学的文本挖掘方法(包括NLP技术和TFIDF算法)来处理海量的年度报告文本,属于典型的数字工具应用。另一方面,我们服务于管理学和经济学的问题域,即评估企业层面的数字化转型程度。这种将计算技术与企业管理研究相结合的方式体现了数字人文的精神:通过对文本等非结构化数据的分析,揭示经济社会现象的新洞见。相比传统上通过投入产出或问卷指标衡量数字化程度的方法,文本分析提供了一种从企业话语和叙事中提取信息的独特视角。例如,在年报文本中频繁出现“数字化”“智能制造”等词汇,意味着企业在战略上更加重视数字技术;TF-IDF方法则能够凸显每份报告中特有的重要数字关键词,从而相对客观地衡量企业多重数字技术应用的广度和深度[4]。
综上,项目介绍部分强调了本研究的问题背景、所用方法和创新之处,体现出学术风格的严谨与数字人文方法的融合。
作业难度评价
本项目在理论深度和技术方法上具有一定的基础,基本达到了研究导向型课程期末作业的要求,但也存在提升空间。
理论层面,数字化转型/数字赋能作为一个热点议题,有丰富的文献基础支持。本项目以数字经济和管理学理论为依托,关注企业如何通过数字技术实现赋能转型,这一视角契合当前学界对数字化影响机制的关注。同时,我们采用的指标构建方法参照了最新研究成果,例如利用年报文本构建企业数字化转型指数的方法已在权威期刊上发表并验证其有效性[3]。这一点说明项目选题具有明确的学术价值,对既有理论有一定拓展。此外,TF-IDF度量企业数字化程度被认为能够克服传统指标的偏差,提供更客观准确的衡量[4]。这些都为项目增添了理论深度,使其不只是简单的数据处理练习,而是与学术研究脉络相衔接。
方法层面,项目展现出跨学科的数据分析技能和一定的技术挑战。首先,数据获取与处理过程(例如爬取上百份企业年报、执行中文文本清洗和分词)需要投入大量精力和熟练的数字工具运用。这体现了研究型作业对数据工程能力的要求。其次,TF-IDF文本分析方法本身虽然原理相对直观,但其应用涉及大规模语料计算和参数选取,需要学生理解算法背后的统计思想,并编写程序批量计算指标,这对于没有相关经验的同学来说具有一定难度。最后,项目所得的数字化指数还可用于进一步的统计分析或与其他企业绩效指标对比,这需要一定的数量分析和解释能力。若能在作业中深入探讨数字化指数与企业特征或绩效的关系,则更能体现研究导向的深度。
总体而言,本项目已包含数据收集、文本挖掘、指标构建等较完整的研究流程,其技术复杂度和理论关联度达到了一定水准,可以作为研究型课程作业的雏形。然而,相对于研究生水平的课题,项目目前的方法相对单一(主要是TF-IDF关键词分析),理论探讨也局限在指标构建本身。要使其完全胜任高难度研究导向作业的标准,还可以考虑进一步拓展分析维度(例如引入更多文本分析技术或更丰富的理论框架)。但就现有内容来看,项目已经提供了良好的起点,具备成为研究导向型课程作业的基本条件。
修改建议
为提高本项目对“数字人文”课程的适配度与表达完整性,我们提出以下改进建议:
增加可视化分析:引入数据可视化手段,以更直观地呈现研究结果。比如,绘制企业数字化指数的趋势图(按年份展示整体数字赋能水平的变化),或制作各行业数字化指数的对比柱状图/热力图,让读者一目了然地看到不同行业、不同年份间数字化转型程度的差异。也可以考虑使用词云图来展示年报中数字技术相关词汇的重要性,使文本挖掘结果以形象化的方式呈现,符合数字人文领域注重信息可视化的风格。
强化比较分析:在构建指数的基础上增加比较维度,丰富研究的深度和阐释力度。具体而言,可以横向比较不同类别企业的数字化指数(例如,不同规模企业、不同所有制企业在数字赋能上的水平高低),或者纵向比较不同时期的指数演变(例如,在国家重大数字经济政策出台前后,企业年报数字化关键词频率是否出现显著变化)。这样的比较分析有助于将定量结果置于更大的背景下解读,体现出跨学科研究对模式和差异的探究,使项目更符合研究导向型作业对于分析深度的要求。
引入数字人文视角的解释框架:除了计算指标,本项目还应加强对结果的阐释,将其置于数字人文的理论和社会情境中加以理解。这可以通过几个方面来实现:其一,结合政策和时代背景进行讨论,例如引用国家“数字中国”战略或产业数字化政策,解释企业年报中数字化话语盛行的时代因素,以展示对宏观环境的认识。其二,从语言与叙事角度切入,对年报中的数字化表述进行定性分析,例如考察企业如何在文本中构建“数字转型”的叙事、使用了哪些隐喻或策略,这将赋予量化指数更丰富的人文解读。其三,将研究结果关联到社会影响,例如探讨企业数字赋能程度与社会公众认知、行业文化变迁之间的联系。这种解释框架能够凸显数字人文的特质,使读者意识到,我们不单是在算一个数字指标,更是在解析一股数字化浪潮如何反映在企业书面语篇中的过程。
完善报告结构与表达:为确保表达的完整性,建议在报告中补充一些关键环节。例如,增加研究背景和文献综述部分,简述数字化转型研究的学术脉络和已有方法(引用相关研究以表明本项目的理论出处);完善方法论描述,用通俗但严谨的语言解释TF-IDF指标的含义和计算过程,让跨学科受众也能理解技术要点;在结果与讨论部分,不仅呈现数字赋能指数的计算结果,还对其可靠性进行讨论(例如与传统指标对比,或进行敏感性分析),并针对发现的现象提出合理推断。这些补充将使项目报告更加严谨饱满,符合研究导向型课程对学术表达的要求。
通过以上改进,本项目将在技术与人文两个方面更好地融合:既运用了先进的数字工具和分析方法,又通过丰富的解释与展示将冰冷的数字转化为有意义的知识。[1][4]这些优化将提高项目在“数字人文创新思维与方法”课程中的契合度,使其既具有学术深度,又具备人文关怀和直观表达,真正成为一份跨学科的高质量研究型作业。
[1][2][3]上市公司数字赋能指数(TF-IDF)、数字技术应用程度面板数据(20012022)_企业_转型
https://www.sohu.com/a/746255863_121827572
[4]4期内文