参考《经济研究》中戴魁早等(2024)一文《数据要素与服务型制造发展》对数据要素指标构建的思路和方法,统计上市公司年报文本中数据要素关键词出现次数,以其对数衡量企业层面数据要素开发利用情况
“企业数据要素开发利用指数”主要选用了反映数据要素存量、数据开发能力、数据驱动商业应用、数据价值变现等四个方面的关键词
整理步骤如下:
➤第一步,整理所有样本企业的上市公司年报并将其转化为纯文本格式
➤第二步,确定数据要素种子词搜索范围
➤第三步,根据分词词典使用 python 语言编程对年报文本内容进行分词与文本抓取,统计文中出现的数据要素特征词词数
➤第四步,对词数加一取自然对数

相关数据:生成式人工智能词频数据,人工智能词频数据,数字化转型词频数据,上市公司年报文本数据
一、数据介绍数据名称:上市公司数据要素利用水平-词频明细
数据范围:A股上市公司
时间范围:1998-2024年
样本数量:68471条
数据来源:上市公司年报
数据整理:马克数据网
更新时间:2025年10月,持续更新
二、数据指标| 类别 | 股票代码 | 公司简称 |
| 年报标题 | 年份 | 行业名称 |
| 行业代码 | 全文-文本总长度 | 仅中英文-文本总长度 |
| 数据要素利用水平 | 数据要素利用词频总数 | 数据要素存量 |
| 数据开发能力 | 数据驱动商业应用 | 数据价值变现 |
| 大数据 | 数据集成 | 数据融合 |
| 数据信息 | 数据管理 | 数据资产 |
| 数字化 | 自动化 | 5G |
| 智能 | 机器人 | 机器学习 |
| 3D打印 | 3D技术 | 3D工具 |
| AI | 物联网 | 边缘计算 |
| 云计算 | 云服务 | 云端 |
| 数字科技 | 数字技术 | 计算机技术 |
| 信息时代 | 信息化 | 信息技术 |
| 信息集成 | 信息通信 | O2O |
| B2B | C2C | P2P |
| C2B | B2C | 电子技术 |
| 电子科技 | 线上 | 网络 |
| 线上线下 | 互联网 | 电子商务 |
| 跨境电商 | 电商平台 | 智慧时代 |
| 智慧建设 | 智慧业务 | 数字运营 |
| 数字终端 | 数字经济 | 数字体系 |
| 数字供应链 | 数字营销 | 数字货币 |
| 区块链 | 数字贸易 |
[1]戴魁早,黄姿,梁银笛.数据要素与服务型制造发展[J].经济研究,2024,59(12):95-112.
[2]唐要家,王钰,唐春晖.数字经济、市场结构与创新绩效[J].中国工业经济,2022,(10):62-80.
四、数据概览数据要素利用水平构建及关键词

数据要素利用水平词频-各年企业数量

数据要素利用水平词频-Excel版

数据要素利用水平词频-Stata版

注:该数据为高级会员-附赠数据,可在底部直接下载数据