马克团队参考吴非(2021)、赵宸宇(2021)、甄红线(2023)的做法,对MD&A报告进行分析。利用“数字化转型”的总计314个关键词,计算2001-2023年上市公司“数字化转型程度”,分别记为数字化转型程度A、数字化转型程度B、数字化转型程度C
目录➤整理过程
➤解析MD&A报告文本
➤定义“数字化转型”关键词
➤MD&A文本预处理
➤统计数字化转型词频明细
➤计算3种数字化转型、各维度水平
➤数据下载
第一步,解析MD&A报告文本由于不同年份上市公司年报的格式设置有所不同,因此各年MD&A文本的提取方式有所变化
➤2014年及以前主要在“董事会报告”中提取
➤2015年主要在“管理层讨论与分析”中提取
➤2016年-2020年主要从“经营情况讨论与分析”中提取
➤2021-2023年主要在“管理层讨论与分析”中提取
年份 | MD&A报告数 |
2001 | 764 |
2002 | 1054 |
2003 | 1200 |
2004 | 1317 |
2005 | 1328 |
2006 | 1419 |
2007 | 1544 |
2008 | 1600 |
2009 | 1749 |
2010 | 2102 |
2011 | 2340 |
2012 | 2466 |
2013 | 2512 |
2014 | 2628 |
2015 | 2821 |
2016 | 3114 |
2017 | 3490 |
2018 | 3585 |
2019 | 3794 |
2020 | 4239 |
2021 | 4588 |
2022 | 5117 |
2023 | 5328 |
数字化转型A:参考《管理世界》中吴非(2021)的做法,马克团队对人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用五个维度76个数字化相关词频进行统计
数字化转型B:参考《财贸经济》中赵宸宇(2021)的做法,对数字技术应用、互联网商业模式、智能制造、现代信息系统四个维度99个数字化相关词频进行统计
数字化转型C:参考《经济研究》中甄红线(2023)的做法,对技术分类、组织赋能、数字化应用等类别下139个数字化相关词频进行统计
第三步,MD&A文本预处理首先,爬取上市公司的公开年报,保存为pdf文件;其次,读取pdf格式的年报,提取MD&A报告文本,并将文本转为规范化的面板数据;再次,统计MD&A报告的文本长度,以及只保留中英文部分的文本长度
第四步,统计数字化转型词频明细构建企业数字化术语词典,将词汇扩充到python的jieba库,并去除停顿词。统计314个“数字化转型”关键词出现的次数,并剔除关键词前存在否定词汇的词语:无、非、别、不、没、无、忽、莫、否、没有、还没、毫无、无需、无关
第五步,计算3种数字化转型、各维度水平参考三位学者各自的“数字化转型”子维度的词频明细,加总词频和,并统计各个子维度,分别记为数字化转型程度A、数字化转型程度B、数字化转型程度C
该数据为马克数据网-高级会员数据,将于2024年6月27日上线
参考文献[1]吴非,胡慧芷,林慧妍,等.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.
[2]赵宸宇,王文春,李雪松.数字化转型如何影响企业全要素生产率[J].财贸经济,2021,42(07):114-129.
[3]甄红线,王玺,方红星.知识产权行政保护与企业数字化转型[J].经济研究,2023,58(11):62-79.