2023年3月,马克团队统计了各省-环境规制力度词频(点击查看)
2023年11月,参考《经济研究》陈诗一(2018)、《中国工业经济》邓慧慧(2019)、《中国软科学》尹礼汇(2021)的做法,团队利用Python对政府工作报告进行分词处理,统计地级市政府工作报告中与环境规制相关的15个关键词
陈诗一(2018)
年度趋势
一、数据介绍数据名称:政府工作报告-环境规制力度
数据范围:286个地级市(包括直辖市)
数据年份:2002-2023年
样本数量:5439条
数据来源:地方政府网
数据整理:马克数据网
数据说明:内含环境规制相关的15个词频明细、文本长度、文本词频总数
更新时间:2023年11月
二、整理说明从地方政府网爬取工作报告原始文件
将报告文本整理为面板数据
去除停顿词,利用python的jieba库进行精确模式和全模式分词,统计词频和
(精确:'推荐', '马克', '数据网')
(全:'推荐', '马克', '克数', '数据', '数据网')
保留中英文、数字、标点符号,利用正则表达式统计15个词频
保留中英文、数字,统计全文文本总长度
保存文本词频总数、15个词频明细、文本长度
三、指标说明一共24个指标,如下
行政区划代码 | 年份 | 城市 |
所属省份 | 文本总长度 | 仅中英文-文本总长度 |
文本总词频-全模式 | 文本总词频-精确模式 | 环保词频和 |
环境保护 | 环保 | 污染 |
能耗 | 减排 | 排污 |
生态 | 绿色 | 低碳 |
空气 | 化学需氧量 | 二氧化硫 |
二氧化碳 | PM10 | PM2.5 |
面板形态
数据概览
五、获取数据注:该数据为马克社区高级会员-附赠数据