数据名称:政府工作报告-原始文本面板数据及词频统计
数据范围:全国31个省份
数据年份:2002-2020年(平衡面板为2007-2020年)
数据来源:地方政府网
数据整理:马克数据网
数据说明:内含原始文本面板,以及精确模式和全模式两种情况下的25个词频统计面板
更新时间:2021年12月(当前为1.0版)
从地方政府网爬取工作报告原始文件
将报告文本整理为面板数据
利用python的jieba库进行精确模式分词
(即:'推荐', '马克', '数据网')
利用python的jieba库进行全模式分词
(即:'推荐', '马克', '克数', '数据', '数据网')
去除停顿词
保留两种模式下的词频统计
原始文本 | 农村 | 节能 |
年份 | 环境 | 细颗粒物 |
地区代码 | 环保 | 氮氧化物 |
地区 | 环境保护 | 氨氮 |
词频总量 | 绿色 | 尾气 |
创新 | 雾霾 | 扬尘 |
创业 | 能耗 | PM10 |
技术 | 减排 | PM2.5 |
高质量 | 低碳 | 二氧化硫 |
乡村 | 空气 | 二氧化碳 |
面板结构
数据概览
注:该数据为马克社区高级会员-附赠数据