中国城市数据库3.0版-线性插值、ARIMA填补(平衡面板1990-2020年)

会员限领
| 来源:中国城市统计年鉴

3.0版更新说明:

1.数据更新至2020年

2.调整部分指标,当前174个指标

2.4版更新说明:

1.更新部分缺失值

2.将数据转为平衡面板

3.填补升级。内含原始版本、线性插值、ARIMA填补三个版本数据

中国城市数据库3.0版-线性插值、ARIMA填补

一、数据介绍

数据名称:中国城市数据库-全市版

数据来源:《中国城市统计年鉴》、地方统计局(文末赠送年鉴,可验证)

数据范围:1990-2020年,包括300个城市

样本数量:31年平衡面板9300条(300*31=9300)

数据整理:马克数据网

更新时间:2022年07月,当前最新3.0版


二、整理方法

第一,识别年鉴。利用NLP算法识别《中国城市统计年鉴》,并转为面板数据

第二,完善数据。对比主流数据库、地方统计局,进一步完善城市数据

第三,统一地区。匹配民政部编码,统一使用2019年编码和地区名称

第四,统一单位。对不同单位的情况,进行单位换算

第五,匹配位置。利用高德地图API,得到地区的经纬度

第六,人工验证。得到所有指标的面板数据,并人工抽样验证

第七,平衡面板。将非平衡面板转为平衡面板数据

第八,线性插值。利用线性趋势对中间缺失进行填充,得到线性插值版

第九,ARIMA填补。利用时间趋势,对剩余缺失进行预测,得到ARIMA填补版

最终,保留原始版本、线性插值版、ARIMA填补版


三、数据指标

共计174个指标,部分如下:

行政区划代码棉花产量中等职业技术学校在校学生数
年份蔬菜产量成人高等学校在校学生数
地区水果产量每万人在校大学生数
地区生产总值肉类产量每万人在校中等职业学生数
第一产业增加值奶类产量R&D人员
第二产业增加值水产品产量R&D内部经费支出
第三产业增加值禽蛋产量专利申请数
第一产业增加值占GDP比重规模以上工业企业数专利授权数
第二产业增加值占GDP比重内资企业数发明专利授权数
第三产业增加值占GDP比重港、澳、台商投资企业数公共图书馆
年末户籍人口外商投资企业数剧场、影剧院数
年末总人口数规模以上工业总产值公共图书馆图书总藏量
非农业人口数内资企业工业总产值每百人公共图书馆藏书
年平均人口港、澳、台商投资企业工业总产值博物馆数
年末总户数外商投资企业工业总产值体育场馆数
出生人口从业人员年平均人数卫生机构数
死亡人口产品销售收入医院、卫生院数
自然增长率利税总额医院、卫生院床位数
年末单位从业人员数本年应交增值税医生数
城镇私营和个体从业人员数利润总额客运总量
年末城镇登记失业人员数流动资产年平均余额铁路旅客运量
第一产业从业人员数固定资产净值年平均余额公路客运量
第二产业从业人员数流动资产合计水运客运量
第三产业从业人员数固定资产合计民用航空客运量
第一产业从业人员比重主营业务税金及附加货运总量
第二产业从业人员比重固定资产投资总额铁路货物运量
第三产业从业人员比重房地产开发投资完成额公路货运量
农林牧渔业从业人员数住宅开发投资完成额水运货运量
采掘业从业人员数社会消费品零售总额民用航空货邮运量
制造业从业人员数批发零售贸易商品购进总额年末邮政局数
电力煤气及水生产供应业从业人员数限额以上批发零售贸易业商品销售总额邮政业务总量
建筑业从业人员数限额以上批发零售贸易企业数电信业务总量
交通仓储邮电业从业人员数当年新签项目个数本地电话年末用户数
信息传输、计算机服务和软件业从业人员数当年合同外资金额移动电话年末用户数
批发零售贸易业从业人员数当年实际使用外资金额国际互联网用户数
住宿餐饮业从业人员数货物进口额全年用电量
金融业从业人员数货物出口额工业用电
房地产业从业人员数地方财政一般预算内收入城镇生活消费用电
租赁和商业服务业从业人员数工商税收工业废水排放量
科研、技术服务和地质勘查业从业人员数地方财政一般预算内支出工业废水排放达标量
水利、环境和公共设施管理业从业人员数科学支出工业二氧化硫去除量
居民服务和其他服务业从业人员数教育支出工业二氧化硫排放量
教育业从业人员数年末金融机构各项贷款余额工业烟尘去除量
卫生、社会保险和社会福利业从业人员数年末金融机构存款余额工业烟尘排放量
文化、体育和娱乐业从业人员数城乡居民储蓄年末余额工业二氧化硫产生量
公共管理和社会组织从业人员数普通高等学校学校数工业烟粉尘去除量
在岗职工平均人数普通中学学校数工业烟粉尘排放量
在岗职工工资总额小学学校数工业氮氧化物排放量
职工平均工资中等职业教育学校数生活污水处理率
行政区域土地面积普通高等学校专任教师数生活垃圾无害化处理率
年末耕地总资源普通中学专任教师数工业固体废物综合利用率
人均占有耕地面积小学专任教师数一般工业固体废物综合利用率
人口密度中等职业教育学校专任教师数污水处理厂集中处理率
水资源总量普通高等学校在校学生数可吸入细颗粒物年平均浓度
人均地区生产总值普通本专科在校学生数保险业承保额
地区生产总值增长率普通中学在校学生数城镇职工基本养老保险参保人数
粮食产量小学在校学生数城镇基本医疗保险参保人数
油料产量高中阶段在校学生数失业保险参保人数

有效值概览:

中国城市数据库3.0版-线性插值、ARIMA填补


四、数据说明

附原始年鉴:

http://www.macrodatas.cn/article/1147466885

注:整理数据为社区中级会员-附赠数据

下载链接
需要登录后查看 点击登录
leifang
文档数据和各州市统计年鉴公布数据有较大出入,例如:2011年,成都市统计年鉴显示第一二三产业就业人口分别为144500026755893611079但是文档当中的数据为0.21109.6889.03经过对比,绝大部分城市的数据都有差异
天马行空
数据主要来源是《中国城市统计年鉴》,请与《中国城市统计年鉴》进行对比
TaveAQ
一个是全市,一个是市辖区,所以不一样
19918275154
想问一下,这个数据全吗
FNJwje
这个得是中级会员才能拿到嘛?
dhusdn
请问当年实际使用外资金额和当年合同外资金额的单位与GDP不统一,应该怎么处理比较合适?
26xQ4L
应交增值税是工业的应交增值税吗
duyannnn
2020年各市的年鉴数据都没更新
VVoTQX
我开个会员,想要的东西提示我链接没有了
20220819
21年数据出来没
I7Mfgg
3.0没有经纬度
ldhiambest
这哪里是平衡面板,很多数据都不齐全,太令人失望了。
马克数据网
1、单位不统一的话,需要根据当年的汇率,将美元与人民币换算。2、数据主要是根据《中国城市统计年鉴》进行整理,由于原始年鉴中的部分城市并不是一直都有(部分年份缺失),所以根据年鉴进行整理的数据是非平衡面板,转为平衡面板是便于线性插值和回归填补,但原始年鉴缺失的这部分数据,在原始数据sheet中,还是会缺失的。3、2020年的部分指标在原始年鉴是缺失的,所以年鉴不存在的指标,是没法更新的,这个可以根据《中国城市统计年鉴》进行比对。2021年的数据目前还没出来。4、如果需要经纬度的话,下个版本可以解析。
xiewancheng123
2021年数据大概什么时候出了?
15778186966
可不可以公布arima填补的具体做法
Ablzjz
21年的数据什么时候可以更新啊
RbeSgn
如何获取
15294848365
湖北省 人均受教育年限
Rv4bA4
so2数据呢
rjH66c
试试
IHtuk9
i
dVvvul
死亡人口数据是从2017才开始有吗
jefeer
23年数据什么时候更新呀
马克数据网
2022年的数据已更新,详见5.0版本。2023年的数据,要等《中国城市统计年鉴2024》出来之后更新
客服一:372574023(QQ)
客服二: macrodatas@163.com