中国城市数据库5.0版-线性插值、ARIMA填补(平衡面板1990-2022年)

会员限领
| 来源:《中国城市统计年鉴》、地方统计局

注:本版本为全市版本,市辖区版本详见-中国市辖区数据库-5.0版

5.0版更新说明:

   数据更新至2022年

4.2版更新说明:

   1.更新2021年部分指标数据

4.0版更新说明:

   1.数据更新至2021年

   2.调整部分旧指标

   3.新增指标,当前190个指标

3.0版更新说明:

   1.数据更新至2020年

   2.调整部分指标,当前174个指标

2.4版更新说明:

   1.更新部分缺失值

   2.将数据转为平衡面板

   3.填补升级。内含原始版本、线性插值、ARIMA填补三个版本数据

更新!中国城市数据库5.0版

一、数据介绍

数据名称:中国城市数据库

数据来源:《中国城市统计年鉴》、地方统计局

数据年份:1990-2022年

数据范围:300个地级市(包括直辖市)

样本数量:平衡面板9900条(300*33=9900)

数据整理:马克数据网

更新时间:2024年5月,当前为5.0版,点击查看

更新版本:点击查看中国城市数据库6.0版本

二、整理方法

第一,识别年鉴。利用NLP算法识别《中国城市统计年鉴》,并转为面板数据

第二,完善数据。对比主流数据库、地方统计局,进一步完善城市数据

第三,统一地区。匹配民政部编码,统一使用2019年编码和地区名称

第四,统一单位。对不同单位的情况,进行单位换算

第五,匹配位置。利用高德地图API,得到地区的经纬度

第六,人工验证。得到所有指标的面板数据,并人工抽样验证

第七,平衡面板。将非平衡面板转为平衡面板数据

第八,线性插值。利用线性趋势对中间缺失进行填充,得到线性插值版

第九,ARIMA填补。利用时间趋势,对剩余缺失进行预测,得到ARIMA填补版

最终,保留原始版本、线性插值版、ARIMA填补版

三、数据指标

共计189个指标,部分如下:

年份行政区划代码地区
地区生产总值第一产业增加值第二产业增加值
第三产业增加值第一产业增加值占GDP比重第二产业增加值占GDP比重
第三产业增加值占GDP比重人均地区生产总值户籍人口
城镇户籍人口非农业人口数年平均人口
年末总户数出生人口死亡人口
自然增长率常住人口城镇常住人口
年末单位从业人员数城镇私营和个体从业人员数年末城镇登记失业人员数
第一产业从业人员数第二产业从业人员数第三产业从业人员数
第一产业从业人员比重第二产业从业人员比重第三产业从业人员比重
农林牧渔业从业人员数采掘业从业人员数制造业从业人员数
电力煤气及水生产供应业从业人员数建筑业从业人员数交通仓储邮电业从业人员数
信息传输、计算机服务和软件业从业人员数批发零售贸易业从业人员数住宿餐饮业从业人员数
金融业从业人员数房地产业从业人员数租赁和商业服务业从业人员数
科研、技术服务和地质勘查业从业人员数水利、环境和公共设施管理业从业人员数居民服务和其他服务业从业人员数
教育业从业人员数卫生、社会保险和社会福利业从业人员数文化、体育和娱乐业从业人员数
公共管理和社会组织从业人员数地质勘察水利管理业从业人数交通仓储邮电通信业从业人员数
批发零售贸易餐饮业从业人员数社会服务业从业人员数卫生体育社会福利业从业人员数
教育文艺广播影视业从业人员数科研综合技术服务业从业人员数机关和社会团体从业人员数
在岗职工平均人数在岗职工工资总额职工平均工资
行政区域土地面积年末耕地总资源人均占有耕地面积
人口密度水资源总量地区生产总值增长率
粮食产量油料产量棉花产量
蔬菜产量水果产量肉类产量
奶类产量水产品产量禽蛋产量
规模以上工业企业数内资企业数港、澳、台商投资企业数
外商投资企业数规模以上工业总产值内资企业工业总产值
港、澳、台商投资企业工业总产值外商投资企业工业总产值从业人员年平均人数
产品销售收入利税总额本年应交增值税
利润总额流动资产年平均余额固定资产净值年平均余额
流动资产合计固定资产合计主营业务税金及附加
固定资产投资总额房地产开发投资完成额住宅开发投资完成额
社会消费品零售总额限额以上批发零售贸易业商品销售总额限额以上批发零售贸易企业数
当年新签项目个数当年合同外资金额当年实际使用外资金额
货物进口额货物出口额地方财政一般预算内收入
工商税收地方财政一般预算内支出科学支出
教育支出年末金融机构各项贷款余额年末金融机构存款余额
城乡居民储蓄年末余额普通高等学校学校数普通中学学校数
小学学校数中等职业教育学校数普通高等学校专任教师数
普通中学专任教师数小学专任教师数中等职业教育学校专任教师数
普通高等学校在校学生数普通本专科在校学生数普通中学在校学生数
小学在校学生数高中阶段在校学生数中等职业技术学校在校学生数
成人高等学校在校学生数每万人在校大学生数每万人在校中等职业学生数
R&D人员R&D内部经费支出专利申请数
专利授权数发明专利授权数公共图书馆
剧场、影剧院数公共图书馆图书总藏量每百人公共图书馆藏书
博物馆数体育场馆数卫生机构数
医院、卫生院数医院、卫生院床位数医生数
客运总量铁路旅客运量公路客运量
水运客运量民用航空客运量货运总量
铁路货物运量公路货运量水运货运量
民用航空货邮运量年末邮政局数邮政业务总量
电信业务总量本地电话年末用户数移动电话年末用户数
国际互联网用户数全年用电量工业用电
城镇生活消费用电境内公路总里程高速公路里程
工业废水排放量工业废水排放达标量工业二氧化硫去除量
工业二氧化硫排放量工业烟尘去除量工业烟尘排放量
工业二氧化硫产生量工业烟粉尘去除量工业烟粉尘排放量
工业氮氧化物排放量生活污水处理率生活垃圾无害化处理率
工业固体废物综合利用率一般工业固体废物综合利用率污水处理厂集中处理率
可吸入细颗粒物年平均浓度保险业承保额城镇职工基本养老保险参保人数
城镇基本医疗保险参保人数失业保险参保人数提供住宿的社会工作机构数
养老机构数提供住宿的社会工作机构床位数养老机构床位数

有效值概览:

更新!中国城市数据库5.0版

四、数据说明

注:整理数据为社区中级会员-附赠数据,可在底部自取数据

下载链接
需要登录后查看 点击登录
ESrUaX
这还又要重新领??
马克数据网
小版本的更新,可在原链接下载;大版本的附赠数据更新,则需要重新领取
pRgfcM
请问今天内能发布吗?
KgnECJ
数据还没上传吗?我急需
18270563882
还没上传吗?不是说13日前,要等到0点?
马克数据网
中国城市数据库5.0最新版已经上传,领取后直接下载就行
ydm8Wx
有偿求  可加v
wFghi9
从哪领
马克数据网
中级会员及以上,可在底部自取下载链接
digiecon
您好,2020-2022年的信息传输、计算机服务和软件业从业人员数(万人)原始数据是官方没有公布吗?
wWXQqk
有偿求可加v
llbbvv1999
在岗职工平均人数和在岗职工工资总额这两个变量的来源是统计年鉴的哪个部分?这是指城镇非私营企业的在岗职工吗?求对这两个变量的具体说明。
CljC6U
请问是否包括自治州的数据?
ESrUaX
从业人员早就不公布了,想做数字经济去直接用预测的数据吧
马克数据网
1、在岗职工平均人数和在岗职工工资总额这两个变量,分别是城镇非私营单位在岗职工平均人数(万人)、城镇非私营单位在岗职工工资总额(万元)。2、2020-2022年的信息传输、计算机服务和软件业从业人员数,《中国城市统计年鉴》没有公布这个数据。3、该数据不包括自治州,统计的城市为《中国城市统计年鉴》里的地级以上城市
navigateqd
请问城镇常住人口为什么会有这么多缺失值啊?
马克数据网
城镇常住人口这个指标,《中国城市统计年鉴》只在2020年公开,所以其他年份没有这个指标
cM0pTj
新产品销售收入、新产品开发经费支出为什么没有地级市层面的数据呢?
JiaS
4.2的领了 这还要重新领?
rXS5SP
请问,ARIMA填补,ARIMA是指什么方法?备注了慎用,为什么是慎用,是因为用这个方法填补后,数据不可信吗?
马克数据网
1、《中国城市统计年鉴》没有公开的数据,就没有额。2、大版本的数据更新,需要重新在底部领取数据。3、ARIMA是一种回归方法,填补版本的数据和真实数据当然有区别,数据填补的越多,失真越多。所以慎用填补数据,优先使用原始数据
4TQpzB
请问为什么第一产业就业人员比重那么多大于1的值?
马克数据网
原始数据版本中,第一产业从业人员比重最高只有80.1%,没有大于1的
YihqZw
已下单为中级会员,如何下载数据
马克数据网
中级会员及以上的用户,直接在帖子底部点击“点击领取”,会自动显示数据的下载链接
_gaoyue
GDP等数据是否经过基期价格处理?
马克数据网
是名义价格,没有经过基期处理
iC5JxD
请问领取错了怎么办,可以重新领取吗
2ixuwA
城市统计年鉴里没有的数据这个里面就没有吗(`Δ´)!
马克数据网
如果《中国城市统计年鉴》里没有的数据,这里面基本上也没有额
XPgTnp
永久会员怎么也是一个月领取一份,现在着急用数据,会员便利性体现在什么地方呢?会员机制是不是需完善一下
uuM8mF
如何获取城市数据?
马克数据网
1、中级会员以上直接在本帖子底部点击“领取数据“即可;2、所有会员的权限可参考这个说明https://www.macrodatas.cn/vip ,后期可能会开放更多,不过目前是有限制的
sethy
请问《中国城市数据库5.0版》中,2021年对应的邮政业务总量(万元)、电信业务总量(万元)、移动电话年末用户数(万户)三个变量的观测值的来源是?
aqA9v0
如何获取
马克数据网
1、2021年对应的邮政业务总量、电信业务总量、移动电话年末用户数三个变量来自《中国城市统计年鉴2022年》。2、中级以上会员,可在本帖底部直接领取数据
347H2L
如何购买
马克数据网
中级以上会员,可在本帖底部直接领取数据,会员开通页面如下: www.macrodatas.cn/vip
15517392116
为什么很多值和年鉴上有点对不上?
马克数据网
对比的年鉴是《中国城市统计年鉴》吗?数据值与《中国城市统计年鉴》是一致的,如果不一致,也可以联系客服
15517392116
请问用的哪一年的区划代码
ffRKPq
有延边朝鲜族自治州的数据吗
马克数据网
统一使用的2019年的区划代码
马克数据网
延边朝鲜族自治州不在《中国城市统计年鉴》统计范围内,所以整理的数据没有延边
18895618126
第一产业从业人员数指标不对,很多城市很多年份该指标只有几千人,一个城市从事第一产业只有几千人?是否数据单位有问题?例如1998年滁州市该指标1.41万人,1999年滁州市该指标133.6万人。近十年几乎全是几千人。
18379441897
我不懂,这更新了个寂寞,各行各业从业人数都不登上去,从19年后就不更新了。特意去查了北京市的统计年鉴和南昌市的统计年鉴,23年的从业人数都有,就是不更新,来骗会员的月度名额的是吧
马克数据网
数据与《中国城市统计年鉴》是保持一致,请先与年鉴对比。1、在《中国城市统计年鉴1998年》-分城市统计资料-就业结构中,滁州市第一产业人口占比为55.2%。在从业人员数按行业分组中,第一产业就业人数为133.57万人;在《中国城市统计年鉴1999年》-分城市统计资料-就业结构中,滁州市第一产业人口占比为5%。在从业人员数按行业分组中,第一产业就业人数为1.42万人。2、各行各业从业人数是根据《中国城市统计年鉴》-行业分组的年末城镇单位就业人员进行整理,近几年《中国城市统计年鉴》都没有更新该指标,所以整理的对应指标也会缺失
magic2024
请问何时更新到2023年的数据?
马克数据网
需要等《中国城市统计年鉴2024年》公布后,才会更新数据到2023年
LRsXAM
《中国城市统计年鉴》中有R&D人员这个指标吗?发明专利授权数是从17年才开始统计的,17年以前的是否完善?
马克数据网
1、在部分年份的“2-21科技创新情况(全市)”表中,有R&D人员和R&D经费内部支出数据。2、对于发明专利授权数,年鉴并没有公开17年之前的数据,所以之前的数据是缺失的
15517392116
搞不懂为什么年份要弄成降序的,正常不都是升序排列吗?这样横向合并都合并不了大哥
马克数据网
升序和降序没有影响,excel直接点击排序就行
66bO8Q
为什么2017年三大产业增加值占比这个数据大量缺失?
马克数据网
该数据主要根据《中国城市统计年鉴》整理,如果年鉴没有公开,整理出来的数据就是缺失
HKKiUT
新版本什么时候更新
0014
23年什么时候更新
WjXHxD
请问《中国城市统计年鉴》中金融业从业人员数这个指标从哪一年开始不更新了呀
马克数据网
最新中国城市数据库6.0版本已更新,详见: www.macrodatas.cn/article/1147473303
客服一:372574023(QQ)
客服二: macrodatas@163.com