企业人工智能-年报73个词频、文本统计(1999-2023年)

会员限领
| 来源:巨潮资讯网、上市公司年报

参考《管理世界》中姚加权(2024)的做法,团队根据上市年报文本内容,对73个人工智能的相关词频进行统计,并计算上市公司-人工智能水平,包括精确词汇、扩展词汇两种方式

在前文,马克团队利用上市公司年报文本全文数据,对“人工智能”73个相关词频进行了统计,衡量上市公司人工智能水平,本次团队继续更新数据至2023年

相关数据:人工智能企业数据库上市公司年报原文数据数字化转型词频数据MD&A数字化词频数据

更新!企业人工智能-年报73个词频、文本统计

一、数据介绍

数据名称:企业人工智能-年报73个词频、文本统计

数据范围:A股上市公司

数据年份:1999-2023年

样本数量:63052条,84个变量

年报来源:巨潮资讯网

数据整理:马克数据网

数据说明:内含人工智能73个词频、精确和扩展词汇两种方式

更新时间:2024年7月

二、整理说明

➤从巨潮资讯网下载1999-2023年上市公司年报

➤将原始报告文本整理为面板数据

➤统计年报全文的文本长度

➤统计全文中,中英文部分的文本长度

➤构建人工智能术语词典,将词汇扩充到python的jieba库

➤去除停顿词,统计精确词汇、扩展词汇数目

➤计算两种方式下的人工智能水平

更新!企业人工智能-年报73个词频、文本统计

三、指标说明

股票代码股票简称年份
行业名称行业代码人工智能水平_精确词汇
人工智能水平_扩展词汇人工智能词频和_精确词汇人工智能词频和_扩展词汇
人工智能计算机视觉图像识别
知识图谱智能教育增强现实
智能政务特征提取商业智能
智能养老支持向量机(SVM)知识表示
模式识别物联网人机对话
AI产品人机交互数据挖掘
智慧银行智能客服虚拟现实
自动驾驶无人驾驶智慧金融
大数据营销长短期记忆(LSTM)智能芯片
边缘计算云计算深度神经网络
AI芯片深度学习特征识别
智能保险智能零售智能医疗
智能运输智能家居循环神经网络
大数据风控机器人流程自动化可穿戴产品
大数据平台增强智能大数据运营
机器翻译神经网络语音合成
人机协同智能农业智能音箱
卷积神经网络问答系统强化学习
大数据分析自然语言处理大数据管理
智能计算语音交互机器学习
生物识别语音识别智能监管
智能投顾智能语音声纹识别
人脸识别智能体大数据处理
分布式计算智能传感器智能搜索
智能环保

四、数据概览

企业数目

更新!企业人工智能-年报73个词频、文本统计

数据概览-excel明细

更新!企业人工智能-年报73个词频、文本统计

数据概览-stata统计

更新!企业人工智能-年报73个词频、文本统计

五、获取数据

注:该数据为马克社区高级会员-附赠数据

下载链接
需要登录后查看 点击登录
18800101955
有偿求,452936042
4JvKmP
精确词汇和扩展词汇的计算方法具体是什么?有何区别
马克数据网
精确词汇是精准的词语,没有额外的词汇;而扩展词汇需要建立一个语料库,是一定条件下的模糊匹配、包括语料库的同义词
XiaoGuo
请问结果做出来,大约用了多久
马克数据网
数个小时跑完程序
Angelocase
您好关于这个数据有一些问题,精确词汇和拓展词汇是指与文献中词典匹配方式(类似精确匹配与模糊匹配)不一样是吗,这种做法是马克数据网原创吗,还有就是最后得到的数据是根据文献的做法加一取对数了吗
马克数据网
精确词汇与文献中词典匹配方式是一样的,拓展词汇是团队原创的,与原文不一样。最后得到的数据包括词频和,也包括词频和+1的对数
18895682910
可以具体说说这个扩展词汇匹配的语料库是如何构建的吗?
马克数据网
扩展词汇需要建立一个语料库,是一定条件下的模糊匹配、包括语料库的同义词匹配
dKaw0c
请问这个人工智能水平的计算方法是什么
马克数据网
人工智能水平 = ln(人工智能词频和+1)
SWUST001
请问数据里的全文-文本总长度、仅中英文-文本总长度,是用词汇数度量的吗?中英文文本是什么意思呀
马克数据网
全文-文本总长度指的是,年报全文文本的总字数。仅中英文-文本总长度,指的是只统计了中英文部分,不包括数字、标点等特殊字符
B2Ufjx
请问拓展词汇只是多了需要建立一个语料库,是一定条件下的模糊匹配、包括语料库的同义词这一步吗
马克数据网
是的。扩展词汇只是多了这一步
zongya
这数据只到了2022年,为啥写到2023
马克数据网
数据年份范围是1999-2023年,如果是到2022年,请先确认下载的是否这份数据
客服一:372574023(QQ)
客服二: macrodatas@163.com