上市公司年报作为资本市场重要的信息披露渠道,所蕴含的文字内容往往透露出企业管理层的态度与市场预期。通过对年报文本的情感分析,可以量化企业语言中的积极性或消极性,为投资者提供非结构化信息解读的补充视角
本数据收集了4815家上市公司2010-2024年的年报文本,并基于自然语言处理技术提取情感词汇,最终得到5w+涵盖正负面词汇数量、句子数、总词汇数等多项指标的情感语调数据
一、数据介绍数据名称:上市公司年报情感语调数据
数据范围:上市公司
数据年份:2010-2024年
数据格式:面板数据,excel
数据来源:马克社区用户
二、数据指标字段名称 | 字段说明 |
Symbol | 股票代码 |
stkcd | 公司代码 |
year | 年份 |
ShortName | 公司简称 |
IndustryCode | 行业分类代码 |
IndustryName | 行业名称 |
正面词汇数量 | 年报中积极词汇的数量 |
负面词汇数量 | 年报中消极词汇的数量 |
总词汇数量 | 词汇总量 |
句子数量 | 年报句子数量 |
文字数量 | 年报中文字总数 |
情感语调1 | 正面词汇数 / 总词汇数 |
情感语调2 | (正面词汇数 - 负面词汇数) / (正面词汇数 + 负面词汇数) |
参考《财经研究》期刊钟凯等(2021)的研究方法,基于文本情感分析理论构建两个核心指标:
情感语调1 = 正面词汇数 / 总词汇数
情感语调2 =(正面词汇数−负面词汇数)/(正面词汇数+负面词汇数)
钟凯, 董晓丹, 彭雯, 等. 一叶知秋:情感语调信息具有同业溢出效应吗?——来自业绩说明会文本分析的证据[J]. 财经研究, 2021, 47(09): 48-62.
五、数据概览2010-2024年上市公司年报情感语调数据概览图