钱钱炒股训练软件logo


投资者日度情绪、订单流不均衡与股票流动性

1 引言
Mendelson[1]指出:“流动性就是市场的一切。”流动性是衡量股票市场效率的重要维度,如果市场流动性水平下降,股票资产与现金之间交易通道将变得狭窄,甚至可能导致流动性危机。投资者情绪预示着投资者对市场未来的预期,乐观或悲观的情绪会通过影响投资者买卖行为,进而影响股票的流动性水平。特别是股票市场动荡期间,悲观情绪会导致投资者的恐慌性卖出,导致流动性的锐减,反过来流动性水平的降低又会进一步造成恐慌,并形成循环反馈效应。

股票市场流动性方面的研究成果众多,但大多关注于流动性溢价现象。针对投资者情绪对流动性的影响效应及其机理,尚未有公认一致的结论。在众多可能影响流动性的因素中,已有学者涉及到情绪影响的考虑[2]。但由于投资者情绪在数据收集和度量方面存在困难,现有研究主要从季度或月度等低频视角考察其对股票市场运行的影响。投资者情绪与股市运行具有很强的时变性,影响效应因时而异,这一系列高频时间点上的动态特征极有可能被低频数据所掩盖。

自从投资者情绪在资产定价中发挥的作用被广泛认可后,准确测度情绪并基于此模拟和预测资本市场运行便成为国内外学者研究的重点。随着Web2.0的蓬勃发展,社交媒体已逐渐演变成一种在线话语表达载体,不同主体出于各自的利益诉求,借助这一渠道以惊人的速度创建并共享内容。基于数据挖掘手段构建更高频率的投资者情绪指标,不仅有助于推动大数据与资本市场的深度融合,也对透视投资者行为如何影响股票市场有重要意义。近些年来,通过网络媒体数据挖掘并进行本文情感分析的研究日渐增加。比如Antweiler和Frank[3]利用从美国投资者在雅虎财经的网络发帖文本提取的投资者指标能够很好地预测美国股票市场收益率。Siganos等[4]利用Facebook的国民幸福指数来验证投资者情绪和股票收益的关系,发现投资者情绪确实与股票收益率正相关。Solomon等[5]将华尔街日报中的报道内容划分为积极和消极,发现投资者更倾向于购买新闻报道正面的基金。Leitch和Sherif[6]选取Twitter上2010-2015年间的文本进行情感分类,发现投资者情绪对同期股票回报产生显著的负向影响。

国内学者在这方面也做了不少卓有成效的研究,杨洁等[7]基于百度搜索引擎和股市交易数据构建实证模型,发现媒体报告可以影响股价波动的非同步性。牛枫等[8]选取中国深圳中小板上市公司为研究对象,发现IPO发行的定价会受到媒体监督的负面影响,但是媒体的积极报导可以显著地正向影响IPO的定价水平。也有学者将网络信息的数量和内容结合起来构建投资者情绪指标,比如金秀等[9]基于贝叶斯算法,从情绪基调、发帖数和点击量三个角度构建网络投资者情绪,发现情绪对下跌趋势的股票极端收益较上涨趋势有更强的预测作用。

目前多数股票流动性研究思路是分析股票收益率的流动性溢价因子[10]。此外,股票流动性的中介作用同样受到关注,Chung和Chuwonganant[11]研究了股票流动性在市场波动与股票收益之间关系中的作用,强调流动性是市场波动影响股票收益的重要渠道。也有学者关注可能引起股票流动性变化的驱动因素,这些驱动因素包括信息环境、企业经营状况等[12]。

已有学者涉及投资者情绪与流动性相关性关系的探讨,并发现情绪是影响流动性的一个重要因素。Chiu和Chung[13]发现看涨情绪可增加市场深度进而改善股票流动性,投资者交易行为和市场流动性存在不对称情绪效应。刘晓星等[14]研究了投资者行为对股票市场流动性的影响机制,发现卖空机制约束下投资者情绪会正向影响市场流动性。也有文献进一步剖析了情绪影响流动性的内在机理,比如Baker和Stein[15]认为流动性的增加原因在于非理性投资者对股票交易资金流的反应不足,乐观情绪会推动流动性增加。Asem等[16]发现,在市场情绪普遍悲观的情况下,投资者对流动性有更高的风险补偿偏好。

订单流不均衡是股票市场交易活动中的一个重要指标,通常利用买方驱动的交易额减去卖方驱动的交易额来度量,其数值正负也可以反映买卖力量的对比状况。学者们围绕订单流不均衡程度的研究主要侧重考察其与股票收益之间的关联性。Bailey等[17]研究了不同类型投资者对应的订单流不均衡如何影响股票收益,发现机构投资者产生的订单流不均衡会对股票收益造成更大的冲击。Su Yongchern等[18]研究了交易订单流、市场波动率和市场收益率三者之间日内的动态相关性,发现订单流不均衡与市场波动率显著负相关,而滞后期和当期的订单流不均衡分别对当期收益率产生负向和正向影响。

在散户占绝大比重的股票市场中,投资者普遍存在较重的逐利动机,当股票行情出现异动时,那些对行情预判能力较弱的投资者很容易受到从众心理的驱使,跟风买进或卖出股票,这在短时间内构成了市场的超额供需,促成股价的暴涨和暴跌。直观上看,股票订单流不均衡程度作为超额供需的直接表现形式,可以从方向和强度两个维度刻画某只股票的超额供需。当市场中的投资者情绪高涨时,股票买入量往往居多,订单流为正,反之为负,而绝对值大小则反映失衡程度。

总之,尽管基于文本语义分析得到的情绪指标更具精准优势,但以日度频率构建情绪的文献相对较少,且少有关注情绪与股票流动性之间的互动机理和路径。本文利用Python语言对网络发帖文本进行语义分析,在此基础上构建投资者日度情绪指标并分析其对股票流动性的影响。将订单流不均衡作为中介变量,使用面板中介效应模型来考察其是否为投资者情绪影响股票流动性的可能中介路径。进一步地,本文还考察了个股截面特征差异和卖空制度的存在,是否会对两者之间的影响效应带来异质性变化。本文可能的贡献体现在以下三点:

首先,从更高频率视角分析了投资者情绪对流动性水平的影响效应。目前多数算法提取的情绪指标多止步于月度指标,而互联网数据挖掘为直接提取日度投资者情绪指标提供了可能。本文利用财经网站的股吧发帖文本,采用情感分析算法并构建更完整的文本分析语料库来提取投资者高频情绪指标。在文本分析过程中,本文在传统语料库的基础上进一步纳入领域语料库,尽可能提高情感倾向匹配的准确度。

其次,利用链式多重中介效应检验模型,探讨了股票交易的日内订单流不均衡性在情绪对股票流动性影响中的作用。订单流不均衡不仅是股票交易中超额供需的直接表现形式,也可能是诱发市场流动性发生改变的直接原因。本文在梳理这三者之间的关系的基础上,利用面板中介效应检验模型验证了订单流不均衡在投资者情绪影响股票流动性过程中起到的中介作用。

再次,研究了股票流动性对投资者情绪的敏感度在不同截面特征的个股中呈现出的规律。本文发现,那些规模更大、账面市值比更高、风险溢价程度较低的股票的流动性变化对投资者情绪更为敏感。这些结论一定程度上填补了现有研究空白,也为有针对性地监测股市运行和监管政策的实施提供了理论依据。

2 研究设计
2.1 样本选择与数据来源
本文选取东方财富网的股吧为数据挖掘获取的平台,东方财富网的百度权重在国内财经网站中长期位居首位。由于其用户众多,使得东方财富网的股吧访问量和发帖频率远高于其他网络论坛,在保证原始数据高质量的前提下大大提高了可获取的发帖基数,为较高频率的情绪指标构建提供了便利。

本文选择沪深300指数成分股为样本,利用网络爬虫抓取2015年12月1日-2018年11月30日内,共三年时间的日度发帖。为保证实证数据可用性,剔除如下样本:①在东方财富网股吧中没有个股论坛的样本;②个股论坛中发帖日度数量少于10条的样本;③为了避免“指数效应”偏差,剔除了研究期内被调进或调出沪深300指数的样本;④在研究期内无论何种原因,停牌时间长于1个月的样本。最终获得149只样本股。实证数据来自WIND经济金融数据库,宏观经济数据来自RESET金融数据库。为了保证数据准确性和一致性,对样本观测数据又通过新浪财经、巨潮资讯网两个专业网站进行了分批核实。

2.2 文本挖掘与情感分析
2.2.1 原始数据抓取与预处理
本文在爬取网络发帖文本数据之前,设定好样本公司个股主题相关页面。首先,输入相关主题关键词,调用R中的RCurl和Rvest等程序包实现网页信息指向性抓取。为了尽可能获取更多用户的意见看法,逐次抓取“全部贴”中的历史发帖信息,获得每条发帖标题、内容、评论数和阅读量等字段,初步导出发帖6329256条。其次,对原始文本进行数据整理和清洗,排除掉冗余空格、字段、无效符号表情图片等。但在经过初步清洗后,发现仍存在少量与股票信息无关的信息。所以,在PYTHON语言中导入JIEBA进行分词操作,再导入collections模块的counter类,跟踪单词或双词出现次数,以哈工大停用词库中的停用词为参考,剔除停用词后得到排名前1000的词汇。最后,人工筛选出与股票无关的关键词,以此为依据剔除无效发帖106537条,得到有效发帖6222719条。将发帖日期与股市行情数据的日期进行匹配后共得到5284941条发帖。本文研究期内共包含了734个交易日,单个样本股论坛的日度发帖量约有50条,完全能满足数据文本分析的需要。

2.2.2 文本的情感分析与量化
本文调用Python中的中文文本类库SnowNLP来进行发帖情绪的量化。该文本词库基于词典匹配的方式,对中文文本进行分词、语料库匹配、统计单句文本中的正负面词语数,最终返回该文本情感为“正面”的概率,取值区间为[0,1]。除了SnowNLP中自带的正负面(pos和neg)评价词库之外,还选取中国知网(Hownet)情感词典和台湾大学简体中文情感极性词典(NTSUSD),联同pos和neg词库一并作为基础情感词典语料库。

考虑到股吧中发帖风格和用词的特殊性,进一步将玻森中文语义开发平台提供的BosonNLP情感词典作为领域情感词典库,它是基于微博、新闻、论坛等数据来源构建得到的情感极性词典,囊括了很多网络词汇及非正式简称,比较适合社交媒体的文本分析。接着,对以上基础词库和领域词库中的正、负向词组进行合并和消重,并筛选出同时存在于正向和负向两种倾向中的词语,进行人工分类,最终得到本文所用的词库语料。

为了验证语料库的有效性,本文随机挑选100条股吧评论,利用SnowNLP和人工对每条评论进行分类,有86条帖子的情感类型得到了正确的划分。在确保能得到较高准确率的情况下,编写循环语句对所有发帖逐条单独进行语义量化,最终获得2345762条乐观和2939179条悲观发帖。

2.3 变量设计
2.3.1 投资者日度情绪
本文通过汇总每个样本股在每个交易日乐观和悲观帖的数量,来构建投资者日度情绪指数,样本股i在第t日的投资者情绪值为:

sentimenti,t=ln[(1+posi,t)/(1+negi,t)] (1)

公式(1)中,posi,t的代表股票i在第t日的乐观帖数量,negi,t代表悲观帖数量。考虑隔夜情绪对第二天开盘的影响,统计区间为第t-1日下午3:00到第t日下午3:00。当posi,t>negi,t时,sentimenti,t为正值,反之为负值。

2.3.2 股票流动性水平
参考张峥等[19]的方法,分别使用Amihud非流动性比率、最优报价深度两个指标来衡量股票流动性,如公式 (2)、公式(3)所示:

Illiqi,t=|Ri,t|/DVOLi,t         (2)

公式(2)中,Illiqi,t为Amihud非流动性比率,Ri,t代表股票i在第t日的收益率,DVOLi,t,k为股票i在第t日的交易金额。可以看出Illiqi,t指标衡量是交易量对价格的冲击效应,Illiqi,t越大的股票流动性越小。

Depthi,t=(QBi,t
+QSi,t
)/2 (3)

公式(3)中,Depthi,t为股票i在第t日的最优报价深度,通过计算买方最高报价和卖方最低报价条件下有可能成交的交易量的平均数,QBi,t
和QSi,t
分别为在第t日最高买价下可成交的总股票数量和最低卖价下可成交的数量,以亿元为单位。与Illiqi, t不同的是,Depthi, t正向反映了股票流动性,其值越大说明能以买卖双方最优报价水平成交的股票数量越多,流动性越好。

2.3.3 订单流不均衡
对股票订单流不均衡程度界定的核心是对股票供求关系的把握。考虑数据便利性和主要数据库统计惯例,本文根据买卖盘的力量对比来计算订单流不均衡指标,其中资金流入按照主动性买盘统计,资金流出则按主动性卖盘统计,订单流不均衡为两者之差:

Cashflowi,t=(buyi,t×qb-selli,t×qs)/Mkcapi,t (4)

公式(4)中,Cashflowi,t表示第i只个股在第t日的订单流不均衡程度;buyi,t、selli,t分别表示主动性买盘和卖盘价格,qb和qs分别表示与之对应的成交订单数量;为了消除个股市值差异的影响,将交易资金流除以股票流通市值(单位:亿元)来得到最终指标,Mkcapi,t为股票i在t日的流通市值。

2.3.4 控制变量
影响股票流动性水平的因素非常多,这些因素既包括上市公司的截面特征诸如公司规模、账面市值比,也有财务变量、市场总体特征比如市场收益率等。为了降低内生性,并尽量控制遗漏变量,本文选择如下控制变量:①公司规模(Size),样本公司交易日收盘后的总市值的自然对数;②账面市值比(BM),样本公司交易日收盘后的总市值额除以当月财务报告中的净资产额;③个股收益率(Ri,t);④个股风险水平(βi);⑤市场收益率(Rmktt
),用沪深300指数日度收益率表示;⑥市场非流动性水平(Illiqmktt
),用沪深300指数日度收益率绝对值除以市场平均换手率;⑦资产负债率(Levt),上市公司期末负债总额与资产总额的比值;⑧总资产收益率(Roat),净利润与总资产的比值。在这些控制变量中,①~④属于截面特征指标,⑤和⑥属于市场整体环境指标,⑦和⑧属于财务变量指标。表1汇总了主要变量及释义。

表1 主要变量汇总及释义 导出到EXCEL


变量类型 变量名称 变量符号 释义

被解释变量
非流动性比率 Illiqi,t 反映交易量对股票价格的冲击程度,利用公式(2)计算得到

最优报价深度 Depthi,t 反映买卖双方报价的意愿对比,利用公式(3)计算得到

解释变量 投资者情绪 Sentimenti,t 利用公式(1)计算经过文本情感分析的发帖数量获得到

中介变量 订单流不均衡 Cashflowi,t 订单流不均衡程度指标,利用公式(4)计算得到

控制变量
公司规模 Size 通过公司市值衡量,获取自WIND数据库

账面市值比 BM 股票账面价值与市场价值之比,获取自WIND数据库

个股收益率 Ri,t 样本股票的日度超额收益率,获取自WIND数据库

个股风险 βi 个股贝塔系数,获取自WIND数据库

市场收益率 Rmkti
沪深300指数的日度收益率,获取自WIND数据库

市场非流动性 Illiqmktt
沪深300指数的日度非流动性,利用公式(3)计算得到

资产负债率 Levt 上市公司期末负债总额与资产总额的比值

总资产收益率 Roat 上市公司净利润与总资产的比值
2.4 实证模型
本文构建基础面板回归模型(5):

Illiqi,t(Depthi,t)=β0+β1Sentimenti,t+β2Illiqi,t−1(Depthi,t−1)+∑k=18θkControlki,t+∑Industry+∑Year+εi,t         (5)

模型(5)中,被解释变量Illiqi,t、Depthi,t分别是股票i在第t日的流动性水平;Sentimenti,t为股票i在第t日的投资者情绪。为了防止趋势性干扰,模型中加入了被解释变量的滞后一期变量。Controli,t为系列控制变量。模型中加入虚拟变量来控制行业与年度固定效应。

为了检验订单流不均衡变量是否在投资者情绪对股票流动性的影响中起到中介作用,本文参照方杰等[20]的思路,分三步构建面板中介效应模型:

第一步,根据模型(5)回归结果,判断Sentimenti,t对Illiqi,t、Depthi,t的影响是否显著,如果显著则继续后续步骤。

第二步,构建投资者情绪对订单流不均衡的影响模型:

Cashflowi,t=α1+β′1sentimenti,t+∑k=18ρkControlki,t+γi,t         (6)

模型(6)中,Cashflowi,t为股票i在t日的交易订单流不均衡程度,Controli,t为系列控制变量,具体变量同模型(5),γi,t为随机扰动项。

第三步,构建投资者情绪、订单流不均衡和股票流动性关系的中介效应模型:

Illiqi,t=α2+β′′1sentimenti,t+ωCashflowi,t+∑k=18ρkControlki,t+vi,t         (7)

模型(7)中,Controli,t为系列控制变量,vi,t为随机扰动项。判断订单流不均衡是否起到中介作用的规则如下:在保证模型(5)中β1显著的前提下,模型(6)中的β′1必须显著,模型(7)中的ω必须显著。若投资者情绪的系数β″1不显著,说明订单流不均衡起到完全中介作用;若β″1同时显著,说明只起部分中介作用。