本文是一篇金融证券论文,本文的目的是探索使用分析师的目标价格作为股票选择信息的来源,并使用随机森林算法建立投资模型并获得超过市场基准的收益。研究结果表明,研究报告中包含的信息可以预测未来的股价变化,也能说明随机森林能够很好地应用于复杂关系模型的建立。
第一章 绪论
1.1 研究背景及研究意义
随着计算机科学和现代金融理论的发展,已经出现了借助计算机技术和数学方法实现证券投资组合和自动交易构建的量化投资技术。在信息量不断增加的背景下,要依靠投资者在有限的时间内进行积极的投资来获利是极其困难的,而量化策略可以不断拓宽决策运算的边界,从而实现超越市场水平的收益。在量化投资策略中,因子策略是其中的重要方向。其核心首先是选择适当的因子并进行表达,其次是构建因子模型获取超额收益。当前绝大部分的量化策略可分为基本面量化和技术面量化两种类型,传统的基本面量化的主要逻辑是通过对标的公司本身的数据进行分析,从而找出具有发展潜力的公司,这种方法的问题在于使用的信息都是已发生的历史信息,而股价的决定因素往往来自于未来的信息;而技术面量化则依赖于对各种实时指标的分析从而推测出投资者状态,进而在合适的时点买卖从而获取超额收益,由于市场的有效性提高,通过这种策略获得收益的难度也越来越高。
量化投资最早可以追溯到格雷厄姆和戴维多德的《证券分析》中,作者认为,通过分析股票的客观财务指标,可以发现具有未来增长潜力的股票。随着计算机技术的发展,投资者可以使用设计和编程来代替财务分析中的人,避免人的主观性。从业者通常采取各种定量分析方法,如统计学、数学金融、行为金融、自然语言处理、机器学习方法等。一些著名的公司包括 Euclidean Technologies 等是使用机器学习进行量化投资的典型案例。
传统的有效市场理论将市场有效性分为弱势有效、半强势有效和强势有效。当前国内的股票市场一般被认为是半强势有效市场。在该前提下,技术分析无效,股价由股票的基本面信息决定,股价的变动往往取决于股票基本面的变动,此外提前得知内幕消息也可以获得超额收益。因此如果能够判断一支股票未来基本面的变化情况则可以提前买入并在之后获得高于市场的超额收益。传统的基本面量化多数基于股价的历史信息,但历史信息并不能代表股价未来的变动趋势,相对来说,分析师是资本市场非常重要的信息中介之一。
..............................
1.2 研究思路与方法
本文通过搜集带有目标价的研报信息,并填补相应的目标公司、目标券商、研报信息、市场行情等相关信息,使用随机森林模型来建立多因子选股模型。原则是要考虑不同因素与分析师预测准确性之间的关系,从而确定公司将来突破目标价的可能性。进而根据得到的概率筛选出具有投资价值的股票投资组合。从而获得超额收益。
本文选取 A 股市场 2015 年至 2019 年全部给出目标价的研报,选取行情因子、公司基本面因子、投资者行为因子、研报特征因子、股票市场风格因子、研究机构特征因子六大类作为因子池,考虑到季报发出时间的信息含量,以季度作为样本分割标准,以研报达成目标可能性对应构造训练样本。首先进行数据预处理,之后通过 RandomSearchCV 进行模型超参数优化,并且选取最佳训练窗口长度。以训练期下一个季度的样本进行回测。对模型进行滚动训练,选取每个季度预测的未来最可能上涨的十只股票。采用总收益率、年化收益率、夏普比率等指标对模型的强度进行判断。最后采取一些额外的优化方法,将得到的结果与原始结果进行比较,从而探讨不同的情况对模型强度的影响。
..............................
第二章 相关理论与文献综述
2.1 文献综述
2.1.1 分析师预测准确性影响因素研究
对于分析师预测准确性的研究主要集中在分析师所在公司的特征、分析师自身及研报的特征、标的公司的特征等,其余还考虑了宏观因素、市场制度改革以及投资者的行为等因素。
从宏观因素的影响来看,现有研究表明,经济政策的不确定性会大大降低预测的准确性,如戴泽伟和杨兵(2020)使用 Baker 构建的经济政策不确定性指数研究经济政策不确定性与分析师准确性的相关关系,发现宏观经济政策不确定性会降低盈余预测准确性。钟覃琳和刘媛媛(2020)进行了进一步的研究,发现分析师报告在经济政策不确定强的时期具有更高的信息含量,且政策波动对报告的影响主要集中在非国有和高成长性企业当中。
从分析师的角度来看,分析师所在券商对于预测准确性有明显影响,如高祥(2019) 发现影响显著的评级变动一般来自规模较大、研究实力较强及上榜新财富多的券商机构。Elisabeth Kempf(2020)发现承销规模更大的投行可能聘请预测准确度更高的分析师。分析师的声誉本身也会作用于研报的市场影响,如金瑾(2017) 研究了声誉与超额收益率之间的影响,发现证券分析师可以通过声誉在短期内影响市场,但无法为投资者带来超额收益。但赵留彦和宁可(2020)发现上榜新财富的分析师所做的评级上调总体上具有良好的投资参考价值,但取消了新财富后分析师的勤勉工作程度和荐股能力有所下降。与之类似,周豫(2016)使用Logit 模型发现新财富上榜分析师拥有更多的信息优势,是更好地信息参照。从分析师自身能力的角度来看,分析师的专业能力越强则预测能力越强,如 Itzhak 等(2019)发现内部人员在专业知识领域内拥有卓越的交易技能,这种技能源自于选股能力而不是择时,而且往往集中在最难以评估的股票上。Keming Li(2020)也研究了分析师覆盖范围对预测准确率的影响,发现分析师的覆盖范围对分析师预测准确性有显著的相关性,而且这种影响在市场衰退或不确定性影响较高时更大。施然(2020)也发现了分析师经验与准确性之间的正相关关系。
图 2.1 随机森林原理图
.....................
2.2 相关理论
2.2.1 有效市场假说
有效市场假说由尤金法玛于 1970 年提出,其本质是讨论市场有效性的界定标准。衡量证券市场的外在效率有两个重要标志:一是价格能否根据相关信息自由变动,二是证券的有关信息能否充分地披露和均匀地分布,使每一个投资者都能获得同样的信息。市场的有效性越强,则以上两个条件满足的越充分。根据以上假设,投资者在买卖股票时能够立即运用所有的信息,导致所有过去影响股价的信息都已经反应在股票价格当中了,从而得出技术分析无效的结论,这时候的市场已经达到了弱势有效市场。当股票价格充分反映了所有的公开资讯,投资者无法用基本面分析技术来获取超额收益,这时候的市场已经达到了半强有效市场,此时无法再依赖财务报表、经济情况、政治形式等等进行股票的未来价格预测。在一个强大而高效的市场中,有关股票的所有公开和未公开信息已反映在股票的价格中。此时市场已达到强势有效,内部信息不再能够获得超额收益。CAPM 模型由威廉夏普、林特尔、特里诺、莫辛等人在现代投资组合理论上发展起来,它是现代金融市场价格理论的核心,并广泛用于投资决策和公司财务管理,CAPM 主张投资组合的回报只与系统性风险有关,因为该组合的风险已经得到尽可能的分散,非系统性风险已被消除。但该理论的成立有大量假设前提。因此在实际中并不能验证历史的投资收益。随着时间的流逝,CAPM 推导了 APT 理论和最新的 FAMA-FRENCH 三因素模型。
EMH 的支持者认为,被动投资组合具有更多优势,而 EMH 的反对者则认为,投资者可以依靠自己的能力来击败市场。EMH 的争议很大,并且引起了更多争议,这也导致了后期行为金融的兴起。尽管学者引用了许多支持 EMH 的证据,但沃伦·巴菲特(Warren Buffett)等长期投资者一直在击败市场。根据 EMH,这是不可能的。此外,1987 年的股市崩盘也证明了股票价格可能存在严重的泡沫,导致其偏离其公允价值。实际上,专家的独特能力可以在一定程度上获得超过市场平均水平的信息,从而击败市场上的其他参与者以获得超额收益。
...........................
第三章 理论模型、数据预处理与因子筛选 ................................ 16
3.1 理论模型构建....................................... 16
3.2 数据预处理.......................... 17
第四章 基于随机森林的分析师预测准确性模型构建 ........................... 20
4.1 超参数优化..................................... 20
4.2 选取最佳训练窗口.............................. 20
第五章 模型改进与优化 .................................... 24
5.1 调整组合构建方法 ....................................... 24
5.2 调整调仓周期......................................... 25
第五章 模型改进与优化
5.1 调整组合构建方法
由于本策略持股期限中,若仅使用均分持股的策略,则在同一期未发现优秀研报前及标的股票止盈后就不再有投资标的,导致资金有较长的空置期,因此引入资金无限制的条件,在研报发出日时将全部资金持有一只股票,后续研究报告中包含的其他股票在当日用同等规模的资金进行投资,此时股票每日的平均收益率为正在持仓的所有股票的均值。则可得到以下投资绩效,并得到收益率曲线,如表 5.1所示。
表 5.1 调