本文是一篇经济论文,本文首先介绍了写作的研究背景和意义,通过对国内外学者关于经典时间序列方法、机器学习方法和隐马尔科夫模型方法在金融市场方面的研究成果进行归纳,并针对不同的方法具有的缺陷进行分析与总结。
第一章绪论
第一节研究背景与意义
一、研究背景
2022年3月5日,国务院总理李克强向十三届全国人大五次会议作《2022年国务院政府工作报告》,报告明确了2022年政府的工作任务,任务指出2022年经济社会发展任务重、挑战多,要着力稳定宏观经济大盘,保持经济运行在合理区间,同时要加强风险预警、防控机制和能力建设,做好防范化解经济金融领域风险防范工作。
期货作为金融市场的重要组成部分之一,与外汇市场、股票市场共同构成了世界三大金融体系。20世纪90年代初我国期货市场开始发展,相较于国外起步较晚,但随着改革开放和经济全球化的持续推进,中国经济得到蓬勃发展,期货市场发展也保持良好态势,覆盖的经济领域越来越广,交易规模也不断扩大。据中国期货业协会相关数据显示,2021年我国期货市场交易活跃,期货市场全年累计成交量约为75.14亿手,累计成交额约为581.20万亿元,成交量占到全球期货市场成交总量的12%。
国内外经济环境的变化、国际环境的变动、政府相关政策的颁布以及交易领域的不断扩大等等给期货价格带来较大的不确定性,也呈现出许多经典经济学理论所无法解释的复杂现象。期货价格作为反映期货市场的权威性指标,如果能够对其进行合理、有效的分析并预测,不仅能够指导现货生产、增加收益,还能够有效控制和规避未知的风险、了解市场动向、维护金融市场稳定。因此如何准确预测期货价格变化在理论和应用中都有重要意义。
随着人们对期货市场的认识不断加深,预测方法也多种多样并不断完善。一直以来,国内外许多学者都使用传统的计量模型对期货市场进行预测,但这种方法往往需要先对数据提出统计学假设,或者着重强调时间因素对数据的影响,这些对于期货市场这个非线性系统来说存在诸多的限制与不足。近些年来,随着互联网技术的不断更新迭代,机器学习技术逐渐走入金融市场,让计算机代替人作出交易判断。随着国内外学者对机器学习理论和实践的不断探索,机器学习算法研究和应用实现了前所未有的重要突破,相较于传统方法,机器学习表现出来的强大的表征学习能力在量化金融和风险控制等领域取得了卓越的成果,极大地推动了金融科技的发展。
第二节国内外相关文献综述
金融资产价格的分析一直是学术界重要的研究课题,随着国内外学者不断的深入探索,各类金融资产价格分析方法也层出不成穷并趋于完善。本文回顾了近几十年以来国内外学者对各类金融资产价格分析的相关文献,并从经典时间序列方法、机器学习方法以及隐马尔科夫模型方法三个方面对研究方法进行了梳理。
一、基于经典时间序列方法的研究
最早的时间序列分析可以追溯到约7000年前的古埃及,为了更好的农业生产,古埃及人关注着尼罗河的泛滥情况,通过对尼罗河每天的涨落情况进行记录,并构成一个时间序列,对记录的时间序列长期观察从而发现并掌握尼罗河的涨落规律,并把掌握的规律运用到农业中,从而促使古埃及的农业得到了迅速的发展。
自回归移动平均模型(AutoregressiveMovingAverage,简称ARMA)和差分自回归移动平均模型(Autoregressive Integrated Moving Average,简称ARIMA)最初由Box和Jenkin(1976)在其著作中提出。ARMA模型的基本思想是:一些时间序列是一组与时间t相关的随机变量,尽管构成时间序列的单个值是不确定的,然而整个时间序列的发展变化有一定的规律可循,这种变化可以用相应的数学模型对其进行粗略描述,然后通过对建立的数学模型探究分析,可以对该序列的结构和性质有更好的了解,实现对该序列的最优预测。
第二章隐马尔科夫模型原理及其求解
第二节隐马尔科夫模型原理
马尔科夫链为HMM发展奠定了基础,在HMM中,系统状态是隐藏状态而无法观测,该模型是一个双重随机过程,通过马尔科夫链生成一组随机隐状态序列,然后通过该隐状态序列随机产生一组可以观测到的可见序列,其中马尔科夫链产生的序列称之为状态序列,其内部关系通过状态转移概率来表示;观测到的可见序列称之为观测值序列,用观测概率描述状态与观测值之间的关系。HMM可以用图2-2表示:
隐马尔科夫模型包括了两个离散随机的过程,如图2-2所示Q序列和O序列,其中Q代表无法观测的隐状态,O代表可观测状态,横向箭头表示隐状态之间转换,竖向箭头表示从一个隐状态向一个可见的观测状态的输出。
本文以期货市场为背景来比较HMM与马尔科夫模型的区别,假设模型有三个状态,分别为牛市、熊市和横盘。牛市是指行情好,总体呈上涨趋势;熊市与牛市相反,指行情较差,总体呈下跌趋势;横盘是介于牛市与熊市之间不涨不跌的稳定状态。
第三节隐马尔科夫模型结构
HMM是由Markov过程和显性随机函数集组成的双重随机过程,Markov描述了一个隐状态到另一个隐状态的切换过程,显性随机函数描述了隐状态与观测值之间的转化关系,隐状态是不可观测的,且与观测值不是一一对应的关系。
根据观测序列分布函数的不同,可以将HMM两类。当观测序列为离散概率分布时为离散HMM,当观测序列分布为连续分布函数时为连续HMM。
一、隐马尔科夫模型相关变量及其假设
(一)HMM的相关变量
在期货市场中,期货的价格、波动率、交易量等交易信息都是确定且公开的,而期货市场的上涨、下跌或者稳定的状态却是不可见的。因此可以很好地将HMM于期货市场结合起来,有效的分析期货市场的波动的信息。在HMM中,通过大量确定且公开的期货价格信息序列对模型进行训练,得到该序列对应的隐状态状态序列、初始概率分布、状态转移矩阵和观测值概率矩阵,得到模型的参数后对未来交易日的价格进行预测,为投资者提供价格参考信息。
隐马尔科夫模型是一种经典的机器学习模型,由于它实现简单,计算迅速等优点被广泛应用于中文分词、信号识别、语音识别等领域。随着技术的发展,隐马尔科夫模型强大的模式识别和预测功能开始被应用到金融市场中,通过隐马尔科夫模型算法对历史交易数据进行训练,预测未来的价格趋势。
第三章传统隐马尔科夫模型的完善........................29
第一节传统隐马尔科夫模型预测方法及其不足....................29
第二节传统隐马尔科夫模型预测方法的改进.........................31
第四章基于改进HMM的期货价格预测............................38
第一节样本选取说明.................................38
第二节预测过程及结果..............................43
第五章总结与展望................................59
第一节总结...................................59
第二节不足与展望..............................59
第四章基于改进HMM的期货价格预测
第一节样本选取说明
国内学者对于股指期货等金融衍生工具的研究起步较晚,一直处于探索阶段,直到2010年4月我国内地第一支股指期货——沪深(IF)300股指期货正式登陆中国金融期货交易所上市,它的上市对于我国期货业发展具有重要意义,同时也标志着我国期货市场正式进入商品期货与金融期货的新发展阶段。沪深300指数作为我国第一支以股指期货作为标的物的金融衍生工具,它具有交易规模大、覆盖率高、选取行业范围广等特点,在规避风险,资产配置方面扮演着重要的作用。随着我国金融市场的不断完善,IF300股指期货在期货市场中的影响作用也逐渐增强,因此,对IF300股指期货深入研究对于整个金融市场具有重要的现实意义。
本文选取沪深300股指期货研究范围为2019年1月2日至2022年3月24日共782组数据作为样本,数据来源于中国金融期货交易所官方网站。沪深300股指期货部分数据样本如下表:
第五章总结与展望
第一节总结
随着我国期货市场的不断扩大,期货价格作为反应金融市场的权威性指标,合理高效的预测期货价格,无论是对于企业规避风险还是政府制定政策监管金融市场,都具有重要的指导意义。
本文首先介绍了写作的研究背景和意义,通过对国内外学者关于经典时间序列方法、机器学习方法和隐马尔科夫模型方法在金融市场方面的研究成果进行归纳,并针对不同的方法具有的缺陷进行分析与总结。然后对HMM基本理论进行详细介绍,在HMM理论基础上,针对传统HMM在金融序列预测方面的不足,对传统HMM的原始数据输入和预测方法进行改进,提出改进的HMM。选取IF300股指期货作为数据样本,通过不同比例划分训练集、区间中位数和平均数预测结果比较、传统的HMM、ARIMA、LSTM模型预测结果比较,进行实证分析后得到以下结论:
1.以7:3、8:2、9:1三种方式对样本数据进行划分,得到训练集和测试集,经过实证分析发现随着训练集划分比例的不断提高,MAPE的值不断降低。对比训练集比例为0.7,当训练集比例为0.8时,MAPE的值下降17.65%;训练集比例为0.9时,MAPE的值下降67.03%,说明随着训练集样本量的增大,模型的预测精度不断提升。
2.对比波动率区间平均数和中位数作为预测值,发现中位数预测在训练集比例为0.7时,收盘价的预测精度提高了17.87%;在训练集比例为0.8时,收盘价的预测精度提高了48.78%;在训练集比例为0.9时,收盘价的预测精度提高了32.41%,因此运用区间中位数作为预测结果较平均数而言,预测精度有所提高。
3.改进后的HMM在对期货价格