- 选题背景和意义:
股票市场是一个非常复杂的非线性系统, 现在的散户个体想从股市中获益需要同时关注多支股票的状况,而其中需要了解的信息有俩点,一是这只股票是否是一支好的股票(或者相对平稳的股票),二是我未来能从中获益多少。就股价预测而言,大多数基于深度学习的股价预测并没有着重考虑影响因子的选择,很多神经网络中所运用的影响因子都是基于主成分分析法或者公司财报,或者干脆就是个人的感觉。这其中带来的误差和不确定性非常之大,很可能会使得股价的预测出现极端情况(比如预期中的一只股票应该表现为绩优股,但是实际上的表现却有着极大的反差),在这一点上,学者们大多数是通过优化模型参数选择,比如说通过改变神经网的结构、传递层数以及传递节点数来改进,但是这其中没有很强的数学理论支撑。而且参数往往选取也是有极高的主观性。本课题将分为俩个部分,一个是通过随机森林模型选择股票,一个是根据得出的“选择指标”以及“好的股票(绩优股)”利用LSTM神经网络对特定的股价进行预测。这样不仅可以为投资者提供多方面的择股信息,而且在神经网络的参数选择上也是有了更多的客观性和可信度,从而达到真正能够提出有效投资策略建议的效果。
- 课题关键问题及难点:
第一个难点在于随机森林在择股模型中的构建,因为随机森林虽然具有较高的效率与精度,但是针对大样本则会因为构架的森林过于庞大而导致程序效率低下以及耗时长。同时,学界对于分类问题的处理一般是采取SVM模型结合主成分分析法,但是SVM模型无法处理股票数据中常见的缺省值,并且主成分分析方法有极高的主观性,很容易造成不必要的误差。
所以需要考虑如何优化改进随机森林,或者结合随机森林算法和SVM进行建模。
第二个难点在于数据的处理,在第一部分模型构建完成的情况下,股价的数据库相当庞大,单单公司财报中的影响因子就有很多,需要通过算法进行筛选,降噪,以及归一化处理。
第三个难点在于LSTM神经网络的构造,LSTM不仅继承了RNN神经网络的时滞性(即前一个时间点的承接层会同时影响下一个时间点的输出权重)的特点,而且在此之上将承接层进行了更加细致的划分,对于数学理解、建模、和编程能力都具有极高的挑战。
- 文献综述(或调研报告):
在过去的二十年中,我们见证了中国股市的快速发展。最明显的成就在于上市公司数量的增加和融资规模的增加。另一方面,问题也很明显:主观性,盲目性和投机性是中国股市的主要障碍。理性投资是必需的,理性投资定量投资的基本理论包括两部分:选股和时间选择。而在选择股票之后,对于可能股票的利润数值估计也相当重要。
首先是股票选择,择股主要是关于如何适当选择高质量的股票。优质股票是指成长性好,投资回报率高,抗风险能力强的股票,所有的投资者和机构都希望投资于优质股票。在整个中国股票市场中,个人投资者占投资者总数的主要部分,它们在股票市场中具有明显的分类,称为“零售市场”,而选股方法主要基于这种“特殊”类别。由于股票市场的复杂性和多样性,有许多因素影响着股票的选择,例如政治事件,公司政策,利率,投资者心理,公司财务状况等。因此,建立选股模型非常重要。许多学者基于不同的方法建立了不同的选股模型,而目前主要集中在主成分分析法,模糊层次分析法等方面。例如,何霞(2011)等人使用模糊层次分析法(FAHP)[1]对投资项目中的股票质量进行排名和评估,从而建立了股票选择模型。刘洋(2016)等[2]。但是,股票市场是一个非线性系统,上述方法更适合处理线性和低维数据,因此处理非线性和高维数据的效果往往不是很好。近年来,随着机器学习理论的发展,软计算方法已广泛应用于股票市场中。学界已经提出了越来越多的用于非线性和高维数据的新方法。主流的算法集中在神经网络和SVM等方面,比如冯连子(2016)等人将主成分分析与BP神经网络相结合来预测股价。但是这些方法过于主观,会丢失重要信息。然而,在医学,图像处理等领域,面对高维数据,随机森林被用来筛选特征变量[4]。例如,梁福芳(2017)和杨迪(2017)将随机森林与支持向量机(SVM)结合用于癌症数据分析和食物图像识别,极大地提高了训练速度和识别精度。所以可以在择股方面考虑类似的运用,即利用SVM和RF算法的结合来减少主观因素对选择因子的影响。
而在预测股价方面,现如今行业内运用较多且比较成熟的是LSTM神经网路,学界中也有很多的预测研究利用了RNN,ELMAN[5]神经网络,但是模型中结构层次相对简单,在处理多变量影响的复杂神经网络前其预期效果颇有折扣,而[6]LSTM神经网络则在原本单一的承接层次中加入了新的4层传递模型,这使得其灵活性与兼容性大幅度地提升了,所以本课题将使用LSTM神经网络模型,结合之前RF算法所得出的影响因子进行更为精准的预测。
[1] He Xia, Liu Weifeng. Stock selection decision based on fuzzy analytic hierarchy process [J]. Journal of Changchun University, 2011, 21 (06): 43-46.
[2] Liu Yang, Xia Siyu, Hu Sirui, Lin Siliang. GARP Quantitative Stock Selection and Markov Chain Timing Strategies [J]. Finance and Economics, 2016 (05): 66-71.
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。