中国管理信息化
Feb.,2018V〇1.21,N〇.3
China Management Informationization
随机森林在股票趋势预测中的应用
张潇,韦增欣
(广西大学数学与信息科学学院,南宁530004)
[摘要]对于股票投资过程中的趋势预测问题,采用随机森林算法建立基于历史价量信息的股票模型。文章首先介绍了股 票技术指标,然后利用随机森林算法实现了对沪深股票的趋势预测。通过对算法分类精度和股票回测结果进行分析袁证实集 成学习算法在股票趋势预测中具有一定的作用。[关键词]集成学习算法;随机森林;股票预测
doi: 10. 3969/j. issn. 1673 - 0194. 2018. 03. 048
[中图分类号]F832.48 [文献标识码]A [文章编号]1673-0194(2018)03-0120-04
1 引言
股票市场的快速发展,使得其逐渐成为国民经济的重要支
技术指标。随后技术指标就开始在股票预测中占有一席之地。技 术指标具有三个方面的优势:第一,直观性,即使专业知识缺乏, 仍可通过技术指标对股票趋势进行判断;第二,多样性,技术指 标几乎涵盖了每一种策略;第三,统一性,所有的股票可以放同 一框架比较。
2.1本文选取的技术指标
本文的技术指标主要是在分析、归纳、总结大量文献和证券 报告后,结合价值成长投资策略(GARP)[67]选取的。GARP结合 了价值型策略和成长性策略,目的是找到价值可能被低估,实际 却在持续增长的股票。
本文选取的股票技术指标见表1。
上述16个股票技术指标涵盖了评价上市企业盈利、偿债、 成长、运营等能力的技术指标,符合GARP。技术指标不止16种, 以上16种是投资者最普遍使用的。虽然只选用16个指标具有 后验性、片面性、欺骗性,但集成学习算法较好的弥补了这些缺 点和不足。3
随机森林算法
随机森林(Random Forest,RF) [8],是基于Bagging算法的一' 种集成学习算法。训练集通过自助重抽样得到,规则为
撑。股票市场可以带来髙收益率,如何准确预测股票价格走势, 如何规避股票投资风险,如何获得最大投资收益是绕不开的问 题。股票价格作为非线性时变系统,预测难度较大。本文为了保 证稳定的投资收益,降低投资风险,采用股市中常用的技术指标 作为分析基础,利用随机森林(RF)作为算法,旨在实现对股票涨 跌的预测。
算法交易降低了投资者情绪的作用,减少了长期经验的积 累,被广泛应用于股票市场。例如:等咱1暂研究了人工神经网络 在股票分析预测中的应用,并试图设计新的网络曰张晨希等咱2]使 用支持向量机预测上市公司股票走势,并证明优于传统神经网 络曰邹阿金等[3]构建了新型的Legender神经网络,并证明可以很 好地逼近非线性系统;张燕平等咱源暂改进原有的覆盖算法,给出新 的覆盖学习算法SLA,并将其应用于股票预测;何芳等[缘]研究了 基于扩展Kalman滤波的神经网络学习算法,并证明在股票预测 中具有可行性。
本文基于集成学习算法,旨在帮助初人股市的人判断股票 的未来涨跌趋势。具体研究内容如下:第一,本文首先从常用的 技术指标出发,阐明了技术指标在股票预测中的作用。第二,介 绍RF算法,并与技术指标结合进行建模。第三,在实证中发现
CART算法,特征选择采用随机的方法。RF包含了 Bagging、 CART、随机特征选择等几个算法,噪声容忍能力强,分类效果
突出。
3.1 Bagging 算法
RF在预测股票涨跌上还是有一定的帮助的。实验的同时也验证
了本文提出的方法对股票交易具有一定意义的预测指导作用。2
技术指标
16年Charles H.Dow提出股价平均指数,这是第一个股票
Bagging算法[9]的原理是:设原始的样本集为S,有放回的抽
样得到的训练集为T-.,,,其中T,,,和S的元素个数相同。
若选用的抽样方法为Bootstrap,则S中没被抽取到的样本
[收稿日期]2017-12-22
[基金项目]国家自然科学基金资助项目(11161003)。
[作者简介]张潇(1991-),女,硕士研究生,主要研究方向:金融数 学,最优化;韦增欣(1962-),男,教授,博士生导师,主要研究方向:最优 化理论与方法,金融投资理论与技术分析(通讯作者)。
概率是(1-上).〜,其中N为S的样本总数。已知(1-1).〜抑0.368,
n n所以S中的样本大约有37%不会被抽到。没抽到的数据成为袋 外数据曰袋外数据一般用来估算模型的性能,即00B估计™。使
120 / CHINA MANAGEMENT INFORMATIONIZATION金誠与投资
表1本文选取股票技术指标
序号
12345678
技术指标净资产收益率总资产净利润率
流动比率随机指标市盈率市净率每股收益对数流通市值
简称
序号910111213141516
技术指标营业收人增长率存货周转率总资产周转率总资产增长率速动比率动向指标相对强弱指标平滑异同移动平均线
简称
ROEROACRKDJPEPBEPSLFLO
Increase Rate of Main Business Revenue
Inventory Turnover RatioTotal Assets Turnover RatioTotal Assets Growth Rate
Quick RatioDMIRSIMACD
已知Bagging方法适用于对于不稳定的元学习算法,因为
用00B能够得到泛化误差的大小和单个特征的重要程度。设栽 轮训练之后,分类器序列为[/!,/2,…,/t.丨,该序列构成了多分类器 的模型,分类结果的获取对于分类模型来说可以采用简单多数 投票法或平均法。
Bagging通过降低方差减小泛化误差,处理不稳定的元学习算
法,预测函数的偏差偏小,方差偏大。CART作为元学习算法是不 稳定,故RF算法通过自助重抽样法得到不同训练集的方法,不 仅降低了方差,还降低了的泛化误差。
Bagging处理多分类问题的预测准确率是由元学习算法的
稳定性决定的,见图1。
样本
训练集
\\|---------------1训练1样本采样集r -----图 1 Baf
3.2随机森林
弱学习器r
ng原理图
上,PE*会处处收敛于院
Pt,y((怂(澡(曾,兹)-赠)_皂屹曾怂(澡(曾,兹)=/))<〇 )
(1)
RF由喳澡(曾,兹.),噪=1,…丨组成,其中元分类器澡(曾,兹噪)表示 CART。首先通过随机有放回的方式得到每棵单棵树的训练集,
然后利用随机特征选择进行曰最后针对每棵树的输出结果 来确定最终RF的输出结果。确定最终输出结果的方式有两种, 一种是用于分类的简单多数表决法,一种是用于回归的简单平 均法。
在RF模型条件下的单棵树构造过程院(1)使用Bagging的 方法产生训练数据集。(2)内部节点的采用随机选择特征的 方法。(3)每棵树在生长过程中不实行剪枝操作。3.2.1随机森林的泛化误差
没有通过自助重抽样成为训练集的样本常估计模型的泛化 误差。泛化误差以大数定律作为基础,通过定义间隔函数得到。
其中,兹表示每棵树对应的随机向量,澡(曾,兹)表示曾和兹的 分类器输出。随着森林中树的数目增多,森林不会出现过拟合现 象,而是趋向于一个有界的泛化误差值。
证明对于分类器喳澡i(曾),澡2(曾),…,澡晕(曾)!,x为输人向量,y 为输出变量,定义(曾,赠)的间隔函数为院
mg(x,赠)=avkI(澡噪(曾)=赠)一max avkI(澡噪(曾)=j) (2)
其中,陨(•)为示性函数,avk (•)为取平均值。函数间的差值越 大,分类器在分类过程中效果越好。分类器的泛化误差为:责载,再(皂早(曾,赠)<0),载,再表明概率由载,再空间得出。3.2.2随机森林的优缺点
RF拥有组合分类器的性能,使用Bagging随机抽取训练样
本且随机选择特征。RF的优点:(1)00B估计可以很好的估计模 型的泛化误差和每个特征重要度。(2)能够处理所有属性取值的 情况。(3)对数据噪声有很好的容忍能力。(4)RF在处理规模较
RF中泛化误差与每棵树的分类情况及树之间的相关度密切相
关,随着树的数目增多,泛化误差会增大并收敛于一个有限的上 界。
定理:11:树的个数在达到一定程度后,在所有序列集兹,…
CHINA MANAGEMENT INFORMATIONIZATION / 121
金融与投资
大的数据时有较高的预测准确率且可以解决过度拟合。RF的缺 点在于对部分特征确实不敏感。4
预测模型
将上文中的16个技术指标作为训练因子,获取2015年1 月1日-2017年1月1日的技术指标数据和股票收益。以5天为 一个周期进行计算。
通过测试得到,每个周期随机森林对股票涨跌的预测精度 如图3所示。
4.1数据的预处理
股票数据是有噪声而且有缺失的,不能够直接进行数据分 析,需要将原始数据进行标准化,清除、纠正有问题的数据。
对于股票中的噪声,利用数据平滑法进行处理。由于随机森 林善于处理离散值,所以需要对数据进行规范化,本文将所有数 值映射到[-1,1]。以MACD为例,为了使得算法能够识别拐点, 设定当快速线(DIF)向上突破慢速线(DEA)为1,当快速线(DIF) 向下突破慢速线(DEA)为-1,其他为0。
图2展示了 2015年1月1日至2015年3月21日沪深300 的MACD,处理后数据更容易被算法所识别,所有指标数据都会 做类似处理,此处不再赘述。
2015^)2-02 2015-04-292015-08-24 2015-11-192016-02-23 2016-05-132016-08-03 2016-11-04
图3随机森林预测精度
取预测精度的平均值0.41,方差0.07,可以看出股票的预测 精度较高,能够很好的预测股票的涨跌情况。4.3股票回测
本文选取2015年1月1日至2017年1月1日对沪深300 股票进行回测。选择沪深300是因为(1)它包含了 300只A股, 是我国A股市场的核心指数,具有较高的代表性;(2)反映了股 票价格变动的主要趋势,包含13个行业,占股票市场70%.左右 的市值,具有很好地投资性。
回测结果如图4所示。
从图4中可以看出,该策略的年化收益率高于基准年化收 益率35.3%,夏普比率为1,贝塔为0.65,表示策略风险回报较 高。最大回撤为21.5%,反映了组合与最高点的亏损率较低。收 益波动率为28.6%.,资产收益的不确定性较弱。阿尔法为33%.,
实际回报比预期回报存在较大差异。总的来说该策略具有不错 的超额收益。5
结语
本文通过价值成长投资策略选取股票技术指标,然后利用
INFORMATIONIZATION122 / CHINA MANAGEMENT 2018年2月第21卷第3期
中国管理信息化
Feb.,2018V〇l.21,N〇.3
China Management Informationization
我国地方财政绩效管理研究
张雯倩
(南京审计大学,南京211815)
[摘要]如今,各地财政收支矛盾逐渐显现出来,为了让财政资金的使用更有效率和效果,财政绩效管理日益受到重视。通 过对部分西方国家的学习,结合我国的基本国情,我国的地方财政支出绩效管理也得到了一定程度的发展,具有一系列 量化考核标准,但是仍存在些许不足,有待完善。文章对我国地方财政绩效管理的发展历史、我国地方实施财政绩效管 理的必要性、现状、存在问题进行分析,并提出相应建议,以期推动地方财政绩效管理进一步发展和完善。[关键词]地方财政;绩效管理;财政管理
doi: 10. 3969/j. issn. 1673 - 0194. 2018. 03.049
[中图分类号]F812.2 [文献标识码]A
[文章编号]1673-0194(2018)03-0123-03
0 引言
跨人新世纪以来,我国财政支出增长迅速,且逐年递增。随
分重视政绩,从而将财政资金砸在所谓的“大工程”上,而当地老 百姓最需要的东西反而被忽视,迟迟得不到解决。地方对财 政管理的概念仅仅停留在浅层次的“合规”上面,导致了财政资 金的浪费。
1.2地方财政收支矛盾日益激烈
地方财政收支矛盾,究其原因,很多人认为是地方的财 权和事权不对等导致的,但是财政资金缺乏绩效的管理和运用 才是其本质原因。对财政资金进行绩效管理,对地方的财权 和事权进行合理的规划,使每一分钱都“花在刀刃上”,将有效缓 解地方的财政收支矛盾。1.3有效提髙公共财政管理效果
财政合规管理强调符合法律法规,强调财政支出过程而非 结果,而财政绩效管理则曾终于财政支出结果和产出,强调效率 和效果。如果二者能有效结合,则会进一■步提髙工作效率和
着财政支出的增长,与之相应的,公民对财政支出绩效管理的关 注度也越来越髙。
财政绩效管理,英美加澳等国家起步较早,我国起步较晚, 尚存很多不足,但发展速度很快,2014年3月,财政部印发了《地 方财政管理绩效综合评价方案》,该方案采用百分制评分原则, 涉及实施透明预算、规范预算编制等多项指标。财政部发布的 《方案》虽然受到质疑,但是使用了大量的经济指标,标志着我国 地方财政支出绩效管理逐渐向深层次推人。1
我国地方进行财政绩效管理的必要性
地方过分重视GDP的增长,过分重视“形象工程”,过 [收稿日期]2017-11-23
1.1财政资金浪费严重
效果。
随机森林预测股票的涨跌趋势,最后进行回测。结果表明随机森 林在股票涨跌预测中具有一定的作用,策略回测具有不错的收 益。随机森林作为集成学习算法,能够处理规模较大的数据,预 测准确度髙,噪声容忍度强,非常适合股票数据处理。
[5] 何芳,陈收.基于扩展Kalman滤波的神经网络学习算法在股票预测 中的应用[J].系统工程,2003,21(6):75-79.
[6] 陈光兴,张一明.浅谈价值成长投资策略在中国股市的适用性[J].经 营管理者,2010(24):8-8.
[7] 王丽.我国A股市场价值成长投资策略及其有效性实证研究[D].无 锡:江南大学,2016.
[8] Brciman L. Random Forest泽[J]. Machine Learning,2001,45(1): 5-32.[9] Brciman L, Last M, Rice J. Random Forests: Finding Quasars [M]//
主要参考文献
咱1暂,陈勇.人工神经网络之股票预测[允]援计算机工程,1997⑵:缘2-5缘.[2] 张晨希,张燕平,张迎春,等.基于支持向量机的股票预测[J].计算 机技术与发展,2006, 16(6):35-37.
[3] 邹阿金,罗移祥.蕴藻早藻灶凿藻则神经网络建模及股票预测[J].计算机仿真, 2005,22(11):241-242.
[4] 张燕平,张铃,吴涛,等.基于覆盖的构造性学习算法SLA及在股票 预测中的应用[J].计算机研究与发展,2004, 41(6):979-9愿4.
Statistical Challenges in Astronomy.NewYork,NY : Springer,2003 : 243 -
2.
[10] 李毓,张春霞■基于out^f-hag样本的随机森林算法的超参数估计[J].系统
工程学报,2011,26(4):566-572.
[11] 康雅文■基于随机森林的医疗行业供应商的等级评估模型[D]■合
月巴:安徽大学,2017.
CHINAMANAGEMENTINFORMATIONIZATION / 123
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igbc.cn 版权所有 湘ICP备2023023988号-5
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务