原标题:【广发金工】基于大数据挖掘的概念轮动策略--互联网大数据挖掘系列专题之(九)
通常情况下,某个概念热点在出现上涨之前往往受到了投资者的广泛关注,投资者的情绪、对概念热点的关注程度都会对市场涨跌起到推波助澜的作用。
近十几年来,互联网得到了快速的普及和发展,极大的改变了人们的获取信息的方式。互联网上沉淀的数据呈指数型增长。根据网络搜索引擎构建的舆情数据很好地反映了投资者对于概念板块的关注度。这篇报告通过对舆情数据和概念热点之间的关系进行研究,探讨这些数据在量化研究中的应用效果。
经过相关性分析,初步得到结论:舆情数据和概念热点行情数据之间有较强的正相关关系,概念热点历史行情数据和对应舆情数据的3阶滞后有很强的正相关关系,平均相关系数达到0.43。当投资者对于某个板块的关注度急剧上升时,说明该板块是近期投资热点,如果还没出现明显上涨那么就有较大可能会在近期出现上涨。而投资者对于某个板块的关注度可以直接通过舆情数据反映出来。
对概念指数舆情数据的周涨幅设置阈值A,概念指数行情数据的周涨幅设置阈值B,跌幅设置阈值C,当满足某概念指数舆情周涨幅大于阈值A,同时概念指数周涨幅小于阈值B,跌幅小于阈值C时,在下一交易日买入该概念指数。如果一周内发出买入信号的概念指数数目较多,对概念指数作进一步筛选,固定持仓一段之间,资金等权分配于各个概念板块。
实证结果表明,从2011年-2016年回测期间,策略累计净值达到3.18,年化收益率为24.40%,胜率为58.7%。分年度表现下,每一年的表现都比较优异。最后对策略的三个阈值进行参数敏感性分析,策略结果对参数选择不是很敏感。
本报告提出的概念轮动策略基于概念指数舆情数据,舆情数据仅仅是投资者投资情绪的一个方面表现,市场行情受到其他因素影响。
、前言互联网大数据下的量化投资在撷取、管理、处理、整理等方面大大超出了传统数据库软件工具能力范围的数据集合。伴随着全球经济一体化和全球信息化的快速发展,以及互联网技术带来的信息变革,“大数据”已经成为互联网领域最炙手可热的方向。此外,大数据的影响不仅仅局限于信息技术方面,它还在“吞噬”、重建一些传统行业,如何利用大数据,开发其中的潜在价值,已经受到各行各业的广泛关注。互联网的发展也极大地改变了人们的生活方式和习惯,人们越来越习惯于通过网络搜索、了解和关注自己感兴趣的新闻、热点事件等。同时互联网技术的发展也深刻影响着人们的投资习惯以及决策。首先,互联网技术的发展,使得数据的积累呈现指数型速度发展,用户在网上产生海量数据,记录着他们的思想、行为乃至情感,这是信息时代现实社会与网络空间深度融合的产物,蕴含着丰富的内涵和很多规律性信息。通过分析相关数据,可以了解大众投资需求和意愿。其次,互联网每天源源不断产生大量数据,倘若能够更有效地组织和使用大数据进行挖掘分析,获取投资信息进行分析,将给传统的投资决策等带来新的机遇。纵观海内外,对大数据相关的量化投资策略的研究近几年刚刚兴起,但对互联网大数据相关量化策略的研究已然成为量化投资新的研究方向和热门研究领域。2011年5月,英国对冲基金Derwent Capital Markets建立了规模为4000万美金的对冲基金,该基金是首家基于社交网络的对冲基金,通过分析Twitter的数据内容来感知市场情绪,从而指导进行投资。在2012年,CAYMAN ATLANTIC公司新成立了一只基于网络社交媒体Twitter、搜索引擎Google及其他新闻媒体数据的进行交易的对冲基金。根据其官网披露的基金历史收益数据,截止2015年12月,该基金累计收益率高达63.21%,年化收益率为15.02%,在基金运行的42月中有32个月获得了正收益,亏损的10个月当中,平均月亏损为-0.45%,而获得正收益的月份中,平均月收益率为2.12%。国内各大公募基金等机构相继与互联网公司合作,推出了一些大数据基金产品,如广发基金与百度的中证百度百发策略100指数型基金、南方基金与新浪合作的大数据100指数型基金等。目前国内大数据量化产品包括了指数型、股票型和混合型基金以及集合资产管理计划等类型。
随着机构投资者对大数据这一块的重视性的逐渐加强,对互联网大数据的量化研究将更加地多样化,包括对市场的择时、行业配置、选股、热点追踪等领域,甚至是实时的大数据量化监控系统。
互联网大数据研究体系在互联网数据挖掘与研究方面,广发金工建立了完善的数据抓取平台以及对互联网大数据各个数据维度的研究视角。
广发金工研究了多个维度的互联网数据,比如从公告、财报角度研究的报告《公告披露背后隐藏的投资机会——互联网大数据挖掘系列专题之(二)》等;从股吧、社交角度研究的报告《倾听股吧之声,洞察大盘趋势——互联网大数据挖掘系列专题之(三)》等;以及从网络媒体角度分析的报告《基于互联网挖掘的热点选股策略——互联网大数据挖掘系列专题之(五)》、《基于大数据挖掘的关联个股投资机会——互联网大数据挖掘系列专题之(六)》、《基于大数据挖掘的Smart Beta策略——互联网大数据挖掘系列专题之(七)》、《多维数据下的大数据择时策略研究——互联网大数据挖掘系列专题之(八)》等。
基于大数据的研究积累,广发金工也开发了一系列的互联网挖掘小工具,包括上市公司公告抓取、研究报告抓取、搜索量抓取、关注度抓取等小工具。
样本数据由于在样本回测期间,相关的概念数据可能会比较多,在回测期间内统计所有的概念种类存在一定的难度,为了能够更好地研究概念数据与对应的舆情之前的关系以及策略的构建,本专题的概念板块数据来源于wind的概念板块的数据,一共包含安防监控指数等117个概念指数,概念指数的行情数据来源于wind的概念指数的收盘价数据,样本时间区间为2011年至2016年。相关的概念指数的历史舆情数据则通过搜索引擎、财经网站等互联网渠道获得。搜索引擎、财经网站等相关的概念数据能够很好地反映了概念热点的舆情信息。
相关性分析通过对概念热点的历史数据和概念热点历史舆情的数据进行相关性分析,得到相关的结论:概念热点历史数据和概念热点对应舆情数据在3阶滞后有很强的正相关关系,平均相关系数达到0.43,例如基因检测概念板块指数与对应的舆情指数在滞后3阶上的相关系数为0.87,是很强的相关性。
此外,本篇专题报告策略所需数据还包括样本区间的沪深300指数收盘价。本篇报告中将策略的收益表现与同期沪深300指数表现进行比较。
策略原理基于概念指数和对应舆情数据的相关性分析,发现概念指数和对应舆情数据两者之间有较强的相关性而且舆情信息的变化要先于对应概念指数的变化。当某个概念指数的舆情指数涨幅较大时,说明该热点可能是近期的投资热点,受到了投资者的广泛关注。如果该概念指数还未出现明显上涨,那么它有较大可能在未来几天出现上涨。本专题策略以周为统计区间,每个时间区间内分别统计概念指数和对应舆情数据的涨跌,为了更好地度量概念指数是否出现上涨以及涨幅,本专题策略对涨幅设置阈值。当概念指数和它对应的概念板块指数涨幅同时满足高于或低于某个阈值时发出看多信号。为了能够更好地使资金分配于未来存在较大上涨可能的概念板块,如果有数目较多(多于n个)的概念指数同时发出看多信号,作进一步筛选。将初步选择出的概念指数按涨幅排序分成三挡,同时按舆情涨幅分成三挡,选择同时满足舆情涨幅处于最大的一档,对应概念指数行情涨幅处于最小的一档。如果筛选不出概念热点,放宽对指数涨幅的限制,直至筛选出概念热点停止筛选过程。选择出概念热点后固定持仓3个交易日后平仓。等待下一买入信号发出前,持有资产。
为更清楚地理解策略,以2015年1月19日—1月26日这一时间区间为例对策略原理做具体说明。观察到在2015年1月12日——2015年1月19日时间区间内,根据概念指数的舆情涨幅大于阈值A,概念指数涨幅小于阈值B,跌幅小于阈值C的选择标准,初步选择出了黄金珠宝指数等10个概念热点,10个概念热点的历史数据如下表所示:
由于初步筛选出的概念热点数目较多,对选出的概念热点做进一步筛选,将这些热点按舆情涨幅排序分成三挡,同时按概念指数涨幅分成三挡。按照同时满足舆情涨幅处于最大的一档,对应概念指数行情涨幅处于最小的一档。如果筛选不出概念热点,放宽对指数涨幅的限制,直至筛选出概念热点停止筛选过程的选择标准,成功筛选出中日韩自贸区指数,筛选结束。筛选过程如下图所示:
选择出中日韩自贸区指数后在1月19日买入该指数,持仓3个交易日后平仓。此时等待下一买入信号发出,在买入信号发出前持有资产。本次交易细节如下:
从上图中可以看出,选择中日韩自贸区指数在1月19日执行买入后,在接下来的两个交易日均获得了正收益,累计收益率达到7.64%,累计净值由2.28增加到2.45。然后在本周剩余交易日内持有资产,等待下一买入信号发出。
实证结果策略实证的历史区间为2011年至2016年,本专题策略表现与沪深300指数历史表现进行比较,实证结果如下图所示,策略在历史回测期间内累计净值达到3.18,年化收益率为24.40%,胜率为58.7%,信息比率为1.28,最大回撤为21.20%,累计收益率为218.00%,累计超额收益率为216.99%。
概念轮动策略分年度表现,实证结果如下表所示,轮动策略表现优异,除2011年外,都取得了正的绝对收益率。分年度胜率平均上都处于50%以上的胜率。具体细节如下表所示:
经过对概念热点的筛选,每周选中执行买入的概念热点数目大都不超过5个,如下表所示:
参数敏感性测试在上述的实证分析中,策略测算统一使用相同的参数进行回测。为了更好地观察概念轮动策略对于参数的敏感性,进一步进行参数的敏感性相关的测试。接下来,对概念轮动策略在固定其中两个参数,另一个参数自由变动的不同情形下的累计净值进行了比较,其中A的范围是0.15至0.3,以0.01为公差等差递增,B的范围是0.01至0.3,以0.01为公差等差递增,C的范围是0至0.05,以0.001为公差等差递增。
上图中,横轴表示固定参数B、参数C前提下,参数A在0.15至0.3之间变动的16种情况,纵轴表示该参数设置下的累计净值,可以看到,累计净值主要分布在2~3.2之间,并且累计净值的波动不大,轮动策略对参数A不敏感。
上图中,横轴表示固定参数A、参数C前提下,参数B在0.01至0.3之间变动的30种情况,纵轴表示该参数下的累计净值,可以看到累计净值集中在2.5附近,而且累计净值的波动比较平稳。
上图中,横轴表示固定参数A、参数B前提下,参数C在0至0.05之间变动的51种情况,纵轴表示该参数下的累计净值,可以看到累计净值在1~3.2之间呈递增状态变动,且累计净值的波动不大。
对于不同的参数,设置了不同参数变动区间,从参数敏感性分析结果来看,策略对三个参数变动并不太敏感。
概念指数轮动策略是有效的择时策略基于舆情数据概念板块轮动策略,根据舆情变化和行情变化有较强的正相关关系,且舆情变化会领先于行情变化构建了量化择时策略。实证结果表明利用概念板块舆情信息作为买入信号源在历史区间内具有良好表现。基于概念舆情数据的概念板块轮动策略的要点包括:1、概念舆情能够很好地代表了舆情信息。利用网络爬虫程序抓取了概念热点相关的历史舆情数据,wind的概念指数的历史行情数据用于策略构建。2、本专题策略中对概念热点的舆情和历史数据涨幅设置阈值,当舆情涨幅和概念指数幅突破阈值时,发出买入信号买入概念指数,固定持有3个交易日后平仓,资金等权分配于概念指数。对阈值参数组合进行敏感性测试选择出了最优参数组合,同时发现策略对参数变动不敏感。研究不足与未来方向1、本专题策略假设概念指数是可以买卖的,在实际操作中需要买卖指数对应的ETF产品或者在概念指数下选择它的成分股构建投资组合。2、以一周为时间区间判断舆情和指数行情是否出现上涨,选择概念热点后持仓3个交易日,导致策略中每周可能会有1-2个交易日处于空仓日期。未来可以改进策略,在空仓日期再做相同判断,选择性买入指数,减少空仓日期,在控制住策略的回撤的同时,增强策略的收益。
本报告提出的概念轮动策略基于概念指数舆情数据,舆情数据仅仅是投资者投资情绪的一个方面表现,市场行情受到其他因素影响。
详细内容请见广发金工专题策略报告《【广发金工】基于大数据挖掘的概念轮动策略--互联网大数据挖掘系列专题之(九)》
《【广发金工】多维数据下的大数据择时策略研究—互联网大数据挖掘系列专题之(八)》
《【广发金工】基于大数据挖掘的Smart Beta策略—互联网大数据挖掘之七》
《【广发金工】基于互联网挖掘的热点选股策略—互联网大数据挖掘系列专题之五》
《【广发金工】那些年一起追过的财经小编选股策略—互联网大数据挖掘系列专题之四》
