博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
读书笔记_中国期货市场量化交易(李尉)02
阅读量:4294 次
发布时间:2019-05-27

本文共 955 字,大约阅读时间需要 3 分钟。

第四章 基础统计模型

金融数据(问题)和传统数据(问题)差异:传统数据(时序等)更稳定,金融更博弈,高噪

对机器学习模型影响:模型简单则无法学习充分,模拟复杂则容易过拟合。(个人补充:对所有机器学习都有这个问题,但特殊在与传统问题我们人类可以取得较好结果,大多情况下,我们可以对其进行针对优化(构造特征等),而金融数据,即使我们人类也无法对其进行准确描述和建模,所以也和难优化,即使对于是过拟合还是飞过拟合都无从判断(所谓过拟合和非过拟合,不能单单通过测试集准确率-验证集准确率>0or<0判断,应为凡是测试集准确率必定高于验证集合))。
金融数据R2较低,一般采用相对性筛选,排序选最好就行了。
p和t-value:传统统计指标在金融数据中也无需太关注,由于其不满足样本的独立性和一些概率分布的假设
机器学习处理金融是过拟合了,(个人认为这也是不对的,不确定作者怎么得到这个结论的,如果是测试集准确率大于验证集,那么所有机器学习问题都过拟合了,单独对金融数据申明这一点并不合适)
对于样本外不佳的处理:l1,l2正则化

ridge:解决过拟合,去掉不重要特征(大体没问题,但需要先做标准化和归一化,作者在书中并未提到,如果不进行标准化和归一化,这么做就是错误的) lasso:解决过拟合,去掉不重要特征(这也是不对的,lasso主要是解决特征共线性的,而且lasso去掉的特征也不是不重要,而是和另一个特征高相关了,和特征本身重不重要没太大关系,对过拟合可能也有微弱削减,但削减其实依靠减少特征实现的,作用非常微弱)

第五章 复杂统计模型与机器学习

(拙见:这一章整个都在验证不同算法,但实际机器学习问题,7成工作是在做特征工程,特征工程才是机器学习问题的核心,可视化,分析,转换等,但作者这里完全没有提到,只是把算法当做黑箱套用,分析出较好算法)

gbm算法,随机森林等算法
跨品种因子:把类似品种的另一个产品因子也拿过来,当做本产品的因子使用(我大不大理解,这么做意义,个人以为副作用,引入无理由的高相关特征,容易过拟合)
传统数据相对金融数据优势:传统问题稳定(人类误差低,理论上可以处理的)。数据分布一致。信噪比高(这三点非常认同)
拙见:这一章和上一章很多细节都是需要在斟酌的,不准确的信息太多了。

转载地址:http://veyws.baihongyu.com/

你可能感兴趣的文章
第一天上班没精神
查看>>
启动eclipse报错:Failed to load the JNI shared library
查看>>
eclipse安装插件的两种方式在线和离线
查看>>
linux下源的相关笔记(suse)
查看>>
linux系统分区文件系统划分札记
查看>>
Linux(SUSE 12)安装Tomcat
查看>>
Linux(SUSE 12)安装jboss4并实现远程访问
查看>>
Neutron在给虚拟机分配网络时,底层是如何实现的?
查看>>
netfilter/iptables全攻略
查看>>
Overlay之VXLAN架构
查看>>
Eclipse : An error occurred while filtering resources(Maven错误提示)
查看>>
在eclipse上用tomcat部署项目404解决方案
查看>>
web.xml 配置中classpath: 与classpath*:的区别
查看>>
suse如何修改ssh端口为2222?
查看>>
详细理解“>/dev/null 2>&1”
查看>>
suse如何创建定时任务?
查看>>
suse搭建ftp服务器方法
查看>>
centos虚拟机设置共享文件夹并通过我的电脑访问[增加smbd端口修改]
查看>>
Socket深度探究4PHP(三)
查看>>
可继承扩展的单例实现
查看>>