读书笔记_中国期货市场量化交易（李尉）02-白红宇

读书笔记_中国期货市场量化交易（李尉）02

阅读量：4294 次

发布时间：2019-05-27

本文共 955 字，大约阅读时间需要 3 分钟。

第四章基础统计模型

金融数据（问题）和传统数据（问题）差异：传统数据（时序等）更稳定，金融更博弈，高噪

对机器学习模型影响：模型简单则无法学习充分，模拟复杂则容易过拟合。（个人补充：对所有机器学习都有这个问题，但特殊在与传统问题我们人类可以取得较好结果，大多情况下，我们可以对其进行针对优化（构造特征等），而金融数据，即使我们人类也无法对其进行准确描述和建模，所以也和难优化，即使对于是过拟合还是飞过拟合都无从判断（所谓过拟合和非过拟合，不能单单通过测试集准确率-验证集准确率>0or<0判断，应为凡是测试集准确率必定高于验证集合））。

金融数据R2较低，一般采用相对性筛选，排序选最好就行了。

p和t-value：传统统计指标在金融数据中也无需太关注，由于其不满足样本的独立性和一些概率分布的假设

机器学习处理金融是过拟合了，（个人认为这也是不对的，不确定作者怎么得到这个结论的，如果是测试集准确率大于验证集，那么所有机器学习问题都过拟合了，单独对金融数据申明这一点并不合适）

对于样本外不佳的处理：l1,l2正则化

ridge：解决过拟合，去掉不重要特征（大体没问题，但需要先做标准化和归一化，作者在书中并未提到，如果不进行标准化和归一化，这么做就是错误的） lasso：解决过拟合，去掉不重要特征（这也是不对的，lasso主要是解决特征共线性的，而且lasso去掉的特征也不是不重要，而是和另一个特征高相关了，和特征本身重不重要没太大关系，对过拟合可能也有微弱削减，但削减其实依靠减少特征实现的，作用非常微弱）

第五章复杂统计模型与机器学习

（拙见：这一章整个都在验证不同算法，但实际机器学习问题，7成工作是在做特征工程，特征工程才是机器学习问题的核心，可视化，分析，转换等，但作者这里完全没有提到，只是把算法当做黑箱套用，分析出较好算法）

gbm算法，随机森林等算法

跨品种因子：把类似品种的另一个产品因子也拿过来，当做本产品的因子使用（我大不大理解，这么做意义，个人以为副作用，引入无理由的高相关特征，容易过拟合）

传统数据相对金融数据优势：传统问题稳定(人类误差低，理论上可以处理的）。数据分布一致。信噪比高（这三点非常认同）

拙见：这一章和上一章很多细节都是需要在斟酌的，不准确的信息太多了。

转载地址：http://veyws.baihongyu.com/

你可能感兴趣的文章

第四章 基础统计模型

第五章 复杂统计模型与机器学习

第四章基础统计模型

第五章复杂统计模型与机器学习