七三笔记

特征提取概述

总体

 
特征提取，是将原数据的特征，以线性的方式表示

func1(x) = a1 
func2(x) = a2
... 
funcn(x) = an 

func是提取特征的方法，可以是线性，也可以不是，
提取的结果，a1,a2,...,an 是线性的，形成特征向量(a1,a2,...,an)

细节技巧

 
时间的不确定性，可以转化为时间差，时间比

 
长度的不确定性，可以用差，比值来表示，或者其他方法表示

 
数据的重复，冗余，可以使用分帧，采样的方式

要有一套标准，确保采样后的数据，具有原数据同样的规律

 
数据的前后依赖关系
如果数据有前后依赖关系，那么可以考虑使用擅长处理序列类的模型，比如，RNN
同样的，也可以人工将前后依赖关系提取成独立的特征，
让所有模型都能训练，这样选择模型的范围就宽了很多，可以选更适合业务场景的
    
比如，RNN是擅长处理序列，但通常要GPU才能快，
只要特征做的好，机器学习不用GPU速度比RNN还要快，
还省电，省算力，省钱...你是老板的话，你怎么选？

你说深度学习不用自己研究业务分析特征啊，这多省事！！！
请问，老板二选一的话，是选减少你一个员工的痛苦，还是省钱？

 
为什么要线性表示？
这是因为不管是目前的机器学习，还是深度学习，
都是擅长处理线性数据的，

用一个模型去拟合特定场景的规律曲线，还有可能，
但要拟合不计其数非线性函数曲线，
难度大，目前还没有这种通用模型,至少没有流行开来...

 
那这样的模型能干啥？
模型擅长处理线性数据，那就人工将数据的特征提炼为线性的，然后送给模型，
这也是一种解决问题的思路，山不过来，我就去登山，一样可以领略高处的风景...

变量筛选

考虑因素

 
变量的预测能力  -- 主
变量之间的线性相关性
变量的简易性，容易生成及使用
变量的强壮性，不容易被绕过
变量在业务上的可解释性

不遗漏也不重复，选择重要的，关键的，
满足业务需要的前提下，降低计算量，提升性能

卡方检验

 
分类问题
统计样本的实际观测值与理论观测值之间的偏离程度 
卡方值越大，偏离越大；偏离越小，卡方值越小，
若两值相等，卡方值为0，表明理论值完全符合实际情况

 
卡方检验适合在初期先排除一大批与目标变量不相关的变量 
- 个人对此持怀疑态度，
- 一个模型判断其不相关，并不意思着真的不相关，或者其他模型判断不出来相关

信息量

 
信息量越大，价值越高，IV就越大 

二分类问题，判断一个样本属于哪个类别的信息蕴含在c1,c2,...,cn列中，设其总量为I
某列ci蕴含的信息越多，那么该列对于判断样本属于哪个类型的贡献就越大
ci的信息价值就越大，ci的IV就越大，就越应该被选中

VI计算方法

 
WOE : Weight of Evidence

evidence英/ˈevɪdəns/ 美/ˈevɪdəns/
n.证据;(法庭上的)证据，证词，人证，物证;证明;根据
vt.证明;表明;作为…的证据

参考

七三笔记路线：学习，记录，分享