特征提取概述

总体

 
特征提取,是将原数据的特征,以线性的方式表示

func1(x) = a1 
func2(x) = a2
... 
funcn(x) = an 

func是提取特征的方法,可以是线性,也可以不是,
提取的结果,a1,a2,...,an 是线性的,形成特征向量(a1,a2,...,an)

细节技巧

 
时间的不确定性,可以转化为时间差,时间比
    

 
长度的不确定性,可以用差,比值来表示,或者其他方法表示
    

 
数据的重复,冗余,可以使用分帧,采样的方式

要有一套标准,确保采样后的数据,具有原数据同样的规律
    

 
数据的前后依赖关系
如果数据有前后依赖关系,那么可以考虑使用擅长处理序列类的模型,比如,RNN
同样的,也可以人工将前后依赖关系提取成独立的特征,
让所有模型都能训练,这样选择模型的范围就宽了很多,可以选更适合业务场景的
    
比如,RNN是擅长处理序列,但通常要GPU才能快,
只要特征做的好,机器学习不用GPU速度比RNN还要快,
还省电,省算力,省钱...你是老板的话,你怎么选?

你说深度学习不用自己研究业务分析特征啊,这多省事!!!
请问,老板二选一的话,是选减少你一个员工的痛苦,还是省钱?

 
为什么要线性表示?
这是因为不管是目前的机器学习,还是深度学习,
都是擅长处理线性数据的,

用一个模型去拟合特定场景的规律曲线,还有可能,
但要拟合不计其数非线性函数曲线,
难度大,目前还没有这种通用模型,至少没有流行开来... 

 
那这样的模型能干啥?
模型擅长处理线性数据,那就人工将数据的特征提炼为线性的,然后送给模型,
这也是一种解决问题的思路,山不过来,我就去登山,一样可以领略高处的风景... 
    
变量筛选

考虑因素

 
变量的预测能力  -- 主
变量之间的线性相关性
变量的简易性,容易生成及使用
变量的强壮性,不容易被绕过
变量在业务上的可解释性

不遗漏也不重复,选择重要的,关键的,
满足业务需要的前提下,降低计算量,提升性能  

卡方检验

 
分类问题
统计样本的实际观测值与理论观测值之间的偏离程度 
卡方值越大,偏离越大;偏离越小,卡方值越小,
若两值相等,卡方值为0,表明理论值完全符合实际情况


 
卡方检验适合在初期先排除一大批与目标变量不相关的变量 
- 个人对此持怀疑态度,
- 一个模型判断其不相关,并不意思着真的不相关,或者其他模型判断不出来相关
    
    

信息量

 
信息量越大,价值越高,IV就越大 

二分类问题,判断一个样本属于哪个类别的信息蕴含在c1,c2,...,cn列中,设其总量为I
某列ci蕴含的信息越多,那么该列对于判断样本属于哪个类型的贡献就越大
ci的信息价值就越大,ci的IV就越大,就越应该被选中

VI计算方法

 
WOE : Weight of Evidence

evidence英/ˈevɪdəns/ 美/ˈevɪdəns/
n.证据;(法庭上的)证据,证词,人证,物证;证明;根据
vt.证明;表明;作为…的证据

参考