总体
特征提取,是将原数据的特征,以线性的方式表示 func1(x) = a1 func2(x) = a2 ... funcn(x) = an func是提取特征的方法,可以是线性,也可以不是, 提取的结果,a1,a2,...,an 是线性的,形成特征向量(a1,a2,...,an)
细节技巧
时间的不确定性,可以转化为时间差,时间比
长度的不确定性,可以用差,比值来表示,或者其他方法表示
数据的重复,冗余,可以使用分帧,采样的方式 要有一套标准,确保采样后的数据,具有原数据同样的规律
数据的前后依赖关系 如果数据有前后依赖关系,那么可以考虑使用擅长处理序列类的模型,比如,RNN 同样的,也可以人工将前后依赖关系提取成独立的特征, 让所有模型都能训练,这样选择模型的范围就宽了很多,可以选更适合业务场景的 比如,RNN是擅长处理序列,但通常要GPU才能快, 只要特征做的好,机器学习不用GPU速度比RNN还要快, 还省电,省算力,省钱...你是老板的话,你怎么选? 你说深度学习不用自己研究业务分析特征啊,这多省事!!! 请问,老板二选一的话,是选减少你一个员工的痛苦,还是省钱?
为什么要线性表示? 这是因为不管是目前的机器学习,还是深度学习, 都是擅长处理线性数据的, 用一个模型去拟合特定场景的规律曲线,还有可能, 但要拟合不计其数非线性函数曲线, 难度大,目前还没有这种通用模型,至少没有流行开来...
那这样的模型能干啥? 模型擅长处理线性数据,那就人工将数据的特征提炼为线性的,然后送给模型, 这也是一种解决问题的思路,山不过来,我就去登山,一样可以领略高处的风景...
考虑因素 变量的预测能力 -- 主 变量之间的线性相关性 变量的简易性,容易生成及使用 变量的强壮性,不容易被绕过 变量在业务上的可解释性 不遗漏也不重复,选择重要的,关键的, 满足业务需要的前提下,降低计算量,提升性能 |
卡方检验 分类问题 统计样本的实际观测值与理论观测值之间的偏离程度 卡方值越大,偏离越大;偏离越小,卡方值越小, 若两值相等,卡方值为0,表明理论值完全符合实际情况 卡方检验适合在初期先排除一大批与目标变量不相关的变量 - 个人对此持怀疑态度, - 一个模型判断其不相关,并不意思着真的不相关,或者其他模型判断不出来相关 |
信息量 信息量越大,价值越高,IV就越大 二分类问题,判断一个样本属于哪个类别的信息蕴含在c1,c2,...,cn列中,设其总量为I 某列ci蕴含的信息越多,那么该列对于判断样本属于哪个类型的贡献就越大 ci的信息价值就越大,ci的IV就越大,就越应该被选中 VI计算方法 WOE : Weight of Evidence evidence英/ˈevɪdəns/ 美/ˈevɪdəns/ n.证据;(法庭上的)证据,证词,人证,物证;证明;根据 vt.证明;表明;作为…的证据 |