七三笔记

评估内容

是否能接下这个项目

 
1. 是否做过类似的项目

2. 如果没有，提取该项目与做过的已知的项目的共性
- 尽量多找出一些特征 

从这两个方向评估是否有能力接下这个项目，即已知/熟悉的算法能否解决现有问题 

如果能，剩下的就是时间问题；

如果不能，要仔细评估难度系数...从两个方法进行评估
- 模型方向
- 数据方向

快速验证

 
找一小份数据集，或者自己制造一批与业务数据特点相同的数据，
选择相应模型快速验证，以看效果如何

 
找与该项目相似度最高的算法，看看能否改改原算法以解决新问题
- 一个算法往往只适用几个场景，
- 意味着在A场景表现很优秀的算法，在B场景中表现会很差 
- 所以要找场景最相似的算法 
- 这需要对一个模型适用哪些场景有深入的理解

 
数据分析
- 事物有规律，数据有结构，不同场景的数据结构是不同的
- 但所有场景的数据结构都可以转化为线性结构 
- 分析数据的特征，转化为一个个相互独立的特征，
- 转化程度起高，对算法的依赖度就起低
- 如果...只是如果...你能将任何一个数据结构的特征完全转化为线性结构，
- 那么一个全连接就解决问题了

普遍意义

概述

 
大多场景，是从数据中找出其主要规律

现实中的数据中包括有多种规律，比如一个城市中人的年龄评估
这是一个分布，有刚出生的，有超过100多的，

此时，这种超过100多的数据就相对较少，
所以有种做法是不统计年龄超过100岁的
只统计[0,100]，默认所有人年龄在0-100之间 


另外，
从实现世界数字化得到的数据，还包含有其他维度，即非业务维度的数据
或者说，
客观世界是复杂，那么由客观世界映射而来的数据中的规律也是复杂，
但业务所需要的，往往是其中的一部分，或者是主要的规律

这就是普遍意义，
虽然有人会超过100岁，并且地球上有个别地方，比如某个村里，超过100岁的人占比很大
但相对整个人类，那就是极少数数据

在AI计算时，就是去除那些非业务维度的，不重要的数据特征，将业务特征不断突显出来
但业务特征也是有边界的，一些边界数据会成为异常数据，
这些异常数据与其他非业务特征混合在一起，变得不那么容易区分

 
去除极端数据的目的，就是因为算法主要计算的是普遍意义，
比如进行数据处理时，有时会直接舍弃3倍标准差之外的数据

但若业务场景就是针对异常数据的，比如异常检测，疾病预测等，
就不应该抛弃3倍标准差之外的数据，可能把本就极少数的数据给舍弃了

这就涉及哪些数据是噪声，哪些又是异常数据，
这时候就需要算法工程师对于业务有着充分的认知，
设计出来的算法能够充分挖掘出异常数据并舍弃噪声...

参考

七三笔记路线：学习，记录，分享