评估内容

是否能接下这个项目

 
1. 是否做过类似的项目

2. 如果没有,提取该项目与做过的已知的项目的共性
- 尽量多找出一些特征 

从这两个方向评估是否有能力接下这个项目,即已知/熟悉的算法能否解决现有问题 

如果能,剩下的就是时间问题;

如果不能,要仔细评估难度系数...从两个方法进行评估
- 模型方向
- 数据方向 
    

快速验证

 
找一小份数据集,或者自己制造一批与业务数据特点相同的数据,
选择相应模型快速验证,以看效果如何
    

 
找与该项目相似度最高的算法,看看能否改改原算法以解决新问题
- 一个算法往往只适用几个场景,
- 意味着在A场景表现很优秀的算法,在B场景中表现会很差 
- 所以要找场景最相似的算法 
- 这需要对一个模型适用哪些场景有深入的理解 
    

 
数据分析
- 事物有规律,数据有结构,不同场景的数据结构是不同的
- 但所有场景的数据结构都可以转化为线性结构 
- 分析数据的特征,转化为一个个相互独立的特征,
- 转化程度起高,对算法的依赖度就起低
- 如果...只是如果...你能将任何一个数据结构的特征完全转化为线性结构,
- 那么一个全连接就解决问题了 

 

  

 

    
普遍意义

 
大多场景,是从数据中找出其主要规律

现实中的数据中包括有多种规律,比如一个城市中人的年龄评估
这是一个分布,有刚出生的,有超过100多的,

此时,这种超过100多的数据就相对较少,
所以有种做法是不统计年龄超过100岁的
只统计[0,100],默认所有人年龄在0-100之间 


另外,
从实现世界数字化得到的数据,还包含有其他维度,即非业务维度的数据
或者说,
客观世界是复杂,那么由客观世界映射而来的数据中的规律也是复杂,
但业务所需要的,往往是其中的一部分,或者是主要的规律

这就是普遍意义,
虽然有人会超过100岁,并且地球上有个别地方,比如某个村里,超过100岁的人占比很大
但相对整个人类,那就是极少数数据

在AI计算时,就是去除那些非业务维度的,不重要的数据特征,将业务特征不断突显出来
但业务特征也是有边界的,一些边界数据会成为异常数据,
这些异常数据与其他非业务特征混合在一起,变得不那么容易区分
    

 
去除极端数据的目的,就是因为算法主要计算的是普遍意义,
比如进行数据处理时,有时会直接舍弃3倍标准差之外的数据

但若业务场景就是针对异常数据的,比如异常检测,疾病预测等,
就不应该抛弃3倍标准差之外的数据,可能把本就极少数的数据给舍弃了

这就涉及哪些数据是噪声,哪些又是异常数据,
这时候就需要算法工程师对于业务有着充分的认知,
设计出来的算法能够充分挖掘出异常数据并舍弃噪声... 
    

 

    

 

    

 


 

  

 


参考