是否能接下这个项目 1. 是否做过类似的项目 2. 如果没有,提取该项目与做过的已知的项目的共性 - 尽量多找出一些特征 从这两个方向评估是否有能力接下这个项目,即已知/熟悉的算法能否解决现有问题 如果能,剩下的就是时间问题; 如果不能,要仔细评估难度系数...从两个方法进行评估 - 模型方向 - 数据方向 快速验证 找一小份数据集,或者自己制造一批与业务数据特点相同的数据, 选择相应模型快速验证,以看效果如何 |
找与该项目相似度最高的算法,看看能否改改原算法以解决新问题 - 一个算法往往只适用几个场景, - 意味着在A场景表现很优秀的算法,在B场景中表现会很差 - 所以要找场景最相似的算法 - 这需要对一个模型适用哪些场景有深入的理解 |
数据分析 - 事物有规律,数据有结构,不同场景的数据结构是不同的 - 但所有场景的数据结构都可以转化为线性结构 - 分析数据的特征,转化为一个个相互独立的特征, - 转化程度起高,对算法的依赖度就起低 - 如果...只是如果...你能将任何一个数据结构的特征完全转化为线性结构, - 那么一个全连接就解决问题了 |
|
|
大多场景,是从数据中找出其主要规律 现实中的数据中包括有多种规律,比如一个城市中人的年龄评估 这是一个分布,有刚出生的,有超过100多的, 此时,这种超过100多的数据就相对较少, 所以有种做法是不统计年龄超过100岁的 只统计[0,100],默认所有人年龄在0-100之间 另外, 从实现世界数字化得到的数据,还包含有其他维度,即非业务维度的数据 或者说, 客观世界是复杂,那么由客观世界映射而来的数据中的规律也是复杂, 但业务所需要的,往往是其中的一部分,或者是主要的规律 这就是普遍意义, 虽然有人会超过100岁,并且地球上有个别地方,比如某个村里,超过100岁的人占比很大 但相对整个人类,那就是极少数数据 在AI计算时,就是去除那些非业务维度的,不重要的数据特征,将业务特征不断突显出来 但业务特征也是有边界的,一些边界数据会成为异常数据, 这些异常数据与其他非业务特征混合在一起,变得不那么容易区分 去除极端数据的目的,就是因为算法主要计算的是普遍意义, 比如进行数据处理时,有时会直接舍弃3倍标准差之外的数据 但若业务场景就是针对异常数据的,比如异常检测,疾病预测等, 就不应该抛弃3倍标准差之外的数据,可能把本就极少数的数据给舍弃了 这就涉及哪些数据是噪声,哪些又是异常数据, 这时候就需要算法工程师对于业务有着充分的认知, 设计出来的算法能够充分挖掘出异常数据并舍弃噪声... |
|
|
|
|