如果预测的数据超出了训练集的范围,怎么办? 训练集代表的是客观世界,大量出现未知的,超纲的数据,那么这训练集就没有资格代表客观世界 要判断预测的数据是不是有噪声,其产生是不是bug导致 只要超出的范围不大,AI算法有一定的健壮性,可以容错,不用额外处理 |
|
|
|
|
分层抽样,如果样本标签极度不均衡,随机样本可能会导致测试集缺失某类标签 训练集应该包括一类数据的全体, 如果随机抽样,理论上存在让这个全体缺失的可能; 相对来说,或者理论上说,分层抽样更合理一些 强调,相对/理论,是因为很多时候,随机抽样的效果也不差 所以,最终如何,还得看实践... from sklearn.datasets import make_classification X,y = make_classification(n_samples=10000, n_features=200, n_classes=2, random_state=73) from sklearn.model_selection import train_test_split X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.2, stratify=y) X_train.shape (8000, 200) |
|
|
|
|
sklearn数据集分割方法汇总