這主要是由于數(shù)據(jù)分布不平衡造成的。解決方法如下:
1. 采樣,對(duì)小樣本加噪聲采樣,對(duì)大樣本進(jìn)行下采樣
2. 數(shù)據(jù)生成,利用已知樣本生成新的樣本
3. 進(jìn)行特殊的加權(quán),如在Adaboost中或者SVM中
4. 采用對(duì)不平衡數(shù)據(jù)集不敏感的算法
5. 改變?cè)u(píng)價(jià)標(biāo)準(zhǔn):用AUC/ROC來進(jìn)行評(píng)價(jià)
6. 采用Bagging/Boosting/ensemble等方法
7. 在設(shè)計(jì)模型的時(shí)候考慮數(shù)據(jù)的先驗(yàn)分布