完整的機器學習項目主要步驟:
1、明確問題
首先要劃定問題:監(jiān)督或者非監(jiān)督,還是強化學習?這是個分類任務、回歸任務還是其他的?
2、獲取數(shù)據(jù)
機器學習結果的上限由數(shù)據(jù)決定,而算法只是盡可能地接近這個上限。數(shù)據(jù)要有代表性。
涉及到numpy、pandas
3、特征預處理與特征選擇
良好的數(shù)據(jù)要能夠提取良好的特征才能真正發(fā)揮數(shù)據(jù)的效力。特征預處理、數(shù)據(jù)清洗是很關鍵的步驟,往往能夠使算法的效果和性能得到顯著提升,歸一化、離散化、因子化、缺失值處理等數(shù)據(jù)處理手段。
特征選擇篩選出顯著特征、摒棄非顯著特征。
4、訓練模型與調(diào)優(yōu)
用到了sklearn、numpy、pandas
5、完成模型