国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

分類算法中數(shù)據(jù)不平衡問題的分析研究.doc

  
約29頁DOC格式手機打開展開

分類算法中數(shù)據(jù)不平衡問題的分析研究,analysis of the problem of unbalanced data classification1.6萬字29頁原創(chuàng)作品,已通過查重系統(tǒng) 摘要: 不平衡數(shù)據(jù)分類問題是分類學(xué)習(xí)中的難點。不平衡數(shù)據(jù)分類問題在各個領(lǐng)域中的廣泛應(yīng)用推動著其研究發(fā)展。以集成分類與數(shù)據(jù)預(yù)處理相結(jié)...
編號:99-1440046大小:322.93K
分類: 論文>計算機論文

內(nèi)容介紹

此文檔由會員 馬甲線女神 發(fā)布

分類算法中數(shù)據(jù)不平衡問題的分析研究
Analysis of the problem of unbalanced data classification

1.6萬字 29頁 原創(chuàng)作品,已通過查重系統(tǒng)


摘要: 不平衡數(shù)據(jù)分類問題是分類學(xué)習(xí)中的難點。不平衡數(shù)據(jù)分類問題在各個領(lǐng)域中的廣泛應(yīng)用推動著其研究發(fā)展。以集成分類與數(shù)據(jù)預(yù)處理相結(jié)合的分類方法是現(xiàn)今解決不平衡分類問題的主流。集成分類主要運用了不同分類器之間的差異性,通過簡單篩選后,形成各分類器間的優(yōu)勢互補,經(jīng)典的分類器集成方法有Bagging、Adaboost、random space等。針對不平衡數(shù)據(jù)的預(yù)處理方法主要有降采樣、過采樣、聚類等,同時也有SMOTE等優(yōu)化采樣方法不斷涌現(xiàn)。
實驗發(fā)現(xiàn),使用經(jīng)典Adaboost算法處理不平衡數(shù)據(jù)時,訓(xùn)練集樣本結(jié)構(gòu)始終處于較大波動狀態(tài),基分類器性能不穩(wěn)定。當(dāng)數(shù)據(jù)集不平衡程度較大時,以算法中的樣本權(quán)重調(diào)整方法需要氦時間才能獲取較為平衡的訓(xùn)練集用于分類學(xué)習(xí)。權(quán)重調(diào)整過程中產(chǎn)生的具有偏向性分類器較多,嚴(yán)重影響了最終集成效果。
本文基于對Adaboost算法的分析研究,逐步從初始權(quán)重賦值、基分類器篩選、權(quán)重調(diào)整機制等方面,對Adaboost算法進行改進。樣本初始權(quán)重的設(shè)定,力求達到快速進入能夠通過加權(quán)隨機抽取,抽到較平衡的訓(xùn)練集的效果。每次訓(xùn)練后,訓(xùn)練集中樣本權(quán)重調(diào)整機制的修改,保證了后續(xù)訓(xùn)練集持續(xù)處于較平衡的狀態(tài),穩(wěn)定了分類器性能。通過不同算法間實驗結(jié)果的比較,證實了改進后的算法,在處理不平衡數(shù)據(jù)分類問題上具有更高的性能。


關(guān)鍵詞:不平衡數(shù)據(jù)集 集成分類 隨機采樣 樣本權(quán)重 平衡訓(xùn)練集