国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

基于半監(jiān)督的文本分類算法.doc

約51頁DOC格式手機打開展開

基于半監(jiān)督的文本分類算法, 摘 要隨著internet的出現(xiàn),大量的文字信息開始以計算機可讀的形式存在,以傳統(tǒng)的手工方式對這些信息進行組織整理既費時費力且效果不理想。文本分類作為處理和組織大量文本數(shù)據(jù)的關鍵技術,可以利用機器來對文本進行分析整理,使用戶從繁瑣的文檔處理工作中解放出來,并能極大地提高了信息的利用率。文本分類...
編號:30-194732大小:1.24M
分類: 論文>通信/電子論文

內(nèi)容介紹

此文檔由會員 lanxin520 發(fā)布

基于半監(jiān)督的文本分類算法                                      


摘  要

隨著Internet的出現(xiàn),大量的文字信息開始以計算機可讀的形式存在,以傳統(tǒng)的手工方式對這些信息進行組織整理既費時費力且效果不理想。文本分類作為處理和組織大量文本數(shù)據(jù)的關鍵技術,可以利用機器來對文本進行分析整理,使用戶從繁瑣的文檔處理工作中解放出來,并能極大地提高了信息的利用率。文本分類是指分析文本內(nèi)容并按一定的策略把文本歸入一個或多個合適的類別的應用技術。而作為信息過濾、信息檢索、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化圖書館等領域的技術基礎,文本分類技術有著廣泛的應用前景。
本文首先介紹了文本分類的背景,文本分類所用的半監(jiān)督算法及文本分類的幾個關鍵技術。然后鑒于高分類精度需要大規(guī)模己標記訓練集而已標記文檔缺乏,利用未標識文檔進行學習的半監(jiān)督學習算法己成為文本分類的研究重點這一情況,著重研究了半監(jiān)督分類算法。最后本文設計了一個文本分類原型系統(tǒng),為保證分類的準確性,采用了不同的標準數(shù)據(jù)集進行測試,并評價了其分類的性能。通過以上實驗表明,當有足夠的己標識文檔時,本算法與其它算法性能相當,但當已標識文檔很少時,本算法優(yōu)于現(xiàn)有的其它算法。
關鍵詞:文本分類;半監(jiān)督學習;聚類;EM;KNN

 

 


ABSTRACT

With the emergence of Internet, a large number of text messages began to exist in the form of computer-readable, to the traditional manual way for organizations to collate the information is time-consuming effort and the result is not satisfactory. As the key technology in organizing and processing large mount of document data, Text classification can use the machine to collate the text analysis, allowing users from the tedious work of document processing liberated and can greatly improve the utilization of information. Text classification is a supervised leaning task of assigning natural language text documents to one or more predefined categories or classes according to their contents. Moreover, text classification has the broad applied future as the technical basis of information filtering, information retrieva l, search engine, text database, and digital library and so on..
This thesis firstly introduces the background of the text classification, text classification using semi-supervised algorithm and a few key technologies about text classification. Secondly considering the contradiction of deadly need for large labeled train-set to obtain high classification accuracy and the scarcity of labeled documents,this thesis emphasizes on improvement of Semi-supervised classification algorithms, Finally we design a document classification system. In order to ensure the accuracy of classification, using a data set different standards for texting and eva luation of the performance of their classification. The experiments above showed the superior performance of our method over existing methods when labeled data size is extremely small. When there is sufficient labeled data,our method is comparable to other existing algorithms.
Keywords: text classification; semi-supervised leaning; clustering; EM; KNN

 

 

 

目    錄

1 引言 1
1.1課題背景 1
1.2本文的內(nèi)容組織 2
2 半監(jiān)督學習 3
2.1半監(jiān)督學習的概念及意義 3
2.2半監(jiān)督學習的研究進展 4
2.3半監(jiān)督學習的方法 5
2.3.1協(xié)同訓練(Co-training) 5
2.3.2自訓練 6
2.3.3半監(jiān)督支持向量機(S3VMs) 7
2.3.4基于圖的方法(Graph-Based Methods) 8
2.4本章小結(jié) 9
3 文本分類 10
3.1文本分類的概念及意義 10
3.2文本分類的國內(nèi)外研究情況 10
3.3文本分類的關鍵技術 11
3.3.1文本特征生成 12
3.3.2特征選擇與降維 14
3.3.3權(quán)重計算 16
3.3.4文本分類技術 17
3.3.5文本分類技術性能評價 22
3.4本章小結(jié) 25
4 基于EM和KNN的半監(jiān)督文本分類 27
4.1引言 27
4.2相關工作 27
4.2.1聚類分析 27
4.2.2 EM算法 30
4.2.3 KNN算法 31
4.3基于EM和KNN的半監(jiān)督文本分類算法 31
4.3.1問題描述 32
4.3.2算法思想 32
4.3.3基于EM算法的聚類分析 33
4.3.4基于Knn算法的分類 35
4.3.5算法步驟 36
4.4算法效率分析 37
4.5本章小結(jié) 38
5 實驗與分析 39
5.1實現(xiàn)EM-KNN算法 39
5.1.1實驗平臺 39
5.1.2算法實現(xiàn)及流程圖 39
5.2實驗結(jié)果與分析 43
5.3小結(jié) 43
總結(jié) 44
參考文獻 45
致  謝 46