基于k-means的文本聚類算法的實(shí)現(xiàn).doc
約33頁DOC格式手機(jī)打開展開
基于k-means的文本聚類算法的實(shí)現(xiàn),基于k-means的文本聚類算法的實(shí)現(xiàn)realization of text clustering algorithm based on k-means1.78萬字33頁原創(chuàng)作品,已通過查重系統(tǒng)摘要 文本蘊(yùn)含了大量有價(jià)值的信息,開發(fā)價(jià)值很高,它作為信息的載體,有必要采取一種手段來挖掘數(shù)據(jù),這樣能方便、快捷地從文本中提取...
內(nèi)容介紹
此文檔由會(huì)員 馬甲線女神 發(fā)布
基于K-Means的文本聚類算法的實(shí)現(xiàn)
Realization of Text Clustering Algorithm based on K-Means
1.78萬字 33頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘要 文本蘊(yùn)含了大量有價(jià)值的信息,開發(fā)價(jià)值很高,它作為信息的載體,有必要采取一種手段來挖掘數(shù)據(jù),這樣能方便、快捷地從文本中提取用戶想要的東西,文本聚類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在很大程度上解決信息爆炸和信息雜亂所帶來的問題,文本聚類依據(jù)著名的聚類假設(shè),同類文檔的相似度較大,而不同類文檔的相似度較小。文本聚類的目標(biāo)是將文本集合分成多個(gè)簇,使得在同一個(gè)簇中的文本內(nèi)容具有較高的相似度,而不同簇中的文本內(nèi)容差別較大。
論文的語料庫來源于搜狗語料庫,用搜狗語料庫文本來驗(yàn)證文本聚類效果。論文采用MManlyzer中文分詞器分詞,分詞以后對(duì)詞語進(jìn)行標(biāo)記,參照停用詞表將停用詞去除,計(jì)算詞語的tf 、idf、tf*idf值,將文本轉(zhuǎn)化為數(shù)據(jù)形式,建立向量數(shù)據(jù)模型。論文用向量余弦值來計(jì)算文本之間的相似度,用K-Means算法實(shí)現(xiàn)文本聚類,不斷對(duì)數(shù)據(jù)進(jìn)行迭代,達(dá)到收斂要求時(shí),終止迭代過程,從而達(dá)到文本聚類的效果,最后輸出聚類結(jié)果。系統(tǒng)實(shí)現(xiàn)由系統(tǒng)分析、目標(biāo)設(shè)計(jì)、預(yù)處理模塊、構(gòu)造向量模塊、K-Means文本聚類模塊組成。具體過程包括文本預(yù)處理、計(jì)算tf*idf權(quán)重值、文本向量表示和K-Means聚類算法等幾個(gè)方面。
關(guān)鍵詞: 文本聚類 聚類算法 K-Means算法
Realization of Text Clustering Algorithm ba
1.78萬字 33頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘要 文本蘊(yùn)含了大量有價(jià)值的信息,開發(fā)價(jià)值很高,它作為信息的載體,有必要采取一種手段來挖掘數(shù)據(jù),這樣能方便、快捷地從文本中提取用戶想要的東西,文本聚類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在很大程度上解決信息爆炸和信息雜亂所帶來的問題,文本聚類依據(jù)著名的聚類假設(shè),同類文檔的相似度較大,而不同類文檔的相似度較小。文本聚類的目標(biāo)是將文本集合分成多個(gè)簇,使得在同一個(gè)簇中的文本內(nèi)容具有較高的相似度,而不同簇中的文本內(nèi)容差別較大。
論文的語料庫來源于搜狗語料庫,用搜狗語料庫文本來驗(yàn)證文本聚類效果。論文采用MManlyzer中文分詞器分詞,分詞以后對(duì)詞語進(jìn)行標(biāo)記,參照停用詞表將停用詞去除,計(jì)算詞語的tf 、idf、tf*idf值,將文本轉(zhuǎn)化為數(shù)據(jù)形式,建立向量數(shù)據(jù)模型。論文用向量余弦值來計(jì)算文本之間的相似度,用K-Means算法實(shí)現(xiàn)文本聚類,不斷對(duì)數(shù)據(jù)進(jìn)行迭代,達(dá)到收斂要求時(shí),終止迭代過程,從而達(dá)到文本聚類的效果,最后輸出聚類結(jié)果。系統(tǒng)實(shí)現(xiàn)由系統(tǒng)分析、目標(biāo)設(shè)計(jì)、預(yù)處理模塊、構(gòu)造向量模塊、K-Means文本聚類模塊組成。具體過程包括文本預(yù)處理、計(jì)算tf*idf權(quán)重值、文本向量表示和K-Means聚類算法等幾個(gè)方面。
關(guān)鍵詞: 文本聚類 聚類算法 K-Means算法