国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

基于dbscan的文本聚類算法的實現(xiàn).docx

  
約41頁DOCX格式手機(jī)打開展開

基于dbscan的文本聚類算法的實現(xiàn),基于dbscan的文本聚類算法的實現(xiàn)1.7萬字 41頁原創(chuàng)作品,已通過查重系統(tǒng)摘要隨著信息技術(shù)的發(fā)展,特別是普及internet應(yīng)用,電子文本信息是快速增加的。如何組織有效,快速地管理這些海量的信息,準(zhǔn)確地獲取用戶所需的信息是信息科學(xué)和技術(shù)領(lǐng)域的一大挑戰(zhàn)。文本聚類是一個重要的智能信息處理技術(shù),在信息過濾,信息檢索,文本...
編號:99-1151386大小:576.51K
分類: 論文>計算機(jī)論文

內(nèi)容介紹

此文檔由會員 馬甲線女神 發(fā)布

基于DBSCAN的文本聚類算法的實現(xiàn)

1.7萬字 41頁 原創(chuàng)作品,已通過查重系統(tǒng)


摘要隨著信息技術(shù)的發(fā)展,特別是普及INTERNET應(yīng)用,電子文本信息是快速增加的。如何組織有效,快速地管理這些海量的信息,準(zhǔn)確地獲取用戶所需的信息是信息科學(xué)和技術(shù)領(lǐng)域的一大挑戰(zhàn)。文本聚類是一個重要的智能信息處理技術(shù),在信息過濾,信息檢索,文本數(shù)據(jù)庫和數(shù)字圖書館等方面具有極大的價值,可以應(yīng)用于自然語言處理,文本挖掘,機(jī)器學(xué)習(xí),模式識別等領(lǐng)域。
DBSCAN 是一個比較有代表性的基于密度的聚類算法。它將簇定義為密度相連的點的最大集合能夠把具有足夠高密度的區(qū)域劃分成為簇并可在有“噪聲”的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。論文實現(xiàn)了基于DBSCAN的中文文本聚類系統(tǒng)。主要步驟如下:
(1)中文的文本預(yù)處理,使用分詞器對文本進(jìn)行分詞;
(2)特征選擇,文檔頻率(DF)特征選擇算法;
(3)權(quán)重計算,實現(xiàn)TF * IDF權(quán)重算法;
(4)實現(xiàn)DBSCAN基于文本的聚類算法。
系統(tǒng)首先將準(zhǔn)備好的新聞文本輸入數(shù)據(jù)庫中對其進(jìn)行文本預(yù)處理。包括分詞,特征選取,建立文章的特征向量等預(yù)處理環(huán)節(jié)。然后根據(jù)特征向量進(jìn)行聚類得出聚類中心。在此基礎(chǔ)上建立文章的向量模型依次計算其與聚類中心的相似度把文本內(nèi)容相似度高的劃分為一類。得出聚類結(jié)果后最后對聚類結(jié)果進(jìn)行了分析。


關(guān)鍵詞:中文文本聚類 分詞 特征選擇 權(quán)重計算