基于層次式凝聚聚類的文本聚類算法的實(shí)現(xiàn).docx


約34頁(yè)DOCX格式手機(jī)打開(kāi)展開(kāi)
基于層次式凝聚聚類的文本聚類算法的實(shí)現(xiàn),the implementation of text clustering algorithm based on hierarchical clustering algorithm1.76萬(wàn)字 34頁(yè)原創(chuàng)作品,已通過(guò)查重系統(tǒng)摘要 文本聚類是數(shù)據(jù)挖掘的一個(gè)重要分支,是劃分文本與處理數(shù)...


內(nèi)容介紹
此文檔由會(huì)員 馬甲線女神 發(fā)布
基于層次式凝聚聚類的文本聚類算法的實(shí)現(xiàn)
The Implementation of text Clustering Algorithm based on
Hierarchical Clustering Algorithm
1.76萬(wàn)字 34頁(yè) 原創(chuàng)作品,已通過(guò)查重系統(tǒng)
摘要 文本聚類是數(shù)據(jù)挖掘的一個(gè)重要分支,是劃分文本與處理數(shù)據(jù)的重要方法和手段,文本聚類已經(jīng)在國(guó)內(nèi)外各領(lǐng)域取得了廣泛的應(yīng)用。文本聚類算法主要分為基于層次的方法、基于網(wǎng)格的方法、基于模型的方法、基于密度的方法。凝聚的層次聚類是一種自底向上的策略,首先將每個(gè)對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來(lái)越大的簇,直到所有的對(duì)象都在一個(gè)簇中,或者某個(gè)終結(jié)條件被滿足。
論文主要研究了如何將文本集表示成為數(shù)學(xué)上可分析處理的形式,用中文分詞組件對(duì)文本信息進(jìn)行預(yù)處理(分詞、切詞、去除無(wú)用詞),用向量空間模型建立文本信息特征,最后基于Java實(shí)現(xiàn)了基于層次式凝聚類文本聚類的系統(tǒng)。
關(guān)鍵詞:文本聚類 層次式凝聚類 AGENES 文本預(yù)處理 權(quán)重計(jì)算
The Implementation of text Clustering Algorithm ba
Hierarchical Clustering Algorithm
1.76萬(wàn)字 34頁(yè) 原創(chuàng)作品,已通過(guò)查重系統(tǒng)
摘要 文本聚類是數(shù)據(jù)挖掘的一個(gè)重要分支,是劃分文本與處理數(shù)據(jù)的重要方法和手段,文本聚類已經(jīng)在國(guó)內(nèi)外各領(lǐng)域取得了廣泛的應(yīng)用。文本聚類算法主要分為基于層次的方法、基于網(wǎng)格的方法、基于模型的方法、基于密度的方法。凝聚的層次聚類是一種自底向上的策略,首先將每個(gè)對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來(lái)越大的簇,直到所有的對(duì)象都在一個(gè)簇中,或者某個(gè)終結(jié)條件被滿足。
論文主要研究了如何將文本集表示成為數(shù)學(xué)上可分析處理的形式,用中文分詞組件對(duì)文本信息進(jìn)行預(yù)處理(分詞、切詞、去除無(wú)用詞),用向量空間模型建立文本信息特征,最后基于Java實(shí)現(xiàn)了基于層次式凝聚類文本聚類的系統(tǒng)。
關(guān)鍵詞:文本聚類 層次式凝聚類 AGENES 文本預(yù)處理 權(quán)重計(jì)算