基于主題的web文檔聚類研究.doc
約6頁DOC格式手機(jī)打開展開
基于主題的web文檔聚類研究,基于主題的web文檔聚類研究 全文5頁5599字?jǐn)⑹鲈敱M摘要:網(wǎng)絡(luò)資源的不斷膨脹和新舊信息的迅速更迭,使傳統(tǒng)的手工分檢的方法難以適應(yīng)對海量電子數(shù)據(jù)的管理需要。web文檔聚類可以快速地將文檔進(jìn)行自動歸類,并能夠發(fā)現(xiàn)新的信息資源。針對web文檔數(shù)據(jù)的復(fù)雜性,本文提出了通過二次特征提取和聚類的方法,將web文檔按照主題進(jìn)行自...
內(nèi)容介紹
此文檔由會員 周伯通 發(fā)布
基于主題的Web文檔聚類研究
全文5頁5599字 敘述詳盡
摘要:網(wǎng)絡(luò)資源的不斷膨脹和新舊信息的迅速更迭,使傳統(tǒng)的手工分檢的方法難以適應(yīng)對海量電子數(shù)據(jù)的管理需要。Web文檔聚類可以快速地將文檔進(jìn)行自動歸類,并能夠發(fā)現(xiàn)新的信息資源。針對Web文檔數(shù)據(jù)的復(fù)雜性,本文提出了通過二次特征提取和聚類的方法,將Web文檔按照主題進(jìn)行自動聚類。在主題特征被有效提取的同時,實現(xiàn)了較高質(zhì)量的Web文檔聚類。
關(guān)鍵詞:Web文檔聚類;OPTICS算法;特征提取;K近鄰準(zhǔn)則;二次特征提取和聚類的方法
1.概述
當(dāng)前,電子文檔的增長速度遠(yuǎn)遠(yuǎn)超出了人所能接受的能力,不僅網(wǎng)頁的數(shù)量驚人,而且內(nèi)容繁雜,信息超載的問題日益突出,信息檢索的難度越來越大。多數(shù)網(wǎng)站在進(jìn)行信息資源分類管理時,仍然采用人工分檢的方式,勞動強(qiáng)度和效率自然都不理想。目前,一些網(wǎng)站利用計算機(jī)分類的方法將網(wǎng)頁進(jìn)行自動歸類,但是需要大量的人工標(biāo)注的語料來訓(xùn)練計算機(jī),這種方法用于靜態(tài)的、固定的數(shù)據(jù)模型分類能夠取得較好效果,而面對網(wǎng)絡(luò)上更迭頻繁、種類不斷翻新并且實時性較強(qiáng)的網(wǎng)絡(luò)信息適應(yīng)性較差。自適應(yīng)學(xué)習(xí)的方法利用有代表性的少數(shù)文檔訓(xùn)練初始模型,然后在對新網(wǎng)頁分類的同時主動學(xué)習(xí),不斷增強(qiáng)適應(yīng)力。這種方法能夠滿足實時性的要求,但是由于初始樣本數(shù)據(jù)稀疏,在學(xué)習(xí)時面臨著模型惡化的風(fēng)險,導(dǎo)致分類性能降低。
聚類能夠在沒有訓(xùn)練樣本的條件下,自動產(chǎn)生分類模型。不僅可以節(jié)省人力,而且還會發(fā)現(xiàn)新的信息資源,便于對其進(jìn)一步分析和利用。我們采用了二次特征提取和聚類的方法,并結(jié)合使用密度算法和K近鄰準(zhǔn)則將Web文檔按照主題進(jìn)行聚類。一些實驗表明,該方法取得了較好的實際應(yīng)用效果。
參考文獻(xiàn):
[1]M.Ester, H.-P.Kriegel, J.Sander, and X.Xu. “A density-based algorithm for discovering clusters in large spatial databases.” In Proc. 1996 Int. Conf.Knowledge Discovery and Data Mining(KDD’96),1996.
[2]M.Ankerst, M.Breunig, H.-P. Kriegel, and J.Sander. “OPTICS:Ordering points to identify the clustering structure.” In Proc.1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD’99),1999
[3]邊肇祺,張學(xué)工等。《模式識別》,北京,清華大學(xué)出版社,2000
[4]Jiawei Han, Micheline Kamber著, 范明, 孟曉峰等譯, 《數(shù)據(jù)挖掘——概念與技術(shù)》, 機(jī)械工業(yè)出版社, 2001
[5]Yang, Y., Pedersen, J.O. “A Comparative Study on Feature Selection in Text Categorization.” Proc. of the 14th International Conference on Machine Learning ICML97
[6]Eui-Hong Han, George Karypis and Vipin Kumar. “Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification”. Pacific-Asia Conference on Knowledge Discovery and Data Minings, 2001
[7]韓客松, 王永成, 陳桂林, 《無詞典高頻字串快速提取和統(tǒng)計算法研究》, 中文信息學(xué)報, 2001,15(2)
全文5頁5599字 敘述詳盡
摘要:網(wǎng)絡(luò)資源的不斷膨脹和新舊信息的迅速更迭,使傳統(tǒng)的手工分檢的方法難以適應(yīng)對海量電子數(shù)據(jù)的管理需要。Web文檔聚類可以快速地將文檔進(jìn)行自動歸類,并能夠發(fā)現(xiàn)新的信息資源。針對Web文檔數(shù)據(jù)的復(fù)雜性,本文提出了通過二次特征提取和聚類的方法,將Web文檔按照主題進(jìn)行自動聚類。在主題特征被有效提取的同時,實現(xiàn)了較高質(zhì)量的Web文檔聚類。
關(guān)鍵詞:Web文檔聚類;OPTICS算法;特征提取;K近鄰準(zhǔn)則;二次特征提取和聚類的方法
1.概述
當(dāng)前,電子文檔的增長速度遠(yuǎn)遠(yuǎn)超出了人所能接受的能力,不僅網(wǎng)頁的數(shù)量驚人,而且內(nèi)容繁雜,信息超載的問題日益突出,信息檢索的難度越來越大。多數(shù)網(wǎng)站在進(jìn)行信息資源分類管理時,仍然采用人工分檢的方式,勞動強(qiáng)度和效率自然都不理想。目前,一些網(wǎng)站利用計算機(jī)分類的方法將網(wǎng)頁進(jìn)行自動歸類,但是需要大量的人工標(biāo)注的語料來訓(xùn)練計算機(jī),這種方法用于靜態(tài)的、固定的數(shù)據(jù)模型分類能夠取得較好效果,而面對網(wǎng)絡(luò)上更迭頻繁、種類不斷翻新并且實時性較強(qiáng)的網(wǎng)絡(luò)信息適應(yīng)性較差。自適應(yīng)學(xué)習(xí)的方法利用有代表性的少數(shù)文檔訓(xùn)練初始模型,然后在對新網(wǎng)頁分類的同時主動學(xué)習(xí),不斷增強(qiáng)適應(yīng)力。這種方法能夠滿足實時性的要求,但是由于初始樣本數(shù)據(jù)稀疏,在學(xué)習(xí)時面臨著模型惡化的風(fēng)險,導(dǎo)致分類性能降低。
聚類能夠在沒有訓(xùn)練樣本的條件下,自動產(chǎn)生分類模型。不僅可以節(jié)省人力,而且還會發(fā)現(xiàn)新的信息資源,便于對其進(jìn)一步分析和利用。我們采用了二次特征提取和聚類的方法,并結(jié)合使用密度算法和K近鄰準(zhǔn)則將Web文檔按照主題進(jìn)行聚類。一些實驗表明,該方法取得了較好的實際應(yīng)用效果。
參考文獻(xiàn):
[1]M.Ester, H.-P.Kriegel, J.Sander, and X.Xu. “A density-based algorithm for discovering clusters in large spatial databases.” In Proc. 1996 Int. Conf.Knowledge Discovery and Data Mining(KDD’96),1996.
[2]M.Ankerst, M.Breunig, H.-P. Kriegel, and J.Sander. “OPTICS:Ordering points to identify the clustering structure.” In Proc.1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD’99),1999
[3]邊肇祺,張學(xué)工等。《模式識別》,北京,清華大學(xué)出版社,2000
[4]Jiawei Han, Micheline Kamber著, 范明, 孟曉峰等譯, 《數(shù)據(jù)挖掘——概念與技術(shù)》, 機(jī)械工業(yè)出版社, 2001
[5]Yang, Y., Pedersen, J.O. “A Comparative Study on Feature Selection in Text Categorization.” Proc. of the 14th International Conference on Machine Learning ICML97
[6]Eui-Hong Han, George Karypis and Vipin Kumar. “Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification”. Pacific-Asia Conference on Knowledge Discovery and Data Minings, 2001
[7]韓客松, 王永成, 陳桂林, 《無詞典高頻字串快速提取和統(tǒng)計算法研究》, 中文信息學(xué)報, 2001,15(2)