基于主題的web文檔聚類(lèi)研究.doc
約6頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)
基于主題的web文檔聚類(lèi)研究,基于主題的web文檔聚類(lèi)研究 全文 6頁(yè)3546字?jǐn)⑹鲈敱M 摘要:網(wǎng)絡(luò)資源的不斷膨脹和新舊信息的迅速更迭,使傳統(tǒng)的手工分檢的方法難以適應(yīng)對(duì)海量電子數(shù)據(jù)的管理需要。web文檔聚類(lèi)可以快速地將文檔進(jìn)行自動(dòng)歸類(lèi),并能夠發(fā)現(xiàn)新的信息資源。針對(duì)web文檔數(shù)據(jù)的復(fù)雜性,本文提出了通過(guò)二次特征提取和聚類(lèi)的方法,將web文檔按照主題進(jìn)...
![](http://img.queshao.com/images/pcgzh.gif)
![](http://preview.queshao.com/tobuy/32640.gif)
內(nèi)容介紹
此文檔由會(huì)員 周伯通 發(fā)布
基于主題的Web文檔聚類(lèi)研究
全文 6頁(yè)3546字 敘述詳盡
摘要:網(wǎng)絡(luò)資源的不斷膨脹和新舊信息的迅速更迭,使傳統(tǒng)的手工分檢的方法難以適應(yīng)對(duì)海量電子數(shù)據(jù)的管理需要。Web文檔聚類(lèi)可以快速地將文檔進(jìn)行自動(dòng)歸類(lèi),并能夠發(fā)現(xiàn)新的信息資源。針對(duì)Web文檔數(shù)據(jù)的復(fù)雜性,本文提出了通過(guò)二次特征提取和聚類(lèi)的方法,將Web文檔按照主題進(jìn)行自動(dòng)聚類(lèi)。在主題特征被有效提取的同時(shí),實(shí)現(xiàn)了較高質(zhì)量的Web文檔聚類(lèi)。
關(guān)鍵詞:Web文檔聚類(lèi);OPTICS算法;特征提取;K近鄰準(zhǔn)則;二次特征提取和聚類(lèi)的方法
參考文獻(xiàn):
[1]M.Ester, H.-P.Kriegel, J.Sander, and X.Xu. “A density-based algorithm for discovering clusters in large spatial databases.” In Proc. 1996 Int. Conf.Knowledge Discovery and Data Mining(KDD’96),1996.
[2]M.Ankerst, M.Breunig, H.-P. Kriegel, and J.Sander. “OPTICS:Ordering points to identify the clustering structure.” In Proc.1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD’99),1999
[3]邊肇祺,張學(xué)工等?!赌J阶R(shí)別》,北京,清華大學(xué)出版社,2000
[4]Jiawei Han, Micheline Kamber著, 范明, 孟曉峰等譯, 《數(shù)據(jù)挖掘——概念與技術(shù)》, 機(jī)械工業(yè)出版社, 2001
[5]Yang, Y., Pedersen, J.O. “A Comparative Study on Feature Selection in Text Categorization.” Proc. of the 14th International Conference on Machine Learning ICML97
[6]Eui-Hong Han, George Karypis and Vipin Kumar. “Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification”. Pacific-Asia Conference on Knowledge Discovery and Data Minings, 2001
[7]韓客松, 王永成, 陳桂林, 《無(wú)詞典高頻字串快速提取和統(tǒng)計(jì)算法研究》, 中文信息學(xué)報(bào), 2001,15(2)
全文 6頁(yè)3546字 敘述詳盡
摘要:網(wǎng)絡(luò)資源的不斷膨脹和新舊信息的迅速更迭,使傳統(tǒng)的手工分檢的方法難以適應(yīng)對(duì)海量電子數(shù)據(jù)的管理需要。Web文檔聚類(lèi)可以快速地將文檔進(jìn)行自動(dòng)歸類(lèi),并能夠發(fā)現(xiàn)新的信息資源。針對(duì)Web文檔數(shù)據(jù)的復(fù)雜性,本文提出了通過(guò)二次特征提取和聚類(lèi)的方法,將Web文檔按照主題進(jìn)行自動(dòng)聚類(lèi)。在主題特征被有效提取的同時(shí),實(shí)現(xiàn)了較高質(zhì)量的Web文檔聚類(lèi)。
關(guān)鍵詞:Web文檔聚類(lèi);OPTICS算法;特征提取;K近鄰準(zhǔn)則;二次特征提取和聚類(lèi)的方法
參考文獻(xiàn):
[1]M.Ester, H.-P.Kriegel, J.Sander, and X.Xu. “A density-based algorithm for discovering clusters in large spatial databases.” In Proc. 1996 Int. Conf.Knowledge Discovery and Data Mining(KDD’96),1996.
[2]M.Ankerst, M.Breunig, H.-P. Kriegel, and J.Sander. “OPTICS:Ordering points to identify the clustering structure.” In Proc.1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD’99),1999
[3]邊肇祺,張學(xué)工等?!赌J阶R(shí)別》,北京,清華大學(xué)出版社,2000
[4]Jiawei Han, Micheline Kamber著, 范明, 孟曉峰等譯, 《數(shù)據(jù)挖掘——概念與技術(shù)》, 機(jī)械工業(yè)出版社, 2001
[5]Yang, Y., Pedersen, J.O. “A Comparative Study on Feature Selection in Text Categorization.” Proc. of the 14th International Conference on Machine Learning ICML97
[6]Eui-Hong Han, George Karypis and Vipin Kumar. “Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification”. Pacific-Asia Conference on Knowledge Discovery and Data Minings, 2001
[7]韓客松, 王永成, 陳桂林, 《無(wú)詞典高頻字串快速提取和統(tǒng)計(jì)算法研究》, 中文信息學(xué)報(bào), 2001,15(2)
TA們正在看...
- qd10-3t,lk=11.5m雙鉤橋式起重機(jī).dwg
- qsyjs0028-2003陜京二線(xiàn)管道工程管道對(duì)接環(huán)焊縫射...pdf
- qsyjs0029-2003陜京二線(xiàn)管道工程管道對(duì)接環(huán)焊縫全...pdf
- qsyjs0030-2003陜京二線(xiàn)管道工程用感應(yīng)加熱彎管技...pdf
- qsyjs0031-2003陜京二線(xiàn)管道工程自動(dòng)化儀表工程施...pdf
- qsyjs0032-2003陜京二線(xiàn)管道工程干線(xiàn)鋼管(彎管)運(yùn)...pdf
- qsyjs0033-2003陜京二線(xiàn)管道工程內(nèi)壁(減阻)覆蓋層...pdf
- iqc來(lái)料檢驗(yàn).doc
- 變壓器檢測(cè).xls
- 電阻來(lái)料檢驗(yàn).xls