中文文本分類中的特征選擇研究.pdf
約37頁PDF格式手機打開展開
中文文本分類中的特征選擇研究,文本作為最 重要的電子數(shù)據(jù)形式之一,增長速度更為驚人。為了從規(guī)模龐大的文本集里獲取有用的信息,需要快速有效的方法?;跈C器學(xué)習(xí)的文本分類技術(shù)可以在較大程度上解決文本庫雜亂無章的現(xiàn)象,幫助人們將大量的文本自動分門別類。文本自動分類技術(shù)有廣闊的應(yīng)用前景,因此得到了廣泛的關(guān)注,對其相關(guān)方面的研究也取得很大的進展。 特征選擇是...
內(nèi)容介紹
此文檔由會員 wanli1988go 發(fā)布
文本作為最 重要的電子數(shù)據(jù)形式之一,增長速度更為驚人。為了從規(guī)模龐大的文本集里獲取有用
的信息,需要快速有效的方法?;跈C器學(xué)習(xí)的文本分類技術(shù)可以在較大程度上解決
文本庫雜亂無章的現(xiàn)象,幫助人們將大量的文本自動分門別類。文本自動分類技術(shù)有
廣闊的應(yīng)用前景,因此得到了廣泛的關(guān)注,對其相關(guān)方面的研究也取得很大的進展。
特征選擇是文本自動分類中最重要的環(huán)節(jié)之一,是本文研究的重點。特征選擇是
一個從原始特征集中抽取出它的一個由重要詞匯組成的真子集的過程。通過一個評估
函數(shù)給原始特征集里的每個特征打分,選取分值高于閾值的特征。
高效的文本分類分類器要求組成其向量空間的特征應(yīng)該帶有較強的分類信息,同
時向量空間能很好的兼顧各個類別里的文本的信息。 本文分析了典型的特征選擇算法
DF 和 MI 的優(yōu)點和不足,并以此為基礎(chǔ)提出了基于二類信息差值的特征提取方法
(IDTC) ,IDTC 強調(diào)特征對任意兩個類別的分類作用,理論上能很好的滿足文本分類
中對特征集的要求。實驗結(jié)果表明,使用 IDTC 選擇方法的分類器,比使用 DF 和 MI
選擇方法的分類器的效果要好得多,并有不遜于使用其他特征選擇算法的
Abstract
Along with the swift and violent development of information technology and rapid
popularization of the Internet technology, the amount of the information that is stored in
computer systems increases explosively. Electronic text is one of the most important form
of data in computer systems, and the growth of it is more astonishing, so does the growth
of text that written in Chinese. In order to gain useful information from the large scale text
set, fast and effective methods are needed. As one of important instrument of the data
mining technology, automatic text classification technology, which is based on machine
learning technology, can help people solve the problem of information disorder to a great
extent. It can assign a text to one of the predefined categories automatically, so as to help
people to index texts more conveniently, and find the useful information easier. Automatic
text classification technology can be used in many areas because it is very useful, therefore,
it becomes a hot point people focus on in research areas and big progress has been made in
research of it.
In the progress of automatic text classification, there are two most important factors
的信息,需要快速有效的方法?;跈C器學(xué)習(xí)的文本分類技術(shù)可以在較大程度上解決
文本庫雜亂無章的現(xiàn)象,幫助人們將大量的文本自動分門別類。文本自動分類技術(shù)有
廣闊的應(yīng)用前景,因此得到了廣泛的關(guān)注,對其相關(guān)方面的研究也取得很大的進展。
特征選擇是文本自動分類中最重要的環(huán)節(jié)之一,是本文研究的重點。特征選擇是
一個從原始特征集中抽取出它的一個由重要詞匯組成的真子集的過程。通過一個評估
函數(shù)給原始特征集里的每個特征打分,選取分值高于閾值的特征。
高效的文本分類分類器要求組成其向量空間的特征應(yīng)該帶有較強的分類信息,同
時向量空間能很好的兼顧各個類別里的文本的信息。 本文分析了典型的特征選擇算法
DF 和 MI 的優(yōu)點和不足,并以此為基礎(chǔ)提出了基于二類信息差值的特征提取方法
(IDTC) ,IDTC 強調(diào)特征對任意兩個類別的分類作用,理論上能很好的滿足文本分類
中對特征集的要求。實驗結(jié)果表明,使用 IDTC 選擇方法的分類器,比使用 DF 和 MI
選擇方法的分類器的效果要好得多,并有不遜于使用其他特征選擇算法的
Abstract
Along with the swift and violent development of information technology and rapid
popularization of the Internet technology, the amount of the information that is stored in
computer systems increases explosively. Electronic text is one of the most important form
of data in computer systems, and the growth of it is more astonishing, so does the growth
of text that written in Chinese. In order to gain useful information from the large scale text
set, fast and effective methods are needed. As one of important instrument of the data
mining technology, automatic text classification technology, which is based on machine
learning technology, can help people solve the problem of information disorder to a great
extent. It can assign a text to one of the predefined categories automatically, so as to help
people to index texts more conveniently, and find the useful information easier. Automatic
text classification technology can be used in many areas because it is very useful, therefore,
it becomes a hot point people focus on in research areas and big progress has been made in
research of it.
In the progress of automatic text classification, there are two most important factors
TA們正在看...
- 可持續(xù)發(fā)展背景下技術(shù)創(chuàng)新生態(tài)化研究40.rar
- 2010年法制宣傳教育工作報告.doc
- 2010年市衛(wèi)生局普法工作總結(jié).doc
- xx區(qū)基層醫(yī)藥衛(wèi)生體制綜合改革的實踐探索.doc
- 可持續(xù)發(fā)展的財務(wù)對策研究40.rar
- 復(fù)合振動治療卵巢切除大鼠骨質(zhì)疏松的初步試驗研究.doc
- 礦物加工計算機仿真平臺的構(gòu)建77頁.rar
- 關(guān)于基層就業(yè)和社會保障服務(wù)平臺建設(shè)工作的思考.doc
- 加快構(gòu)建新型城鄉(xiāng)社會救助體系的思考.doc
- 學(xué)生檢測體重指數(shù)與慢性病的預(yù)測分析.doc