中文文本分類中的特征選擇研究.pdf
約37頁PDF格式手機(jī)打開展開
中文文本分類中的特征選擇研究,文本作為最 重要的電子數(shù)據(jù)形式之一,增長(zhǎng)速度更為驚人。為了從規(guī)模龐大的文本集里獲取有用的信息,需要快速有效的方法。基于機(jī)器學(xué)習(xí)的文本分類技術(shù)可以在較大程度上解決文本庫雜亂無章的現(xiàn)象,幫助人們將大量的文本自動(dòng)分門別類。文本自動(dòng)分類技術(shù)有廣闊的應(yīng)用前景,因此得到了廣泛的關(guān)注,對(duì)其相關(guān)方面的研究也取得很大的進(jìn)展。 特征選擇是...


內(nèi)容介紹
此文檔由會(huì)員 wanli1988go 發(fā)布
文本作為最 重要的電子數(shù)據(jù)形式之一,增長(zhǎng)速度更為驚人。為了從規(guī)模龐大的文本集里獲取有用
的信息,需要快速有效的方法?;跈C(jī)器學(xué)習(xí)的文本分類技術(shù)可以在較大程度上解決
文本庫雜亂無章的現(xiàn)象,幫助人們將大量的文本自動(dòng)分門別類。文本自動(dòng)分類技術(shù)有
廣闊的應(yīng)用前景,因此得到了廣泛的關(guān)注,對(duì)其相關(guān)方面的研究也取得很大的進(jìn)展。
特征選擇是文本自動(dòng)分類中最重要的環(huán)節(jié)之一,是本文研究的重點(diǎn)。特征選擇是
一個(gè)從原始特征集中抽取出它的一個(gè)由重要詞匯組成的真子集的過程。通過一個(gè)評(píng)估
函數(shù)給原始特征集里的每個(gè)特征打分,選取分值高于閾值的特征。
高效的文本分類分類器要求組成其向量空間的特征應(yīng)該帶有較強(qiáng)的分類信息,同
時(shí)向量空間能很好的兼顧各個(gè)類別里的文本的信息。 本文分析了典型的特征選擇算法
DF 和 MI 的優(yōu)點(diǎn)和不足,并以此為基礎(chǔ)提出了基于二類信息差值的特征提取方法
(IDTC) ,IDTC 強(qiáng)調(diào)特征對(duì)任意兩個(gè)類別的分類作用,理論上能很好的滿足文本分類
中對(duì)特征集的要求。實(shí)驗(yàn)結(jié)果表明,使用 IDTC 選擇方法的分類器,比使用 DF 和 MI
選擇方法的分類器的效果要好得多,并有不遜于使用其他特征選擇算法的
Abstract
Along with the swift and violent development of information technology and rapid
popularization of the Internet technology, the amount of the information that is stored in
computer systems increases explosively. Electronic text is one of the most important form
of data in computer systems, and the growth of it is more astonishing, so does the growth
of text that written in Chinese. In order to gain useful information from the large scale text
set, fast and effective methods are needed. As one of important instrument of the data
mining technology, automatic text classification technology, which is based on machine
learning technology, can help people solve the problem of information disorder to a great
extent. It can assign a text to one of the predefined categories automatically, so as to help
people to index texts more conveniently, and find the useful information easier. Automatic
text classification technology can be used in many areas because it is very useful, therefore,
it becomes a hot point people focus on in research areas and big progress has been made in
research of it.
In the progress of automatic text classification, there are two most important factors
的信息,需要快速有效的方法?;跈C(jī)器學(xué)習(xí)的文本分類技術(shù)可以在較大程度上解決
文本庫雜亂無章的現(xiàn)象,幫助人們將大量的文本自動(dòng)分門別類。文本自動(dòng)分類技術(shù)有
廣闊的應(yīng)用前景,因此得到了廣泛的關(guān)注,對(duì)其相關(guān)方面的研究也取得很大的進(jìn)展。
特征選擇是文本自動(dòng)分類中最重要的環(huán)節(jié)之一,是本文研究的重點(diǎn)。特征選擇是
一個(gè)從原始特征集中抽取出它的一個(gè)由重要詞匯組成的真子集的過程。通過一個(gè)評(píng)估
函數(shù)給原始特征集里的每個(gè)特征打分,選取分值高于閾值的特征。
高效的文本分類分類器要求組成其向量空間的特征應(yīng)該帶有較強(qiáng)的分類信息,同
時(shí)向量空間能很好的兼顧各個(gè)類別里的文本的信息。 本文分析了典型的特征選擇算法
DF 和 MI 的優(yōu)點(diǎn)和不足,并以此為基礎(chǔ)提出了基于二類信息差值的特征提取方法
(IDTC) ,IDTC 強(qiáng)調(diào)特征對(duì)任意兩個(gè)類別的分類作用,理論上能很好的滿足文本分類
中對(duì)特征集的要求。實(shí)驗(yàn)結(jié)果表明,使用 IDTC 選擇方法的分類器,比使用 DF 和 MI
選擇方法的分類器的效果要好得多,并有不遜于使用其他特征選擇算法的
Abstract
Along with the swift and violent development of information technology and rapid
popularization of the Internet technology, the amount of the information that is stored in
computer systems increases explosively. Electronic text is one of the most important form
of data in computer systems, and the growth of it is more astonishing, so does the growth
of text that written in Chinese. In order to gain useful information from the large scale text
set, fast and effective methods are needed. As one of important instrument of the data
mining technology, automatic text classification technology, which is based on machine
learning technology, can help people solve the problem of information disorder to a great
extent. It can assign a text to one of the predefined categories automatically, so as to help
people to index texts more conveniently, and find the useful information easier. Automatic
text classification technology can be used in many areas because it is very useful, therefore,
it becomes a hot point people focus on in research areas and big progress has been made in
research of it.
In the progress of automatic text classification, there are two most important factors
TA們正在看...
- 中國(guó)高等院校發(fā)展戰(zhàn)略和規(guī)劃(ppt).ppt
- 中國(guó)企業(yè)融資及海外上市會(huì)計(jì)實(shí)務(wù)(ppt).ppt
- 中國(guó)上市公司虧損預(yù)警分析(ppt).ppt
- 中小企業(yè)板塊上市公司特別規(guī)定培訓(xùn)(ppt).ppt
- 2010年某公司網(wǎng)絡(luò)游戲業(yè)務(wù)營(yíng)銷整體規(guī)劃設(shè)計(jì)報(bào)告(51...ppt
- 《夢(mèng)幻西游》桉例分析.ppt
- 21世紀(jì)理論化學(xué)的挑戰(zhàn)和機(jī)遇.ppt
- kfc選址技巧.ppt
- visual_basic_60從入門到精通.ppt
- 大學(xué)生創(chuàng)業(yè)設(shè)計(jì).ppt