漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn).doc
約27頁DOC格式手機(jī)打開展開
漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn),頁數(shù)27字?jǐn)?shù)17176摘要本文介紹了一個基于中文信息抽取模型的股市公告信息抽取系統(tǒng)(sbies)的設(shè)計與實現(xiàn)。介紹了該系統(tǒng)的結(jié)構(gòu)框架和分布圖。討論了漢語信息抽取模型的具體結(jié)構(gòu),構(gòu)建了由自動分詞、自動標(biāo)注和模板填充三個階段組成的簡化模型。簡單介紹了自動分詞的常用算法和自動標(biāo)注中的標(biāo)注規(guī)...
內(nèi)容介紹
此文檔由會員 天緣 發(fā)布
漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn)
頁數(shù) 27 字?jǐn)?shù) 17176
摘要
本文介紹了一個基于中文信息抽取模型的股市公告信息抽取系統(tǒng)(SBIES)的設(shè)計與實現(xiàn)。介紹了該系統(tǒng)的結(jié)構(gòu)框架和分布圖。討論了漢語信息抽取模型的具體結(jié)構(gòu),構(gòu)建了由自動分詞、自動標(biāo)注和模板填充三個階段組成的簡化模型。簡單介紹了自動分詞的常用算法和自動標(biāo)注中的標(biāo)注規(guī)范。重點探討了模板填充的具體算法。文中分別討論了采用基于規(guī)則的結(jié)構(gòu)主義方法和基于語料庫概率統(tǒng)計的功能主義方法。著重討論了采用隱馬爾科夫模型進(jìn)行信息抽取的具體算法。對模型的參數(shù)獲取算法作了討論,改進(jìn)了Baum-Welch算法以適應(yīng)信息抽取的應(yīng)用。對領(lǐng)域文本做了人工標(biāo)注,通過計算機(jī)處理獲取所需的統(tǒng)計數(shù)據(jù)。利用統(tǒng)計數(shù)據(jù)完善HMM模型。
關(guān)鍵詞:信息抽取,隱馬爾科夫模型,自然語言
目錄
1 概述 1
1.1 信息抽取技術(shù)(INFORMATION EXTRACTION) 1
1.1.1 信息抽取技術(shù)的發(fā)展 1
1.1.2 信息抽取技術(shù)的特點 3
1.2 股市公告信息抽取系統(tǒng)(SBIES) 3
1.2.1 應(yīng)用背景 3
1.2.2 系統(tǒng)框架結(jié)構(gòu) 4
1.2.3 系統(tǒng)分布結(jié)構(gòu) 5
1.3 本文內(nèi)容簡介 5
2 信息抽取模塊的設(shè)計 7
2.1 模塊內(nèi)部結(jié)構(gòu) 7
2.1.1 串行化的模塊內(nèi)部結(jié)構(gòu)及其問題 7
2.1.2 簡化的高性能信息抽取模型 8
2.2 自動分詞 9
2.3 詞類自動標(biāo)注 10
3 信息抽取的關(guān)鍵算法 13
3.1 傳統(tǒng)語言學(xué)方法 13
3.1.1 基于規(guī)則的信息抽取算法 13
3.1.2 基于規(guī)則信息抽取面臨的嚴(yán)峻問題 15
3.2 統(tǒng)計學(xué)方法 16
3.2.1 基于語料庫的統(tǒng)計語言學(xué)方法 16
3.2.2 隱馬爾科夫模型(HMM)簡介 16
3.2.3 隱馬爾科夫模型(HMM)在信息抽取上的應(yīng)用 17
3.2.4 隱馬爾科夫模型的訓(xùn)練與優(yōu)化問題 19
4 實現(xiàn)與結(jié)果分析 20
4.1 模塊實現(xiàn)情況 20
4.2 兩種信息抽取方法的比較 21
4.3 結(jié)果總結(jié) 21
4.4 遺留的問題 22
參考文獻(xiàn) 23
致謝 24
參考文獻(xiàn)
1. 劉開瑛,《中文文本自動分詞技術(shù)研究》,山西大學(xué)計算機(jī)科學(xué)系,2001
2. 張冬茉,姚天昉,王纖,《多語種天氣預(yù)報文本生成系統(tǒng)中句子規(guī)劃器的設(shè)計與實現(xiàn)》,上海交通大學(xué)計算機(jī)系
3. 劉開瑛,郭炳炎,《自然語言處理》,科學(xué)出版社,1991
4. Stephen Soderland et al., Issues in Inductive Learning of Domain-Specific Text Extraction Rules, 1995
5. Kam-Fai Wong, Wenjie Li, Chunfa Yuan, Classifying Temporal Concepts in Chinese for Information Extraction, 1999
頁數(shù) 27 字?jǐn)?shù) 17176
摘要
本文介紹了一個基于中文信息抽取模型的股市公告信息抽取系統(tǒng)(SBIES)的設(shè)計與實現(xiàn)。介紹了該系統(tǒng)的結(jié)構(gòu)框架和分布圖。討論了漢語信息抽取模型的具體結(jié)構(gòu),構(gòu)建了由自動分詞、自動標(biāo)注和模板填充三個階段組成的簡化模型。簡單介紹了自動分詞的常用算法和自動標(biāo)注中的標(biāo)注規(guī)范。重點探討了模板填充的具體算法。文中分別討論了采用基于規(guī)則的結(jié)構(gòu)主義方法和基于語料庫概率統(tǒng)計的功能主義方法。著重討論了采用隱馬爾科夫模型進(jìn)行信息抽取的具體算法。對模型的參數(shù)獲取算法作了討論,改進(jìn)了Baum-Welch算法以適應(yīng)信息抽取的應(yīng)用。對領(lǐng)域文本做了人工標(biāo)注,通過計算機(jī)處理獲取所需的統(tǒng)計數(shù)據(jù)。利用統(tǒng)計數(shù)據(jù)完善HMM模型。
關(guān)鍵詞:信息抽取,隱馬爾科夫模型,自然語言
目錄
1 概述 1
1.1 信息抽取技術(shù)(INFORMATION EXTRACTION) 1
1.1.1 信息抽取技術(shù)的發(fā)展 1
1.1.2 信息抽取技術(shù)的特點 3
1.2 股市公告信息抽取系統(tǒng)(SBIES) 3
1.2.1 應(yīng)用背景 3
1.2.2 系統(tǒng)框架結(jié)構(gòu) 4
1.2.3 系統(tǒng)分布結(jié)構(gòu) 5
1.3 本文內(nèi)容簡介 5
2 信息抽取模塊的設(shè)計 7
2.1 模塊內(nèi)部結(jié)構(gòu) 7
2.1.1 串行化的模塊內(nèi)部結(jié)構(gòu)及其問題 7
2.1.2 簡化的高性能信息抽取模型 8
2.2 自動分詞 9
2.3 詞類自動標(biāo)注 10
3 信息抽取的關(guān)鍵算法 13
3.1 傳統(tǒng)語言學(xué)方法 13
3.1.1 基于規(guī)則的信息抽取算法 13
3.1.2 基于規(guī)則信息抽取面臨的嚴(yán)峻問題 15
3.2 統(tǒng)計學(xué)方法 16
3.2.1 基于語料庫的統(tǒng)計語言學(xué)方法 16
3.2.2 隱馬爾科夫模型(HMM)簡介 16
3.2.3 隱馬爾科夫模型(HMM)在信息抽取上的應(yīng)用 17
3.2.4 隱馬爾科夫模型的訓(xùn)練與優(yōu)化問題 19
4 實現(xiàn)與結(jié)果分析 20
4.1 模塊實現(xiàn)情況 20
4.2 兩種信息抽取方法的比較 21
4.3 結(jié)果總結(jié) 21
4.4 遺留的問題 22
參考文獻(xiàn) 23
致謝 24
參考文獻(xiàn)
1. 劉開瑛,《中文文本自動分詞技術(shù)研究》,山西大學(xué)計算機(jī)科學(xué)系,2001
2. 張冬茉,姚天昉,王纖,《多語種天氣預(yù)報文本生成系統(tǒng)中句子規(guī)劃器的設(shè)計與實現(xiàn)》,上海交通大學(xué)計算機(jī)系
3. 劉開瑛,郭炳炎,《自然語言處理》,科學(xué)出版社,1991
4. Stephen Soderland et al., Issues in Inductive Learning of Domain-Specific Text Extraction Rules, 1995
5. Kam-Fai Wong, Wenjie Li, Chunfa Yuan, Classifying Temporal Concepts in Chinese for Information Extraction, 1999