漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn).doc
約27頁DOC格式手機打開展開
漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn),本文共計27頁,17637字;摘要本文介紹了一個基于中文信息抽取模型的股市公告信息抽取系統(tǒng)(sbies)的設(shè)計與實現(xiàn)。介紹了該系統(tǒng)的結(jié)構(gòu)框架和分布圖。討論了漢語信息抽取模型的具體結(jié)構(gòu),構(gòu)建了由自動分詞、自動標(biāo)注和模板填充三個階段組成的簡化模型。簡單介紹了自動分詞的常用算法和自動標(biāo)注中...
內(nèi)容介紹
此文檔由會員 sally410 發(fā)布
漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn)
本文共計27頁,17637字;
摘要
本文介紹了一個基于中文信息抽取模型的股市公告信息抽取系統(tǒng)(SBIES)的設(shè)計與實現(xiàn)。介紹了該系統(tǒng)的結(jié)構(gòu)框架和分布圖。討論了漢語信息抽取模型的具體結(jié)構(gòu),構(gòu)建了由自動分詞、自動標(biāo)注和模板填充三個階段組成的簡化模型。簡單介紹了自動分詞的常用算法和自動標(biāo)注中的標(biāo)注規(guī)范。重點探討了模板填充的具體算法。文中分別討論了采用基于規(guī)則的結(jié)構(gòu)主義方法和基于語料庫概率統(tǒng)計的功能主義方法。著重討論了采用隱馬爾科夫模型進行信息抽取的具體算法。對模型的參數(shù)獲取算法作了討論,改進了Baum-Welch算法以適應(yīng)信息抽取的應(yīng)用。對領(lǐng)域文本做了人工標(biāo)注,通過計算機處理獲取所需的統(tǒng)計數(shù)據(jù)。利用統(tǒng)計數(shù)據(jù)完善HMM模型。
關(guān)鍵詞:信息抽取,隱馬爾科夫模型,自然語言
目錄
1 概述 1
1.1 信息抽取技術(shù)(INFORMATION EXTRACTION) 1
1.1.1 信息抽取技術(shù)的發(fā)展 1
1.1.2 信息抽取技術(shù)的特點 3
1.2 股市公告信息抽取系統(tǒng)(SBIES) 3
1.2.1 應(yīng)用背景 3
1.2.2 系統(tǒng)框架結(jié)構(gòu) 4
1.2.3 系統(tǒng)分布結(jié)構(gòu) 5
1.3 本文內(nèi)容簡介 5
2 信息抽取模塊的設(shè)計 7
2.1 模塊內(nèi)部結(jié)構(gòu) 7
2.1.1 串行化的模塊內(nèi)部結(jié)構(gòu)及其問題 7
2.1.2 簡化的高性能信息抽取模型 8
2.2 自動分詞 9
2.3 詞類自動標(biāo)注 10
3 信息抽取的關(guān)鍵算法 13
3.1 傳統(tǒng)語言學(xué)方法 13
3.1.1 基于規(guī)則的信息抽取算法 13
3.1.2 基于規(guī)則信息抽取面臨的嚴(yán)峻問題 15
3.2 統(tǒng)計學(xué)方法 16
3.2.1 基于語料庫的統(tǒng)計語言學(xué)方法 16
3.2.2 隱馬爾科夫模型(HMM)簡介 16
3.2.3 隱馬爾科夫模型(HMM)在信息抽取上的應(yīng)用 17
3.2.4 隱馬爾科夫模型的訓(xùn)練與優(yōu)化問題 19
4 實現(xiàn)與結(jié)果分析 20
4.1 模塊實現(xiàn)情況 20
4.2 兩種信息抽取方法的比較 21
4.3 結(jié)果總結(jié) 21
4.4 遺留的問題 22
參考文獻 23
致謝 24
參考文獻
1. 劉開瑛,《中文文本自動分詞技術(shù)研究》,山西大學(xué)計算機科學(xué)系,2001
2. 張冬茉,姚天昉,王纖,《多語種天氣預(yù)報文本生成系統(tǒng)中句子規(guī)劃器的設(shè)計與實現(xiàn)》,上海交通大學(xué)計算機系
3. 劉開瑛,郭炳炎,《自然語言處理》,科學(xué)出版社,1991
4. Stephen Soderland et al., Issues in Inductive Learning of Domain-Specific Text Extraction Rules, 1995
5. Kam-Fai Wong, Wenjie Li, Chunfa Yuan, Classifying Temporal Concepts in Chinese for Information Extraction, 1999
6. Mary Elaine Califf, Raymond J. Mooney, Relational Learning of Pattern-Match Rules for Information Extraction, 1999
7. 張冬茉,王纖,《基于WEB的信息抽取模型的研究》,上海交通大學(xué),2001
8. 姚天順,《自然語言理解》,清華大學(xué)出版社,1995
本文共計27頁,17637字;
摘要
本文介紹了一個基于中文信息抽取模型的股市公告信息抽取系統(tǒng)(SBIES)的設(shè)計與實現(xiàn)。介紹了該系統(tǒng)的結(jié)構(gòu)框架和分布圖。討論了漢語信息抽取模型的具體結(jié)構(gòu),構(gòu)建了由自動分詞、自動標(biāo)注和模板填充三個階段組成的簡化模型。簡單介紹了自動分詞的常用算法和自動標(biāo)注中的標(biāo)注規(guī)范。重點探討了模板填充的具體算法。文中分別討論了采用基于規(guī)則的結(jié)構(gòu)主義方法和基于語料庫概率統(tǒng)計的功能主義方法。著重討論了采用隱馬爾科夫模型進行信息抽取的具體算法。對模型的參數(shù)獲取算法作了討論,改進了Baum-Welch算法以適應(yīng)信息抽取的應(yīng)用。對領(lǐng)域文本做了人工標(biāo)注,通過計算機處理獲取所需的統(tǒng)計數(shù)據(jù)。利用統(tǒng)計數(shù)據(jù)完善HMM模型。
關(guān)鍵詞:信息抽取,隱馬爾科夫模型,自然語言
目錄
1 概述 1
1.1 信息抽取技術(shù)(INFORMATION EXTRACTION) 1
1.1.1 信息抽取技術(shù)的發(fā)展 1
1.1.2 信息抽取技術(shù)的特點 3
1.2 股市公告信息抽取系統(tǒng)(SBIES) 3
1.2.1 應(yīng)用背景 3
1.2.2 系統(tǒng)框架結(jié)構(gòu) 4
1.2.3 系統(tǒng)分布結(jié)構(gòu) 5
1.3 本文內(nèi)容簡介 5
2 信息抽取模塊的設(shè)計 7
2.1 模塊內(nèi)部結(jié)構(gòu) 7
2.1.1 串行化的模塊內(nèi)部結(jié)構(gòu)及其問題 7
2.1.2 簡化的高性能信息抽取模型 8
2.2 自動分詞 9
2.3 詞類自動標(biāo)注 10
3 信息抽取的關(guān)鍵算法 13
3.1 傳統(tǒng)語言學(xué)方法 13
3.1.1 基于規(guī)則的信息抽取算法 13
3.1.2 基于規(guī)則信息抽取面臨的嚴(yán)峻問題 15
3.2 統(tǒng)計學(xué)方法 16
3.2.1 基于語料庫的統(tǒng)計語言學(xué)方法 16
3.2.2 隱馬爾科夫模型(HMM)簡介 16
3.2.3 隱馬爾科夫模型(HMM)在信息抽取上的應(yīng)用 17
3.2.4 隱馬爾科夫模型的訓(xùn)練與優(yōu)化問題 19
4 實現(xiàn)與結(jié)果分析 20
4.1 模塊實現(xiàn)情況 20
4.2 兩種信息抽取方法的比較 21
4.3 結(jié)果總結(jié) 21
4.4 遺留的問題 22
參考文獻 23
致謝 24
參考文獻
1. 劉開瑛,《中文文本自動分詞技術(shù)研究》,山西大學(xué)計算機科學(xué)系,2001
2. 張冬茉,姚天昉,王纖,《多語種天氣預(yù)報文本生成系統(tǒng)中句子規(guī)劃器的設(shè)計與實現(xiàn)》,上海交通大學(xué)計算機系
3. 劉開瑛,郭炳炎,《自然語言處理》,科學(xué)出版社,1991
4. Stephen Soderland et al., Issues in Inductive Learning of Domain-Specific Text Extraction Rules, 1995
5. Kam-Fai Wong, Wenjie Li, Chunfa Yuan, Classifying Temporal Concepts in Chinese for Information Extraction, 1999
6. Mary Elaine Califf, Raymond J. Mooney, Relational Learning of Pattern-Match Rules for Information Extraction, 1999
7. 張冬茉,王纖,《基于WEB的信息抽取模型的研究》,上海交通大學(xué),2001
8. 姚天順,《自然語言理解》,清華大學(xué)出版社,1995
TA們正在看...
- 《探究動能變化跟功的關(guān)系》教學(xué)設(shè)計.doc
- 民營企業(yè)持續(xù)發(fā)展路徑的思考.doc
- 會計電算化目前的問題及對策范文.doc
- 關(guān)于中小企業(yè)特色化經(jīng)營戰(zhàn)略的研究.doc
- 建立現(xiàn)代企業(yè)制度,深化高校后勤社會化.doc
- 我國企業(yè)實施全面預(yù)算管理存在的問題及改進措施.doc
- 我國個人所得稅的流失原因及稅收建議.doc
- 中小學(xué)事業(yè)單位國有資產(chǎn)管理存在的問題.doc
- 論工廠企業(yè)的行政管理工作.doc
- 論構(gòu)建偏遠農(nóng)村食品藥品監(jiān)管體制.doc