国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

漢語(yǔ)股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).doc

約27頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)

漢語(yǔ)股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),本文共計(jì)27頁(yè),17637字;摘要本文介紹了一個(gè)基于中文信息抽取模型的股市公告信息抽取系統(tǒng)(sbies)的設(shè)計(jì)與實(shí)現(xiàn)。介紹了該系統(tǒng)的結(jié)構(gòu)框架和分布圖。討論了漢語(yǔ)信息抽取模型的具體結(jié)構(gòu),構(gòu)建了由自動(dòng)分詞、自動(dòng)標(biāo)注和模板填充三個(gè)階段組成的簡(jiǎn)化模型。簡(jiǎn)單介紹了自動(dòng)分詞的常用算法和自動(dòng)標(biāo)注中...
編號(hào):10-29205大小:330.50K
分類(lèi): 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員 霜天盈月 發(fā)布

漢語(yǔ)股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

本文共計(jì)27頁(yè),17637字;

摘要

本文介紹了一個(gè)基于中文信息抽取模型的股市公告信息抽取系統(tǒng)(SBIES)的設(shè)計(jì)與實(shí)現(xiàn)。介紹了該系統(tǒng)的結(jié)構(gòu)框架和分布圖。討論了漢語(yǔ)信息抽取模型的具體結(jié)構(gòu),構(gòu)建了由自動(dòng)分詞、自動(dòng)標(biāo)注和模板填充三個(gè)階段組成的簡(jiǎn)化模型。簡(jiǎn)單介紹了自動(dòng)分詞的常用算法和自動(dòng)標(biāo)注中的標(biāo)注規(guī)范。重點(diǎn)探討了模板填充的具體算法。文中分別討論了采用基于規(guī)則的結(jié)構(gòu)主義方法和基于語(yǔ)料庫(kù)概率統(tǒng)計(jì)的功能主義方法。著重討論了采用隱馬爾科夫模型進(jìn)行信息抽取的具體算法。對(duì)模型的參數(shù)獲取算法作了討論,改進(jìn)了Baum-Welch算法以適應(yīng)信息抽取的應(yīng)用。對(duì)領(lǐng)域文本做了人工標(biāo)注,通過(guò)計(jì)算機(jī)處理獲取所需的統(tǒng)計(jì)數(shù)據(jù)。利用統(tǒng)計(jì)數(shù)據(jù)完善HMM模型。

關(guān)鍵詞:信息抽取,隱馬爾科夫模型,自然語(yǔ)言
Abstract

This article introduced the design and implementation of a Chinese IE Technology based stock bulletin information extraction system (SBIES). The framework and deployment of the system were described. The structure of the Chinese information extraction model was discussed in detail. We proposed a simplified 3 tiers IE model consisting of automatic word segmentation, automatic annotation, and template filling. The algorithms used in automatic word segmentation and annotation were briefly introduced while algorithms used in template filling were focused on. In
目錄


1 概述 1
1.1 信息抽取技術(shù)(INFORMATION EXTRACTION) 1
1.1.1 信息抽取技術(shù)的發(fā)展 1
1.1.2 信息抽取技術(shù)的特點(diǎn) 3
1.2 股市公告信息抽取系統(tǒng)(SBIES) 3
1.2.1 應(yīng)用背景 3
1.2.2 系統(tǒng)框架結(jié)構(gòu) 4
1.2.3 系統(tǒng)分布結(jié)構(gòu) 5
1.3 本文內(nèi)容簡(jiǎn)介 5
2 信息抽取模塊的設(shè)計(jì) 7
2.1 模塊內(nèi)部結(jié)構(gòu) 7
2.1.1 串行化的模塊內(nèi)部結(jié)構(gòu)及其問(wèn)題 7
2.1.2 簡(jiǎn)化的高性能信息抽取模型 8
2.2 自動(dòng)分詞 9
2.3 詞類(lèi)自動(dòng)標(biāo)注 10
3 信息抽取的關(guān)鍵算法 13
3.1 傳統(tǒng)語(yǔ)言學(xué)方法 13
3.1.1 基于規(guī)則的信息抽取算法 13
3.1.2 基于規(guī)則信息抽取面臨的嚴(yán)峻問(wèn)題 15
3.2 統(tǒng)計(jì)學(xué)方法 16
3.2.1 基于語(yǔ)料庫(kù)的統(tǒng)計(jì)語(yǔ)言學(xué)方法 16
3.2.2 隱馬爾科夫模型(HMM)簡(jiǎn)介 16
3.2.3 隱馬爾科夫模型(HMM)在信息抽取上的應(yīng)用 17
3.2.4 隱馬爾科夫模型的訓(xùn)練與優(yōu)化問(wèn)題 19
4 實(shí)現(xiàn)與結(jié)果分析 20
4.1 模塊實(shí)現(xiàn)情況 20
4.2 兩種信息抽取方法的比較 21
4.3 結(jié)果總結(jié) 21
4.4 遺留的問(wèn)題 22
參考文獻(xiàn) 23
致謝 24

部分參考文獻(xiàn)
1. 劉開(kāi)瑛,《中文文本自動(dòng)分詞技術(shù)研究》,山西大學(xué)計(jì)算機(jī)科學(xué)系,2001
2. 張冬茉,姚天昉,王纖,《多語(yǔ)種天氣預(yù)報(bào)文本生成系統(tǒng)中句子規(guī)劃器的設(shè)計(jì)與實(shí)現(xiàn)》,上海交通大學(xué)計(jì)算機(jī)系
3. 劉開(kāi)瑛,郭炳炎,《自然語(yǔ)言處理》,科學(xué)出版社,1991
4. Stephen Soderland et al., Issues in Inductive Learning of Domain-Specific Text Extraction Rules, 1995
5. Kam-Fai Wong, Wenjie Li, Chunfa Yuan, Classifying Temporal Concepts in Chinese for Information Extraction, 1999
6. Mary Elaine Califf, Raymond J. Mooney, Relational Learning of Pattern-Match Rules for Information Extraction, 1999