中文文本語料庫研究.doc
約27頁DOC格式手機(jī)打開展開
中文文本語料庫研究,25頁 1.8萬字 論述詳盡,推薦下載參考。摘要語料庫語言學(xué)是當(dāng)代計(jì)算機(jī)學(xué)語言學(xué)中經(jīng)驗(yàn)主義論取得顯著成效從而在計(jì)算機(jī)語言學(xué)領(lǐng)域占有一定的優(yōu)勢地位的新學(xué)科方向。語料庫是自然語言處理領(lǐng)域的基礎(chǔ)性資源,因此語料庫建設(shè)和研究就成為計(jì)算機(jī)語言學(xué)的重要工作之一。本文是研究中文文本中語料庫的建立與設(shè)計(jì)。我們采用手工...
內(nèi)容介紹
此文檔由會(huì)員 Facebook 發(fā)布
中文文本語料庫研究
25頁 1.8萬字 論述詳盡,推薦下載參考。
摘要
語料庫語言學(xué)是當(dāng)代計(jì)算機(jī)學(xué)語言學(xué)中經(jīng)驗(yàn)主義論取得顯著成效從而在計(jì)算機(jī)語言學(xué)領(lǐng)域占有一定的優(yōu)勢地位的新學(xué)科方向。語料庫是自然語言處理領(lǐng)域的基礎(chǔ)性資源,因此語料庫建設(shè)和研究就成為計(jì)算機(jī)語言學(xué)的重要工作之一。本文是研究中文文本中語料庫的建立與設(shè)計(jì)。我們采用手工或軟件形式獲得語料庫,并用對語料庫進(jìn)行加工整理。
關(guān)鍵詞:文本自動(dòng)校對、語料庫、索引。
Abstract
Corpus Linguistic, a successful empirical methodology, now is a prevailed newtrend in Computational Linguistic field. Corpus is fundamental resource for Natural Language Processing. So some theory and method in different with rational methodology is required that means the construction and research on corpus issue is the basic of Computational Linguistic. This paper attempts to research into corpus for Chinese text. We adopt the handicraf....
Abstract 1
Keywords: Chinese Proofreading, corpus, index. 1
1.2 語料庫的發(fā)展歷史 2
1.2.1 早期的語料庫 2
1.2.2 喬姆斯基的轉(zhuǎn)換生成語法時(shí)期 2
1.2.4 現(xiàn)代語料庫與早期相比 2
1.3 語料庫的基本特征 4
1.4 語料庫的發(fā)展方向及前景 4
1.4.1 基礎(chǔ)語料庫的發(fā)展 4
1.4.2 語料標(biāo)注的發(fā)展 4
1.5 計(jì)算機(jī)在語料庫中的作用 5
1.6 語料庫的研究內(nèi)容 5
1.6.1 語料庫的建設(shè)與編撰 5
1.6.2 語料庫的加工和管理計(jì)數(shù) 5
1.6.3 語言研究中的語料庫的使用 5
2.1 中文文本自動(dòng)校對(The Chinese Proofreading) 6
2.2 語料庫在中文文本自動(dòng)校對中的重要作用 7
2.2.1 為何需要語料庫? 7
2.2.2 基于語料庫和統(tǒng)計(jì)進(jìn)行校對 7
3.1 按出錯(cuò)來源分 8
3.1.2 識(shí)別錯(cuò)誤 9
3.1.3 原稿錯(cuò)誤 9
3.2 按預(yù)校對文本句子語法、語義來分 9
3.2.1 構(gòu)詞錯(cuò)誤 9
3.2.2 句法錯(cuò)誤 9
(1) 詞性搭配錯(cuò)誤: 9
(2) 關(guān)聯(lián)詞語搭配錯(cuò)誤:如原稿出錯(cuò) 9
3.2.3 語義錯(cuò)誤 9
4.1.1 建立針對性、專用性的語料 10
4.1.3 典型性 10
4.1.4 規(guī)模 10
4.2 語料庫的設(shè)計(jì) 11
4.2.1 語料的來源 11
4.2.2 許可權(quán) 11
4.2.3 設(shè)計(jì)方案 12
4.2.4 維護(hù) 13
4.3 語料庫建立的措施 13
4.3.1 純文本原則 13
4.3.2 獲取方式 13
4.3.3 對非文本的轉(zhuǎn)換工作 14
4.4.1 合并后文本中存在的問題 15
4.4.2 編寫整理軟件 15
4.4.3 統(tǒng)計(jì) 18
5.1 文本索引 18
5.2 索引的意義 18
5.3.2 KWIC索引 20
5.3.4 詞語范型(pattern)統(tǒng)計(jì) 21
5.3.6 主題詞提?。╧ey word list)與詞圖(plot) 21
5.4 可用資源與索引軟件 21
第五章 畢業(yè)設(shè)計(jì)心得體會(huì) 23
部分參考文獻(xiàn)
[4] 翁富良等 “計(jì)算語言學(xué)導(dǎo)論” 中國社會(huì)科學(xué)了版社 1998年9月 第1版。
[5] John Sinclair “Corpus Concordance Collocation” 上海外語教育出版社 1999。
[6] 張仰森、丁冰青 “中文文本自動(dòng)校對技術(shù)現(xiàn)狀及展望” 中文信息學(xué)報(bào) 1998第3期。
[7] 黃昌寧等 “語料庫語言學(xué)” 中國計(jì)算機(jī)用戶 1990.11。
[8] 張磊、周明、黃昌寧、潘海華 “中文文本自動(dòng)校對” 語言文字應(yīng)用 2001 第1期。
25頁 1.8萬字 論述詳盡,推薦下載參考。
摘要
語料庫語言學(xué)是當(dāng)代計(jì)算機(jī)學(xué)語言學(xué)中經(jīng)驗(yàn)主義論取得顯著成效從而在計(jì)算機(jī)語言學(xué)領(lǐng)域占有一定的優(yōu)勢地位的新學(xué)科方向。語料庫是自然語言處理領(lǐng)域的基礎(chǔ)性資源,因此語料庫建設(shè)和研究就成為計(jì)算機(jī)語言學(xué)的重要工作之一。本文是研究中文文本中語料庫的建立與設(shè)計(jì)。我們采用手工或軟件形式獲得語料庫,并用對語料庫進(jìn)行加工整理。
關(guān)鍵詞:文本自動(dòng)校對、語料庫、索引。
Abstract
Corpus Linguistic, a successful empirical methodology, now is a prevailed newtrend in Computational Linguistic field. Corpus is fundamental resource for Natural Language Processing. So some theory and method in different with rational methodology is required that means the construction and research on corpus issue is the basic of Computational Linguistic. This paper attempts to research into corpus for Chinese text. We adopt the handicraf....
Abstract 1
Keywords: Chinese Proofreading, corpus, index. 1
1.2 語料庫的發(fā)展歷史 2
1.2.1 早期的語料庫 2
1.2.2 喬姆斯基的轉(zhuǎn)換生成語法時(shí)期 2
1.2.4 現(xiàn)代語料庫與早期相比 2
1.3 語料庫的基本特征 4
1.4 語料庫的發(fā)展方向及前景 4
1.4.1 基礎(chǔ)語料庫的發(fā)展 4
1.4.2 語料標(biāo)注的發(fā)展 4
1.5 計(jì)算機(jī)在語料庫中的作用 5
1.6 語料庫的研究內(nèi)容 5
1.6.1 語料庫的建設(shè)與編撰 5
1.6.2 語料庫的加工和管理計(jì)數(shù) 5
1.6.3 語言研究中的語料庫的使用 5
2.1 中文文本自動(dòng)校對(The Chinese Proofreading) 6
2.2 語料庫在中文文本自動(dòng)校對中的重要作用 7
2.2.1 為何需要語料庫? 7
2.2.2 基于語料庫和統(tǒng)計(jì)進(jìn)行校對 7
3.1 按出錯(cuò)來源分 8
3.1.2 識(shí)別錯(cuò)誤 9
3.1.3 原稿錯(cuò)誤 9
3.2 按預(yù)校對文本句子語法、語義來分 9
3.2.1 構(gòu)詞錯(cuò)誤 9
3.2.2 句法錯(cuò)誤 9
(1) 詞性搭配錯(cuò)誤: 9
(2) 關(guān)聯(lián)詞語搭配錯(cuò)誤:如原稿出錯(cuò) 9
3.2.3 語義錯(cuò)誤 9
4.1.1 建立針對性、專用性的語料 10
4.1.3 典型性 10
4.1.4 規(guī)模 10
4.2 語料庫的設(shè)計(jì) 11
4.2.1 語料的來源 11
4.2.2 許可權(quán) 11
4.2.3 設(shè)計(jì)方案 12
4.2.4 維護(hù) 13
4.3 語料庫建立的措施 13
4.3.1 純文本原則 13
4.3.2 獲取方式 13
4.3.3 對非文本的轉(zhuǎn)換工作 14
4.4.1 合并后文本中存在的問題 15
4.4.2 編寫整理軟件 15
4.4.3 統(tǒng)計(jì) 18
5.1 文本索引 18
5.2 索引的意義 18
5.3.2 KWIC索引 20
5.3.4 詞語范型(pattern)統(tǒng)計(jì) 21
5.3.6 主題詞提?。╧ey word list)與詞圖(plot) 21
5.4 可用資源與索引軟件 21
第五章 畢業(yè)設(shè)計(jì)心得體會(huì) 23
部分參考文獻(xiàn)
[4] 翁富良等 “計(jì)算語言學(xué)導(dǎo)論” 中國社會(huì)科學(xué)了版社 1998年9月 第1版。
[5] John Sinclair “Corpus Concordance Collocation” 上海外語教育出版社 1999。
[6] 張仰森、丁冰青 “中文文本自動(dòng)校對技術(shù)現(xiàn)狀及展望” 中文信息學(xué)報(bào) 1998第3期。
[7] 黃昌寧等 “語料庫語言學(xué)” 中國計(jì)算機(jī)用戶 1990.11。
[8] 張磊、周明、黃昌寧、潘海華 “中文文本自動(dòng)校對” 語言文字應(yīng)用 2001 第1期。
TA們正在看...
- 2015上半年山東教師資格高中英語學(xué)科知識(shí)與教學(xué)能...doc
- 2015上半年山東教師資格高中語文學(xué)科知識(shí)與教學(xué)能...doc
- 2015上半年山東教師資格高中音樂學(xué)科知識(shí)與教學(xué)能...doc
- 2015下半年寧夏教師資格初中信息技術(shù)學(xué)科知識(shí)與教...doc
- 2015下半年寧夏教師資格初中數(shù)學(xué)學(xué)科知識(shí)與教學(xué)能...doc
- 2015下半年寧夏教師資格初中英語學(xué)科知識(shí)與教學(xué)能...doc
- 2015下半年寧夏教師資格初中語文學(xué)科知識(shí)與教學(xué)能...doc
- 2015下半年寧夏教師資格小學(xué)綜合素質(zhì)真題及答案.doc
- 2015下半年寧夏教師資格考試中學(xué)綜合素質(zhì)筆試真題...doc
- 2015下半年寧夏教師資格考試幼兒保教知識(shí)與能力真...doc