国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

基于短語的統(tǒng)計機器翻譯性能改進方法研究與系統(tǒng)實現(xiàn).doc

約55頁DOC格式手機打開展開

基于短語的統(tǒng)計機器翻譯性能改進方法研究與系統(tǒng)實現(xiàn),碩士論文 55頁共計27429字摘 要本文研究如何提高現(xiàn)有基于短語的統(tǒng)計機器翻譯系統(tǒng)的性能,并利用文中提出的思想實現(xiàn)面向特定領域的統(tǒng)計機器翻譯系統(tǒng)。文中研究了兩種改善基于短語的統(tǒng)計機器翻譯系統(tǒng)性能的方法,并結合在通用領域和特定領域的應用給出了實驗結果,同時實現(xiàn)了一個面向特...
編號:150-33868大小:598.00K
分類: 論文>計算機論文

內(nèi)容介紹

此文檔由會員 bfxqt 發(fā)布

碩士論文 基于短語的統(tǒng)計機器翻譯性能改進方法研究與系統(tǒng)實現(xiàn)

55頁共計27429字

摘 要
本文研究如何提高現(xiàn)有基于短語的統(tǒng)計機器翻譯系統(tǒng)的性能,并利用文中提出的思想實現(xiàn)面向特定領域的統(tǒng)計機器翻譯系統(tǒng)。文中研究了兩種改善基于短語的統(tǒng)計機器翻譯系統(tǒng)性能的方法,并結合在通用領域和特定領域的應用給出了實驗結果,同時實現(xiàn)了一個面向特定領域的統(tǒng)計機器翻譯系統(tǒng)。
文中通過定義多種特征,利用單純形算法實現(xiàn)了對統(tǒng)計機器翻譯系統(tǒng)的翻譯結果的重排序(rerank);同時還提出了一種人工定義翻譯模板規(guī)則的泛化方法,以及翻譯模板的匹配算法和翻譯模板規(guī)則與統(tǒng)計機器翻譯系統(tǒng)的融合策略;并基于上述兩個思想,輔以記憶庫、詞典等常用技術,開發(fā)了一套面向?qū)@I域的漢英統(tǒng)計機器翻譯軟件。取得主要成果有以下幾方面:
1、 統(tǒng)計機器翻譯中判別重排序算法的實現(xiàn)和特征的選擇
判別重排序(discriminative reranking)就是指針對某個評估標準對機器翻譯程序輸出的多個翻譯候選結果進行重新排序,重新選擇,從中選擇出使該標準達到最優(yōu)時的翻譯結果。文中基于實驗室開發(fā)的基于短語的統(tǒng)計機器翻譯系統(tǒng)--孔夫子(Confucius)系統(tǒng),實現(xiàn)了利用單純形算法(Simplex Algorithm)進行重排序,定義了多種特征,像英語的語言模型特征,句子序列的詞性語言模型特征等,實驗表明,無論是在開發(fā)集還是在測試集上,無論是在國際評測中的通用集合上還是在特定領域的測試集合上,BLEU值都有比較明顯的提高,重排序過程對孔夫子統(tǒng)計機器翻譯系統(tǒng)的整體性能的確起到了促進的作用。
2、 融合了翻譯模板和統(tǒng)計機器翻譯技術的翻譯方法
當前,主流的基于短語的統(tǒng)計機器翻譯技術對于句子中短語間的長距離調(diào)序問題以及句子中非連續(xù)的固定搭配的翻譯等問題,解決的都不是很理想,而傳統(tǒng)的規(guī)則方法在這方面則具有一定的優(yōu)勢,因此,我們提出了在統(tǒng)計機器翻譯系統(tǒng)中融合翻譯模板規(guī)則的翻譯方法,我們提出了書寫人工翻譯模板規(guī)則的泛化方法,以及翻譯模板的匹配算法和翻譯模板與孔夫子統(tǒng)計機器翻譯系統(tǒng)的融合策略。我們利用傳統(tǒng)中藥領域的語料重新訓練了孔夫子系統(tǒng),并從語料中抽取出一部分作為開發(fā)集和測試集,實驗結果表明,翻譯模板規(guī)則的加入和使用使得系統(tǒng)的BLEU值有較大幅度的提高,并且比較好地解決了句子的長距離調(diào)序問題和句子中非連續(xù)固定搭配的翻譯問題,一定程度上提高了孔夫子統(tǒng)計機器翻譯系統(tǒng)的性能。
3、 面向?qū)@I域的統(tǒng)計機器翻譯系統(tǒng)——專譯家系統(tǒng)
以實驗室開發(fā)的孔夫子統(tǒng)計機器翻譯系統(tǒng)作為翻譯的解碼核心,加上上述兩種性能改進的方法,同時輔以記憶庫、詞典等模塊,我們開發(fā)了基于服務器-客戶端模式的漢英統(tǒng)計機器翻譯軟件——專譯家系統(tǒng)(TransAngel),該系統(tǒng)為用戶提供了方便的操作界面,用戶可以動態(tài)地添加自定義模板,詞典等來指導和校正翻譯結果,同時可以進行后臺的批量文件翻譯。
目錄
摘 要 I
目錄 V
圖目錄 VII
表目錄 VIII
第一章 引 言 1
1.1概述 1
1.1.1研究背景 1
1.1.2研究現(xiàn)狀 2
1.2主要研究內(nèi)容 2
1.3論文組織結構 3
第二章 統(tǒng)計機器翻譯結果的重排序 4
2.1研究背景與研究現(xiàn)狀分析 4
2.1.1研究背景 4
2.1.2研究現(xiàn)狀分析 5
2.2統(tǒng)計機器翻譯系統(tǒng)中重排序的基本原理 6
2.2.1對數(shù)線性模型簡介 6
2.2.2重排序的基本原理 7
2.3利用單純形算法進行統(tǒng)計機器翻譯系統(tǒng)的重排序 8
2.3.1重排序的基本流程 9
2.3.2重排序中單純形算法的實現(xiàn) 10
2.4重排序?qū)嶒炛兴x特征的介紹及實驗結果比較 12
2.5總結 16
第三章 融合了翻譯模板和統(tǒng)計機器翻譯的翻譯方法 18
3.1研究背景 18
3.2翻譯模板泛化規(guī)則的抽象與定義方法 20
3.3翻譯模板匹配算法 23
3.3.1翻譯模板匹配算法介紹 23
3.3.2翻譯模板匹配算法的實現(xiàn) 24
3.4系統(tǒng)融合策略 25
3.5實驗及系統(tǒng)性能介紹 27
3.5.1模板匹配實驗對比 27
3.5.2模板匹配后對翻譯結果進行重排序的實驗介紹 28
3.6總結 29
第四章 面向?qū)@I域的統(tǒng)計機器翻譯系統(tǒng) 30
4.1專譯家系統(tǒng)的研究與應用背景 30
4.2專譯家系統(tǒng)所用到的技術 31
4.2.1翻譯系統(tǒng)核心——孔夫子統(tǒng)計機器翻譯系統(tǒng) 31
4.2.2翻譯模板輔助模塊 32
4.2.3翻譯結果重排序模塊 32
4.2.4翻譯記憶庫輔助模塊 32
4.2.5翻譯詞典輔助模塊 32
4.2.6基于服務器-客戶端的多線程調(diào)度模式 33
4.3專譯家系統(tǒng)的體系結構 33
4.3.1專譯家系統(tǒng)的物理拓撲結構 33
4.3.2專譯家系統(tǒng)的邏輯結構 35
4.3.3專譯家系統(tǒng)的框架結構 36
4.4專譯家系統(tǒng)的翻譯流程 37
4.5系統(tǒng)主要界面展示 39
4.5.1客戶端界面 39
4.5.2服務器端界面 40
4.6專譯家系統(tǒng)性能介紹 40
4.7總結 41
第五章 總結 42
5.1總結 42
5.2進一步的工作 43
參考文獻 44
關鍵字:統(tǒng)計機器翻譯,判別重排序,單純形算法,翻譯模板,專譯家系統(tǒng)
參考文獻
[1]. P. F. Brown, S. A. Della Pietra, V. J. Della Pietra, R. L. Mercer. The Mathematics of Statistical Machine Translation, Computational Linguistics, vol. 19, no. 2, 1993.
[2]. Yaser Al-Onaizan, Jan Curin, Michael Jahr, Kevin Knight, John Lafferty, Dan Melamed, Franz-Josef Och, David Purdy, Noah A. Smith and David Yarowsky (1999). Statistical Machine Translation: Final Report, Johns Hopkins University 1999 Summer Workshop on Language Engineering, Center for Speech and Language Processing, Baltimore, MD.
[3]. Philipp Koehn, Franz Josef Och, and Daniel Marcu . Statistical phrase-based translation. In Proceedings of HLTNAACL, 2003, pages 127–133.
[4]. M Collins. Head-Driven Statistical Models for Natural Language Parsing. Ph. D. Thesis, the University of Pennsylvania, 1999.
[5]. Deyi Xiong, Shuanglong Li, Qun Liu, Shouxun Lin, Yueliang Qian. Parsing the Penn Chinese Treebank with Semantic Knowledge. Lecture Notes in Computer Science, Springer-Verlag, Volume 3651, Sep 2005, Pages 70 - 81.
[6]. Deyi Xiong, Qun Liu. 2004. Statistical Chinese parsing with rich linguistic features. in Chinese. Journal of Chinese Information Processing, Vol.19, Pages 61 - 66, March 2005.
[7]. 熊德意,劉群,林守勛,融合豐富語言知識的漢語統(tǒng)計句法分析,中文信息學報,2005, 19(3):61-66
[8]. Yang Liu, Qun Liu, and Shouxun Lin. 2006. Tree-to-String Alignment Template for Statistical Machine Translation. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING/ACL 2006), pages 609-616, Sydney, Australia, July.
[9]. Kenji Yamada and Kevin Knight. 2001. A syntax-based statistical translation model. In Proceedings of 39th Annual Meeting of the ACL, pages 523-530.
[10]. Yang Liu, Yun Huang, Qun Liu, and Shouxun Lin. 2007. Forest-to-String Statistical Translation Rules. To appear in Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics (ACL 2007), Prague, Czech, June.
[11]. Jonathan Graehl and Kevin Knight. 2004. Training tree transducers. In Proceedings of NAACL-HLT 2004, pages 105-112.
[12]. Libin Shen, Anoop Sarkar, Franz Josef Och. Discriminative Reranking for Machine Translation. In Proc. HLTNAACL 2004.
[13]. Zhongjun He, Yang Liu, Deyi Xiong, Hongxu Hou, and Qun Liu. ICT System Description for the 2006 TC-STAR Run#2 SLT Evaluation. TC-STAR Evaluation Workshop, Barcelona, Spain, June 19-21. 2006.
[14]. W.M. Press, B.P. Flannery, S.A. Teukolsky, and W.T. Vetterling, Numerical Recipes in C: The Art of Scientific Computing, Cambridge Univ. Press, 1992.
[15]. Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation.RC22176 September 17,2001,Computer Science.