国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

pdf文件抽取.rar

RAR格式版權(quán)申訴手機打開展開

pdf文件抽取,pdf文件抽取頁數(shù):33字數(shù):15158內(nèi)容摘要 隨著計算機技術(shù)的發(fā)展,電子期刊大量涌現(xiàn),網(wǎng)上獲取全文資料非常重要,但文件的格式多樣化,這給用戶的閱讀帶來一定麻煩。pdf文件格式與其它格式相比,有很多優(yōu)點,為大部分網(wǎng)絡(luò)出版商所接受,國外的電子期刊大部分采用pdf 格式,而國內(nèi)對此文件格式的應(yīng)用不多見。本文簡單介紹了電子...
編號:99-30565大小:1.84M
分類: 論文>計算機論文

該文檔為壓縮文件,包含的文件列表如下:

內(nèi)容介紹

原文檔由會員 伊麗莎 發(fā)布

PDF文件抽取

頁數(shù):33
字數(shù):15158
內(nèi)容摘要

隨著計算機技術(shù)的發(fā)展,電子期刊大量涌現(xiàn),網(wǎng)上獲取全文資料非常重要,但文件的格式多樣化,這給用戶的閱讀帶來一定麻煩。PDF文件格式與其它格式相比,有很多優(yōu)點,為大部分網(wǎng)絡(luò)出版商所接受,國外的電子期刊大部分采用PDF 格式,而國內(nèi)對此文件格式的應(yīng)用不多見。本文簡單介紹了電子期刊及其對文件格式的要求,及PDF 文件格式的特點。
但是PDF文件格式是面向顯示的,PDF文件本身缺乏語義信息,不適合基于語義的查詢。隨著Web應(yīng)用的發(fā)展,在出版、編輯、數(shù)字圖書館等領(lǐng)域,對PDF文件基于語義的查詢變得越來越重要,因此,對PDF 文件進行文本內(nèi)容的提取具有十分重要的意義。本文的主要任務(wù)就是如何利用tika對PDF文件進行抽取。
目 錄

1 概述 1
1.1 選題背景和意義 1
1.2 論文結(jié)構(gòu) 1
2 相關(guān)知識和技術(shù) 2
2.1 搜索引擎簡介 2
2.1.1 搜索引擎概念界定與說明 2
2.2.2 搜索引擎的工作原理 2
2.1.3 垂直搜索引擎 3
2.2 PDF文檔信息抽取的必要性 4
2.3 PDF文件的特點 4
2.4 常用解析工具分析比較 5
2.4.1 PDFBox分析 5
2.4.2 XPDF分析 5
2.4.3 PDFBox和XPDF的比較 6
2.5 apache-tika介紹 6
2.7 元數(shù)據(jù)標準 8
2.7.1 元數(shù)據(jù)標準簡介 8
2.7.2 通用元數(shù)據(jù)標準 8
2.7.3 特定領(lǐng)域元數(shù)據(jù)標準 9
3 詳細分析與設(shè)計 10
3.1 PDF文件結(jié)構(gòu) 10
3.3.1 PDF的含義[9] 10
3.3.2 PDF的文件結(jié)構(gòu) 10
3.3.3 PDF的文檔結(jié)構(gòu) 11
3.3.4 PDF的頁面描述 12
3.2 PDFBox深入分析 13
3.3 PDF文檔信息抽取系統(tǒng)的研究 15
3.4 tika功能及體系架構(gòu) 18
3.5 數(shù)據(jù)庫設(shè)計 20
4 系統(tǒng)實現(xiàn) 21
4.1 tika的安裝和配置 21
4.2 MySQL數(shù)據(jù)庫安裝配置 28
4.3 PDF文件格式轉(zhuǎn)換批處理功能實現(xiàn) 30
5 總結(jié) 33
參考文獻: 35

參考文獻:
1 http://iip.dlmu.edu.cn/haisou/zh/resume.html
2 喬冬梅 搜索引擎現(xiàn)狀與發(fā)展研究 鄭州大學(xué) 2002-05-01
3 李廣麗 垂直搜索引擎的研究與設(shè)計 華東交通大學(xué) 2008-04-10
4 張秀秀,張立峰 PDF文件文本內(nèi)容提取研究 中國科學(xué)院國家科學(xué)圖書館蘭州分館,蘭州交通大學(xué)數(shù)理與軟件工程學(xué)院 2008-11-10
5 田海月 PDF文件格式研究 中國高新技術(shù)企業(yè) 2009年第6期
6 Michael Kofler MySQL 5權(quán)威指南(第3版) 人民郵電出版社 2006-12
7 周勛 元數(shù)據(jù)標準注冊系統(tǒng)研究與原型實現(xiàn) 南京理工大學(xué) 2007-07-07
8 Warwick Cathro 元數(shù)據(jù)研究概述 澳大利亞標準研究會圖書館標準分部 2004-04
9 季永芹 PDF詳解 印刷世界 2004-05
10 宋艷娟,張文德 基于XML的PDF文檔信息抽取系統(tǒng)的研究 現(xiàn)代圖書情報技術(shù) 2005年第9期