pdf文件抽取.rar

RAR格式版權(quán)申訴手機(jī)打開展開

pdf文件抽取,pdf文件抽取頁數(shù)：33字?jǐn)?shù)：15158內(nèi)容摘要隨著計算機(jī)技術(shù)的發(fā)展，電子期刊大量涌現(xiàn)，網(wǎng)上獲取全文資料非常重要，但文件的格式多樣化，這給用戶的閱讀帶來一定麻煩。pdf文件格式與其它格式相比，有很多優(yōu)點(diǎn)，為大部分網(wǎng)絡(luò)出版商所接受，國外的電子期刊大部分采用pdf 格式，而國內(nèi)對此文件格式的應(yīng)用不多見。本文簡單介紹了電子...
編號:99-30565大小:1.84M
分類: 論文>計算機(jī)論文

該文檔為壓縮文件,包含的文件列表如下:

內(nèi)容介紹

原文檔由會員伊麗莎發(fā)布

PDF文件抽取

頁數(shù)：33
字?jǐn)?shù)：15158
內(nèi)容摘要

隨著計算機(jī)技術(shù)的發(fā)展，電子期刊大量涌現(xiàn)，網(wǎng)上獲取全文資料非常重要，但文件的格式多樣化，這給用戶的閱讀帶來一定麻煩。PDF文件格式與其它格式相比，有很多優(yōu)點(diǎn)，為大部分網(wǎng)絡(luò)出版商所接受，國外的電子期刊大部分采用PDF 格式，而國內(nèi)對此文件格式的應(yīng)用不多見。本文簡單介紹了電子期刊及其對文件格式的要求，及PDF 文件格式的特點(diǎn)。
但是PDF文件格式是面向顯示的，PDF文件本身缺乏語義信息，不適合基于語義的查詢。隨著Web應(yīng)用的發(fā)展，在出版、編輯、數(shù)字圖書館等領(lǐng)域，對PDF文件基于語義的查詢變得越來越重要，因此，對PDF 文件進(jìn)行文本內(nèi)容的提取具有十分重要的意義。本文的主要任務(wù)就是如何利用tika對PDF文件進(jìn)行抽取。
目錄

1 概述 1
1.1 選題背景和意義 1
1.2 論文結(jié)構(gòu) 1
2 相關(guān)知識和技術(shù) 2
2.1 搜索引擎簡介 2
2.1.1 搜索引擎概念界定與說明 2
2.2.2 搜索引擎的工作原理 2
2.1.3 垂直搜索引擎 3
2.2 PDF文檔信息抽取的必要性 4
2.3 PDF文件的特點(diǎn) 4
2.4 常用解析工具分析比較 5
2.4.1 PDFBox分析 5
2.4.2 XPDF分析 5
2.4.3 PDFBox和XPDF的比較 6
2.5 apache-tika介紹 6
2.7 元數(shù)據(jù)標(biāo)準(zhǔn) 8
2.7.1 元數(shù)據(jù)標(biāo)準(zhǔn)簡介 8
2.7.2 通用元數(shù)據(jù)標(biāo)準(zhǔn) 8
2.7.3 特定領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn) 9
3 詳細(xì)分析與設(shè)計 10
3.1 PDF文件結(jié)構(gòu) 10
3.3.1 PDF的含義[9] 10
3.3.2 PDF的文件結(jié)構(gòu) 10
3.3.3 PDF的文檔結(jié)構(gòu) 11
3.3.4 PDF的頁面描述 12
3.2 PDFBox深入分析 13
3.3 PDF文檔信息抽取系統(tǒng)的研究 15
3.4 tika功能及體系架構(gòu) 18
3.5 數(shù)據(jù)庫設(shè)計 20
4 系統(tǒng)實(shí)現(xiàn) 21
4.1 tika的安裝和配置 21
4.2 MySQL數(shù)據(jù)庫安裝配置 28
4.3 PDF文件格式轉(zhuǎn)換批處理功能實(shí)現(xiàn) 30
5 總結(jié) 33
參考文獻(xiàn)： 35

參考文獻(xiàn)：
1 http：//iip.dlmu.edu.cn/haisou/zh/resume.html
2 喬冬梅搜索引擎現(xiàn)狀與發(fā)展研究鄭州大學(xué) 2002-05-01
3 李廣麗垂直搜索引擎的研究與設(shè)計華東交通大學(xué) 2008-04-10
4 張秀秀，張立峰 PDF文件文本內(nèi)容提取研究中國科學(xué)院國家科學(xué)圖書館蘭州分館，蘭州交通大學(xué)數(shù)理與軟件工程學(xué)院 2008-11-10
5 田海月 PDF文件格式研究中國高新技術(shù)企業(yè) 2009年第6期
6 Michael Kofler MySQL 5權(quán)威指南（第3版）人民郵電出版社 2006-12
7 周勛元數(shù)據(jù)標(biāo)準(zhǔn)注冊系統(tǒng)研究與原型實(shí)現(xiàn) 南京理工大學(xué) 2007-07-07
8 Warwick Cathro 元數(shù)據(jù)研究概述澳大利亞標(biāo)準(zhǔn)研究會圖書館標(biāo)準(zhǔn)分部 2004-04
9 季永芹 PDF詳解印刷世界 2004-05
10 宋艷娟，張文德基于XML的PDF文檔信息抽取系統(tǒng)的研究現(xiàn)代圖書情報技術(shù) 2005年第9期

国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

pdf文件抽取.rar

該文檔為壓縮文件,包含的文件列表如下:

內(nèi)容介紹

TA們正在看...

相關(guān)文檔

官方微信

支付寶紅包