畢業(yè)論文-基于hadoop的pagerank算法實(shí)現(xiàn).doc
畢業(yè)論文-基于hadoop的pagerank算法實(shí)現(xiàn),基于hadoop的pagerank算法實(shí)現(xiàn) ,內(nèi)容規(guī)范詳實(shí),完全符合畢業(yè)論文要求目 錄摘 要1abstract2第1章 緒論31.1 算法設(shè)計(jì)的開發(fā)背景31.2 國(guó)內(nèi)外研究現(xiàn)狀31.3 解決的主要工作41.5 論文的組織結(jié)構(gòu)4第2章hadoop架構(gòu)及mapreduce模式介紹62.1 hadoop架構(gòu)介紹62.1.1 ...


內(nèi)容介紹
此文檔由會(huì)員 細(xì)雨暖陽(yáng) 發(fā)布基于Hadoop的PageRank算法實(shí)現(xiàn) ,內(nèi)容規(guī)范詳實(shí),完全符合畢業(yè)論文要求
目 錄
摘 要 1
ABSTRACT 2
第1章 緒論 3
1.1 算法設(shè)計(jì)的開發(fā)背景 3
1.2 國(guó)內(nèi)外研究現(xiàn)狀 3
1.3 解決的主要工作 4
1.5 論文的組織結(jié)構(gòu) 4
第2章Hadoop架構(gòu)及MapReduce模式介紹 6
2.1 Hadoop架構(gòu)介紹 6
2.1.1 Hadoop的簡(jiǎn)介 6
2.1.2 MapReduce計(jì)算模型 7
2.1.3 分布式并行運(yùn)算 9
第3章 PageRank算法 10
3.1 PageRank算法公式 10
3.2 PageRank算法原理 11
3.3 Map/Reduce 下的算法設(shè)計(jì) 13
第4章 PageRank算法的設(shè)計(jì)與實(shí)現(xiàn) 14
4.1 Hadoop的平臺(tái)搭建與環(huán)境設(shè)置 14
4.2 PageRank算法代碼是java實(shí)現(xiàn) 18
4.3 運(yùn)行與結(jié)果分析 32
第5章 結(jié)論 35
致謝 35
參考文獻(xiàn) 36
附錄1 英文原文 36
附錄2 譯文 37
基于Hadoop的PageRank算法實(shí)現(xiàn)
摘 要
隨著Internet數(shù)據(jù)的爆炸性增長(zhǎng),傳統(tǒng)的技術(shù)架構(gòu)已經(jīng)越來(lái)越不適應(yīng)當(dāng)前海量數(shù)據(jù)處理的要求。要從如此海量的信息中處理數(shù)據(jù),構(gòu)建一個(gè)具有分布式處理能力的系統(tǒng)就顯得很有意義了。
在此背景下,Hadoop應(yīng)運(yùn)而生,Map/Redcue的編程模型為之找到了一個(gè)很好的解決方案。PageRank,是一種由搜索引擎根據(jù)網(wǎng)頁(yè)之間相互的超鏈接計(jì)算的網(wǎng)頁(yè)排名技術(shù),本文在Hadoop平臺(tái)下應(yīng)用Map/Reduce模式將其實(shí)現(xiàn)。
本文首先分析了Map/Reduce編程模型的運(yùn)行原理及其優(yōu)點(diǎn),其次了解Map/Reduce的開源實(shí)現(xiàn)版本--Hadoop分布式處理平臺(tái),在此基礎(chǔ)上將PageRank算法按照Map/Reduce模型進(jìn)行設(shè)計(jì),充分利用Hadoop的并行分布式計(jì)算優(yōu)點(diǎn),用Java語(yǔ)言實(shí)現(xiàn)。最后對(duì)New York Times數(shù)據(jù)集進(jìn)行測(cè)試,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。
關(guān)鍵字:Hadoop;MapReduce;PageRank;并行分布式實(shí)現(xiàn)
ABSTRACT
With the explosive growth of the Internet data,the traditional technology framework can no longer adapt to the processing requirements of the mess data .From such a vast amount information to process data,it is very significant to construct a system with distributed processing .
In this context,Hadoop came into being.Map/Reduce programming model provides a good solution for it.PageRank ,is a search engine based on web pages by the hyperlinks between the calculate page rank technology.This paper based on the Hadoop platform to implement it.
This paper analyzes the Map / Reduce programming model of the operating principle and advantages, followed by the understanding of Map / Reduce the open source implementation version - Hadoop distributed processing platform that will be on this basis, PageRank algorithm in accordance with the Map / Reduce model design, full Parallel distributed computing using Hadoop advantages of using Java language.
Finally,New York Times data set for testing.
Keyword: Hadoop;MapReduce;PageRank;Parallel distributed implementation
TA們正在看...
- 國(guó)旗下講話——遵守網(wǎng)絡(luò)道德法規(guī)做文明中學(xué)生.doc
- 歷史高效課堂如何提高學(xué)生回答問題能力.doc
- 國(guó)旗下講話——遵紀(jì)守法法律進(jìn)校園.doc
- 反思探索歷史課堂教學(xué)高效之路.doc
- 國(guó)旗下講話——遵紀(jì)守法,法制教育.doc
- 發(fā)揮歷史周測(cè)的作用.doc
- 國(guó)旗下講話——重溫五四激情.doc
- 發(fā)揮歷史學(xué)科特長(zhǎng),實(shí)施感恩教育.doc
- 國(guó)旗下講話——長(zhǎng)征精神激勵(lì)我們前進(jìn).doc
- 史從何來(lái)——?dú)v史課堂中論從史出的幾點(diǎn)思考.doc