国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

畢業(yè)論文-基于hadoop的pagerank算法實(shí)現(xiàn).doc

約40頁(yè)DOC格式手機(jī)打開展開

畢業(yè)論文-基于hadoop的pagerank算法實(shí)現(xiàn),基于hadoop的pagerank算法實(shí)現(xiàn) ,內(nèi)容規(guī)范詳實(shí),完全符合畢業(yè)論文要求目 錄摘 要1abstract2第1章 緒論31.1 算法設(shè)計(jì)的開發(fā)背景31.2 國(guó)內(nèi)外研究現(xiàn)狀31.3 解決的主要工作41.5 論文的組織結(jié)構(gòu)4第2章hadoop架構(gòu)及mapreduce模式介紹62.1 hadoop架構(gòu)介紹62.1.1 ...
編號(hào):45-235882大小:863.00K
分類: 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員 細(xì)雨暖陽(yáng) 發(fā)布

基于Hadoop的PageRank算法實(shí)現(xiàn) ,內(nèi)容規(guī)范詳實(shí),完全符合畢業(yè)論文要求



目   錄
摘   要 1
ABSTRACT 2
第1章 緒論 3
1.1 算法設(shè)計(jì)的開發(fā)背景 3
1.2 國(guó)內(nèi)外研究現(xiàn)狀 3
1.3 解決的主要工作 4
1.5 論文的組織結(jié)構(gòu) 4
第2章Hadoop架構(gòu)及MapReduce模式介紹 6
2.1 Hadoop架構(gòu)介紹 6
2.1.1 Hadoop的簡(jiǎn)介 6
2.1.2 MapReduce計(jì)算模型 7
2.1.3 分布式并行運(yùn)算 9
第3章 PageRank算法 10
3.1 PageRank算法公式 10
3.2 PageRank算法原理 11
3.3 Map/Reduce 下的算法設(shè)計(jì) 13
第4章 PageRank算法的設(shè)計(jì)與實(shí)現(xiàn) 14
4.1  Hadoop的平臺(tái)搭建與環(huán)境設(shè)置 14
4.2 PageRank算法代碼是java實(shí)現(xiàn) 18
4.3 運(yùn)行與結(jié)果分析 32
第5章 結(jié)論 35
致謝 35
參考文獻(xiàn) 36
附錄1 英文原文 36
附錄2 譯文 37

 

基于Hadoop的PageRank算法實(shí)現(xiàn)
摘   要
隨著Internet數(shù)據(jù)的爆炸性增長(zhǎng),傳統(tǒng)的技術(shù)架構(gòu)已經(jīng)越來(lái)越不適應(yīng)當(dāng)前海量數(shù)據(jù)處理的要求。要從如此海量的信息中處理數(shù)據(jù),構(gòu)建一個(gè)具有分布式處理能力的系統(tǒng)就顯得很有意義了。
在此背景下,Hadoop應(yīng)運(yùn)而生,Map/Redcue的編程模型為之找到了一個(gè)很好的解決方案。PageRank,是一種由搜索引擎根據(jù)網(wǎng)頁(yè)之間相互的超鏈接計(jì)算的網(wǎng)頁(yè)排名技術(shù),本文在Hadoop平臺(tái)下應(yīng)用Map/Reduce模式將其實(shí)現(xiàn)。
本文首先分析了Map/Reduce編程模型的運(yùn)行原理及其優(yōu)點(diǎn),其次了解Map/Reduce的開源實(shí)現(xiàn)版本--Hadoop分布式處理平臺(tái),在此基礎(chǔ)上將PageRank算法按照Map/Reduce模型進(jìn)行設(shè)計(jì),充分利用Hadoop的并行分布式計(jì)算優(yōu)點(diǎn),用Java語(yǔ)言實(shí)現(xiàn)。最后對(duì)New York Times數(shù)據(jù)集進(jìn)行測(cè)試,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

關(guān)鍵字:Hadoop;MapReduce;PageRank;并行分布式實(shí)現(xiàn)

 

 

 

 

ABSTRACT
With the explosive growth of the Internet data,the traditional technology framework can no longer adapt to the processing requirements of the mess data .From such a vast amount information to process data,it is very significant to construct a system with distributed processing .
In this context,Hadoop came into being.Map/Reduce programming model provides a good solution for it.PageRank ,is a search engine based on web pages by the hyperlinks between the calculate page rank technology.This paper based on the Hadoop platform to implement it.
This paper analyzes the Map / Reduce programming model of the operating principle and advantages, followed by the understanding of Map / Reduce the open source implementation version - Hadoop distributed processing platform that will be on this basis, PageRank algorithm in accordance with the Map / Reduce model design, full Parallel distributed computing using Hadoop advantages of using Java language.
Finally,New York Times data set for testing.


Keyword: Hadoop;MapReduce;PageRank;Parallel distributed implementation