国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

基于cuda并行計(jì)算的研究[獨(dú)家原創(chuàng)].rar

   
RAR格式版權(quán)申訴手機(jī)打開(kāi)展開(kāi)

基于cuda并行計(jì)算的研究[獨(dú)家原創(chuàng)],基于cuda并行計(jì)算的研究 15700字自己原創(chuàng)的畢業(yè)論文,已經(jīng)通過(guò)校內(nèi)系統(tǒng)檢測(cè),重復(fù)率低,僅在本站獨(dú)家出售,大家放心下載使用基于cuda并行計(jì)算的研究i第一章 緒論11.1 課題研究的背景與意義11.2 國(guó)內(nèi)外研究現(xiàn)狀11.3 本文研究?jī)?nèi)容31.4 論文的結(jié)構(gòu)4第二章 cuda并行模型及編程環(huán)境52.1 cuda編程...
編號(hào):160-423122大小:624.59K
分類(lèi): 論文>計(jì)算機(jī)論文

該文檔為壓縮文件,包含的文件列表如下:

內(nèi)容介紹

原文檔由會(huì)員 淘寶大夢(mèng) 發(fā)布

基于cuda并行計(jì)算的研究

15700字
自己原創(chuàng)的畢業(yè)論文,已經(jīng)通過(guò)校內(nèi)系統(tǒng)檢測(cè),重復(fù)率低,僅在本站獨(dú)家出售,大家放心下載使用

基于cuda并行計(jì)算的研究 i
第一章 緒論 1
1.1 課題研究的背景與意義 1
1.2 國(guó)內(nèi)外研究現(xiàn)狀 1
1.3 本文研究?jī)?nèi)容 3
1.4 論文的結(jié)構(gòu) 4
第二章 CUDA并行模型及編程環(huán)境 5
2.1 CUDA編程模型 5
2.1.1 CUDA軟件架構(gòu) 5
2.1.2 主機(jī)與設(shè)備 6
2.1.3 nvcc 編譯器 8
2.2 CUDA存儲(chǔ)器模型 9
2.2.1寄存器 9
2.2.2 局部存儲(chǔ)器 9
2.2.3 共享存儲(chǔ)器 10
2.2.4 全局存儲(chǔ)器 12
2.2.5 固定存儲(chǔ)器 13
2.2.6 紋理存儲(chǔ)器 13
2.3 CUDA 執(zhí)行模型 14
2.4 CUDA語(yǔ)法介紹 15
第三章 快速傅立葉變換FFT定義與設(shè)計(jì) 16
3.1 離散傅立葉變換定義 16
3.2 快速傅立葉變換的基本思想 17
3.3 快速傅立葉串行算法 19
3.3.1 倒位序重排算法 19
3.3.2 快速傅立葉串行算法 20
3.4 快速傅立葉并行算法 22
第四章 CUDA的快速傅立葉算法實(shí)現(xiàn) 27
4.1 實(shí)驗(yàn)平臺(tái)及環(huán)境搭建 27
4.2 建立 CPU+GPU 異構(gòu)模型 29
4.3 實(shí)驗(yàn)結(jié)果分析 30
第五章 總結(jié)與展望 30
致 謝 31
參 考 文 獻(xiàn) 32


摘要
摘要 CUDA編程模型提供了一個(gè)直截了當(dāng)?shù)姆椒ㄐ稳莨逃械牟⑿杏?jì)算,NVIDIA的TeslaGPU架構(gòu)提供了極高的運(yùn)算流量并且解決了大規(guī)模并行問(wèn)題。
從單芯過(guò)渡到多核處理器,幾乎所有的CPU現(xiàn)在都是并行處理器。增加并行性,而不是增加時(shí)鐘率,已成為處理器性能的增長(zhǎng)的主要?jiǎng)恿?,而這趨勢(shì)很可能會(huì)持續(xù)下去。這就提出了許多如何開(kāi)發(fā)高效的并行程序來(lái)更好地?cái)U(kuò)展更加跨越并行處理器的一系列重要問(wèn)題。
前人研究表明,CUFFT----一種最容易實(shí)現(xiàn)的快速傅里葉變換算法并利用CUDA提供的庫(kù)-----和一個(gè)簡(jiǎn)單的內(nèi)核執(zhí)行逐點(diǎn)相乘。這個(gè)做法比在單核2.4GHZ酷睿2四核Q6600用優(yōu)化FFT運(yùn)行快8倍。但是,因?yàn)镕FT的大小是相當(dāng)小的(256×64 ),使用整個(gè)GPU執(zhí)行單一的FFT不能作高效地利用GPU做事 。相反,創(chuàng)建一個(gè)批處理的FFT它可將多個(gè)快速傅里葉變換到不同的線程塊是一個(gè)利用硬件的更加有效的方法。提高一個(gè)批處理二維FFT內(nèi)核接近近一倍卷積性能并且使GPU卷積比CPU快近16倍的執(zhí)行時(shí)間。[此處應(yīng)該較為歸納介紹文章的內(nèi)容和最后的結(jié)論.]

本文主要分析的是CPU和GPU平臺(tái)上FFT算法所用時(shí)間的比較。為CPU FFT的方法描述了詳細(xì)的流程圖。一維復(fù)數(shù)與復(fù)數(shù)的運(yùn)算將會(huì)由CUFFT函數(shù)庫(kù)詳細(xì)說(shuō)明。最終兩個(gè)結(jié)果將會(huì)由加速時(shí)間進(jìn)行比較。
遺憾的是,Linux平臺(tái)的CUDA因?yàn)橛布南拗贫黄冉K止。[此處應(yīng)該強(qiáng)調(diào)對(duì)linux平臺(tái)下cuda環(huán)境的搭建作了學(xué)習(xí)和研究。]

關(guān)鍵詞:CUDA并行計(jì)算,快速傅立葉變換,CPU FFT,CUFFT


Abstract The CUDA programming model provides a straightforward means of de-scribing inherently parallel computations, and NVIDIA’s tesla GPU architecture delivers high computational throughput on massively parallel problems.
With the transition from single core to multicore processors essentially complete, virtually all commodity CPUs are now parallel processors.Increasing parallelism, rather than increasing clock rate, has become the primary engine of processor performance growth, and this trend is likely to continue. This raises many important questions about how to productively develop efficient parallel programs that will scale well across increasingly parallel processors.
Previous studies have shown that CUFFT—the Fast Fourier Transform library supplied with CUDA—and a simple kernel performs point-wise multiplication. This approach is approximately eight times faster than a CPU version using an optimized FFT and running on one core of a 2.4-GHz Core2 Quad Q6600 processor. However, because the FFT size is fairly small (256×64), using the entire GPU to perform a single FFT does not produce enough work to efficiently utilize the GPU. Instead,creating a batched FFT that assigns multiple FFTs to different thread blocks is a much more effective way of utilizing the hardware. Implementing a batched 2D FFT kernel nearly doubled convolution performance and made the GPU convolution almost 16 times faster than the CPU implementation.
Main analysis of this text is the comparison of FFT between CPU platform and GPU platform.The main methods used in CPU FFT has been introduced with flow chart. 1D Complex-to-Complex Transforms will be introduced by CUFFT in detail.Two results from CPU and GPU are compared with speedup.
Unfortunately,the construction of Linux platform is terminated because of limitation of hardware.

Keywords CUDA parallel,Fast Fourier Transform,CPU FFT,CUFFT