網(wǎng)絡(luò)資源管理系統(tǒng).doc
約46頁(yè)DOC格式手機(jī)打開展開
網(wǎng)絡(luò)資源管理系統(tǒng),頁(yè)數(shù) 46字?jǐn)?shù) 20885摘要強(qiáng)化學(xué)習(xí)是近幾十年來迅速發(fā)展起來的一類機(jī)器學(xué)習(xí)算法,并且從1980年以來逐漸成為機(jī)器學(xué)習(xí)研究的一個(gè)比較活躍領(lǐng)域,引起了包括計(jì)算機(jī)科學(xué)、控制科學(xué)以及心理學(xué)領(lǐng)域的學(xué)者的極大關(guān)注。 所有的類型機(jī)器人或機(jī)制設(shè)計(jì)自控器對(duì)于科學(xué)家和工程師是具有很大的挑戰(zhàn)性, 由早期的計(jì)算機(jī)時(shí)代至今。通...
內(nèi)容介紹
此文檔由會(huì)員 猛龍 發(fā)布網(wǎng)絡(luò)資源管理系統(tǒng)
頁(yè)數(shù) 46 字?jǐn)?shù) 20885
摘 要
強(qiáng)化學(xué)習(xí)是近幾十年來迅速發(fā)展起來的一類機(jī)器學(xué)習(xí)算法,并且從1980年以來逐漸成為機(jī)器學(xué)習(xí)研究的一個(gè)比較活躍領(lǐng)域,引起了包括計(jì)算機(jī)科學(xué)、控制科學(xué)以及心理學(xué)領(lǐng)域的學(xué)者的極大關(guān)注。
所有的類型機(jī)器人或機(jī)制設(shè)計(jì)自控器對(duì)于科學(xué)家和工程師是具有很大的挑戰(zhàn)性, 由早期的計(jì)算機(jī)時(shí)代至今。通過機(jī)械控制可以模擬簡(jiǎn)單動(dòng)物的行為,如步行或游泳, 在人工的機(jī)械裝置中模擬或仿真在向外延伸上是非常困難的。這個(gè)論題是介紹人工神經(jīng)網(wǎng)絡(luò)和增強(qiáng)激發(fā)學(xué)習(xí)的一些技術(shù)幫助如何解決這樣問題的研究。在許多領(lǐng)域的重要應(yīng)用中找到控制動(dòng)力系統(tǒng)的最佳的行動(dòng)是至關(guān)重要的,例如,機(jī)器人技術(shù),工業(yè)的加工和處理,或太空船中飛。通過對(duì)一些問題的研究使得一些主要的研究成果被應(yīng)用到更高階的理論問題中, 并且提供實(shí)際的方法建立有效率的控制器。
最后,對(duì)于外部環(huán)境動(dòng)力學(xué)信息已知的強(qiáng)化學(xué)習(xí)問題,動(dòng)態(tài)規(guī)劃是解決它的好方法,經(jīng)過分析發(fā)現(xiàn),Dijkstra回溯是算法快速收斂的關(guān)鍵。本文對(duì)動(dòng)態(tài)規(guī)劃算法進(jìn)行了深入地研究,并在動(dòng)態(tài)規(guī)劃算法的基礎(chǔ)上進(jìn)行了改進(jìn)。
關(guān)鍵詞 神經(jīng)網(wǎng)絡(luò),強(qiáng)化學(xué)習(xí),機(jī)器學(xué)習(xí),動(dòng)態(tài)規(guī)劃;
目 錄
摘要 …………………………………………………………………………….Ⅰ
Abstract ………………………………………………………………………..Ⅱ
第1章 緒論 ……………………………………………………………………1
1.1 人工智能 ...………………………………………………………………1
1.2 神經(jīng)網(wǎng)絡(luò) .………………………………………………………………..2
1.3 機(jī)器學(xué)習(xí) ………………………………………………………………...2
1.3.1 機(jī)器學(xué)習(xí)的基本原理 ………………………………………………2
1.3.2 機(jī)器學(xué)習(xí)的發(fā)展 ……………………………………………………4
1.3.3強(qiáng)化學(xué)習(xí) …………………………………………………………….5
1.3.3.1 強(qiáng)化學(xué)習(xí)的現(xiàn)狀及發(fā)展 .……………………………………..5
1.3.3.2 強(qiáng)化學(xué)習(xí)在神經(jīng)網(wǎng)絡(luò)中的應(yīng)用 ……………………………...7
1.3.4進(jìn)化計(jì)算 …………………………………………………………….7
1.4 本課題的意義及課題來源 .……………………………………………..8
1.5 本課題的主要內(nèi)容 ……………………………………………………...8
第2章 強(qiáng)化學(xué)習(xí)模型及其主要算法 …………………………………………9
2.1 強(qiáng)化學(xué)習(xí)模型 .…………………………………………………………..9
2.2 值函數(shù) ………………………………………………………………….10
2.3 強(qiáng)化學(xué)習(xí)的主要算法 ………………………………………………….11
2.3.1 動(dòng)態(tài)規(guī)劃 .………………………………………………………….11
2.3.2 蒙特卡羅算法 .…………………………………………………….12
2.4 小結(jié) ……………………………………………………………………13
第3章 動(dòng)態(tài)規(guī)劃算法 ………………………………………………………14
3.1 動(dòng)態(tài)規(guī)劃算法提出的背景 .……………………………………………14
3.2 動(dòng)態(tài)規(guī)劃算法 ………………………………………………………….15
3.2.1 離散問題 …………………………………………………………..15
3.2.1.1 有限的確定的離散狀態(tài)的決策過程 ...……………………..15
3.2.1.2 變量迭代 .……………………………………………………..16
3.2.1.3 策略的評(píng)估 .…………………………………………………..18
3.2.1.4 迭代策略 .……………………………………………………..19
3.3 連續(xù)問題 ……………………………………………………………….19
3.3.1 問題的定義 .……………………………………………………….20
3.3.2 問題的離散化 ……………………………………………………..21
3.3.3 收斂性問題 ………………………………………………………..22
3.4 簡(jiǎn)單例子 ……………………………………………………………….23
第4章 基于動(dòng)態(tài)規(guī)劃算法的改進(jìn)及其應(yīng)用 ………………………………25
4.1 動(dòng)態(tài)規(guī)劃算法的改進(jìn) .…………………………………………………25
4.1.1 算法的描述 ………………………………………………………..26
4.1.2 改進(jìn)算法的證明
4.2 改進(jìn)算法與動(dòng)態(tài)規(guī)劃算法的比較
4.3 例子
結(jié)論
參考文獻(xiàn)
致謝
附錄1
附錄2
TA們正在看...
- 新版煤礦安全質(zhì)量范例化考試題(地測(cè)防治水專業(yè))...docx
- 新版煤礦安全質(zhì)量范例化通風(fēng)專業(yè)試卷答案匯編.docx
- 新版煤礦安全資格證培訓(xùn)最新全題庫(kù)匯編.docx
- 新版煤礦安全資格證模擬考試系統(tǒng)煤礦安全資格證考...docx
- 新版煤礦安全資格證考試試題庫(kù)帶答案匯編.docx
- 新版煤礦安全風(fēng)險(xiǎn)分級(jí)管控培訓(xùn)復(fù)習(xí)題匯編.docx
- 新版煤礦安檢員安全員培訓(xùn)復(fù)習(xí)資料匯編.docx
- 新版煤礦安監(jiān)安全質(zhì)量范例化考試試題庫(kù)帶答案匯編.docx
- 新版煤礦安監(jiān)安全質(zhì)量范例化考試試題庫(kù)匯編.docx
- 新版煤礦安監(jiān)完整題庫(kù)上01匯編.docx