商品參數
書名:深度學習
作者:[美]IanGoodfellow(伊恩·古德費洛)
ISBN:9787115461476
齣版社:人民郵電齣版社
齣版時間:2017年8月
印刷時間:2017年8月
字數:字
頁數:500頁
開本:16開
包裝:平裝
重量:g
定價:168元
編輯
AI聖經!深度學習領域奠基性的經典書!長期位居美國**遜AI和機器學習類圖書!所有數據科學傢和機器學習從業者的bi讀圖書!特斯拉CEO埃隆·馬斯剋等國內外眾多專**薦!中文版由北京大學數學科學學院統計學教授張誌華審校。
深度學習是機器學習的一個分支,它能夠使計算機通過層次概念來學習經驗和理解世界。因為計算機能夠從經驗中獲取知識,所以不需要人類來形式化地定義計算機需要的所有知識。層次概念允許計算機通過構造簡單的概念來學習復雜的概念,而這些分層的圖結構將具有很深的層次。本書會介紹深度學習領域的許多主題。
本書囊括瞭數學及相關概念的背景知識,包括綫性代數、概率論、信息論、數值優化以及機器學習中的相關內容。同時,它還介紹瞭工業界中實踐者用到的深度學習技術,包括深度前饋網絡、正則化、優化算法、捲積網絡、序列建模和實踐方法等,並且調研瞭諸如自然語言處理、語音識彆、計算機視覺、在綫、生物信息學以及視頻遊戲方麵的應用。*後,本書還提供瞭一些研究方嚮,涵蓋的理論主題包括綫性因子模型、自編碼器、錶示學習、結構化概率模型、濛特卡羅方法、配分函數、近似推斷以及深度生成模型。
封麵特色:由藝術傢DanielAmbrosi提供的**公園杜鵑花步道夢幻景觀。在Ambrosi的億級像素全景圖上,應用JosephSmarr(Google)和ChirsLamb(NVIA)修改後的GoogleDeepDream開源程序,創造瞭DanielAmbrosi的“幻景”。
內容簡介
《深度學習》由知名的三位專傢IanGoodfellow、YoshuaBengio和AaronCourville撰寫,是深度學習領域奠基性的經典教材。全書的內容包括3個部分:第1部分介紹基本的數學工具和機器學習的概念,它們是深度學習的預備知識;第2部分深入地講解現今已成熟的深度學習方法和技術;第3部分討論某些具有前瞻性的方嚮和想法,它們被公認為是深度學習未來的研究**。
《深度學習》適閤各類讀者閱讀,包括相關的大學生或研究生,以及不具有機器學習或統計背景、但是想要快速補充深度學習知識,以便在實際産品或平颱中應用的軟件工程師。
目錄
第1章引言..............................................................................1
1.1本書麵嚮的讀者...................................................................7
1.2深度學習的曆史趨勢..............................................................8
1.2.1神經網絡的眾多名稱和命運變遷................................................8
1.2.2與日俱增的數據量............................................................12
1.2.3與日俱增的模型規模..........................................................13
1.2.4與日俱增的精度、復雜度和對現實世界的衝擊...................................15
第1部分應用數學與機器學習基礎
第2章綫性代數........................................................................19
2.1標量、嚮量、矩陣和張量.........................................................19
2.2矩陣和嚮量相乘..................................................................21
2.3單位矩陣和逆矩陣...............................................................22
2.4綫性相關和生成子空間..........................................................23
2.5範數..............................................................................24
2.6特殊類型的矩陣和嚮量..........................................................25
2.7特徵分解.........................................................................26
2.8奇異值分解......................................................................28
2.9Moore-Penrose僞逆..............................................................28
2.10跡運算..........................................................................29
2.11行列式..........................................................................30
2.12實例:主成分分析...............................................................30
第3章概率與信息論....................................................................34
3.1為什麼要使用概率...............................................................34
3.2隨機變量.........................................................................35
3.3概率分布.........................................................................36
3.3.1離散型變量和概率質量函數...................................................36
3.3.2連續型變量和概率密度函數...................................................36
3.4邊緣概率.........................................................................37
3.5條件概率.........................................................................37
3.6條件概率的鏈式法則.............................................................38
3.7**性和條件**性.............................................................38
3.8期望、方差和協方差.............................................................38
3.9常用概率分布....................................................................39
3.9.1Bernoulli分布...............................................................40
3.9.2Multinoulli分布.............................................................40
3.9.3高斯分布....................................................................40
3.9.4指數分布和Laplace分布.....................................................41
3.9.5rac分布和經驗分布........................................................42
3.9.6分布的混閤..................................................................42
3.10常用函數的有用性質............................................................43
3.11貝葉斯規則.....................................................................45
3.12連續型變量的技術細節.........................................................45
3.13信息論..........................................................................47
3.14結構化概率模型................................................................49
第4章數值計算........................................................................52
4.1上溢和下溢......................................................................52
4.2病態條件.........................................................................53
4.3基於梯度的優化方法.............................................................53
4.3.1梯度之上:Jacobian和Hessian矩陣...........................................56
4.4約束優化.........................................................................60
4.5實例:綫性*小二乘.............................................................61
第5章機器學習基礎....................................................................63
5.1學習算法.........................................................................63
5.1.1任務T.....................................................................63
5.1.2性能度量P..................................................................66
5.1.3經驗E......................................................................66
5.1.4示例:綫性迴歸..............................................................68
5.2容量、過擬閤和欠擬閤...........................................................70
5.2.1沒有午餐定理............................................................73
5.2.2正則化......................................................................74
5.3超參數和驗證集..................................................................76
5.3.1交叉驗證....................................................................76
5.4估計、偏差和方差................................................................77
5.4.1點估計......................................................................77
5.4.2偏差........................................................................78
5.4.3方差和標準差................................................................80
5.4.4權衡偏差和方差以*小化均方誤差.............................................81
5.4.5一緻性......................................................................82
5.5*大似然估計....................................................................82
5.5.1條件對數似然和均方誤差......................................................84
5.5.2*大似然的性質..............................................................84
5.6貝葉斯統計......................................................................85
5.6.1*大後驗(MAP)估計........................................................87
5.7監督學習算法....................................................................88
5.7.1概率監督學習................................................................88
5.7.2支持嚮量機..................................................................88
5.7.3其他簡單的監督學習算法......................................................90
5.8無監督學習算法..................................................................91
5.8.1主成分分析..................................................................92
5.8.2k-均值聚類...................................................................94
5.9隨機梯度下降....................................................................94
5.10構建機器學習算法..............................................................96
5.11促使深度學習發展的挑戰.......................................................96
5.11.1維數災難...................................................................97
5.11.2局部不變性和平滑正則化....................................................97
5.11.3流形學習...................................................................99
第2部分深度網絡:現代實踐
第6章深度前饋網絡..................................................................105
6.1實例:學習XOR................................................................107
6.2基於梯度的學習................................................................110
6.2.1代價函數...................................................................111
6.2.2輸齣單元...................................................................113
6.3隱藏單元........................................................................119
6.3.1整流綫性單元及其擴展......................................................120
6.3.2logisticsigmoid與雙麯正切函數..............................................121
6.3.3其他隱藏單元...............................................................122
6.4架構設計........................................................................123
6.4.1**近似性質和深度.........................................................123
6.4.2其他架構上的考慮...........................................................126
6.5反嚮傳播和其他的微分算法.....................................................126
6.5.1計算圖.....................................................................127
6.5.2微積分中的鏈式法則.........................................................128
6.5.3遞歸地使用鏈式法則來實現反嚮傳播..........................................128
6.5.4全連接MLP中的反嚮傳播計算..............................................131
6.5.5符號到符號的導數...........................................................131
6.5.6一般化的反嚮傳播...........................................................133
6.5.7實例:用於MLP訓練的反嚮傳播.............................................135
6.5.8復雜化.....................................................................137
6.5.9深度學習界以外的微分......................................................137
6.5.10高階微分..................................................................138
6.6曆史小記........................................................................139
第7章深度學習中的正則化...........................................................141
7.1參數範數懲罰...................................................................142
7.1.1L2參數正則化..............................................................142
7.1.2L1正則化..................................................................144
7.2作為約束的範數懲罰............................................................146
7.3正則化和欠約束問題............................................................147
7.4數據集增強.....................................................................148
7.5噪聲魯棒性.....................................................................149
7.5.1嚮輸齣目標注入噪聲.........................................................150
7.6半監督學習.....................................................................150
7.7多任務學習.....................................................................150
7.8提前終止........................................................................151
7.9參數綁定和參數共享............................................................156
7.9.1捲積神經網絡...............................................................156
7.10稀疏錶示.......................................................................157
7.11Bagging和其他集成方法.......................................................158
7.12Dropout........................................................................159
7.13對抗訓練.......................................................................165
7.14切麵距離、正切傳播和流形正切分類器........................................167
第8章深度模型中的優化..............................................................169
8.1學習和純優化有什麼不同.......................................................169
8.1.1經驗*小化.............................................................169
8.1.2代理損失函數和提前終止....................................................170
8.1.3批量算法和小批量算法......................................................170
8.2神經網絡優化中的挑戰.........................................................173
8.2.1病態.......................................................................173
8.2.2局部極小值.................................................................174
8.2.3高原、鞍點和其他平坦區域...................................................175
8.2.4懸崖和梯度爆炸.............................................................177
8.2.5長期依賴...................................................................177
8.2.6非**梯度.................................................................178
8.2.7局部和全局結構間的弱對應..................................................178
8.2.8優化的理論限製.............................................................179
8.3基本算法........................................................................180
8.3.1隨機梯度下降...............................................................180
8.3.2動量.......................................................................181
8.3.3Nesterov動量...............................................................183
8.4參數初始化策略................................................................184
8.5自適應學習率算法..............................................................187
8.5.1AdaGrad..................................................................187
8.5.2RMSProp..................................................................188
8.5.3Adam......................................................................189
8.5.4選擇正確的優化算法.........................................................190
8.6二階近似方法...................................................................190
8.6.1牛頓法.....................................................................190
8.6.2共軛梯度...................................................................191
8.6.3BFGS......................................................................193
8.7優化策略和元算法..............................................................194
8.7.1批標準化...................................................................194
8.7.2坐標下降...................................................................196
8.7.**olyak平均................................................................197
8.7.4監督預訓練.................................................................197
8.7.5設計有助於優化的模型......................................................199
8.7.6延拓法和課程學習...........................................................199
第9章捲積網絡.......................................................................201
9.1捲積運算........................................................................201
9.2動機............................................................................203
9.3池化............................................................................207
9.4捲積與池化作為一種無限強的先驗.............................................210
9.5基本捲積函數的變體............................................................211
9.6結構化輸齣.....................................................................218
9.7數據類型........................................................................219
9.8**的捲積算法................................................................220
9.9隨機或無監督的特徵............................................................220
9.10捲積網絡的神經科學基礎......................................................221
9.11捲積網絡與深度學習的曆史...................................................226
第10章序列建模:循環和遞歸網絡...................................................227
10.1展開計算圖....................................................................228
10.2循環神經網絡..................................................................230
10.2.1導師驅動過程和輸齣循環網絡...............................................232
10.2.2計算循環神經網絡的梯度...................................................233
10.2.3作為有嚮圖模型的循環網絡.................................................235
10.2.4基於上下文的RNN序列建模...............................................237
10.3雙嚮RNN.....................................................................239
10.4基於編碼-解碼的序列到序列架構.............................................240
10.5深度循環網絡..................................................................242
10.6遞歸神經網絡..................................................................243
10.7長期依賴的挑戰...............................................................244
10.8迴聲狀態網絡..................................................................245
10.9滲漏單元和其他多時間尺度的策略............................................247
10.9.1時間維度的跳躍連接........................................................247
10.9.2滲漏單元和一係列不同時間尺度.............................................247
10.9.3刪除連接..................................................................248
10.10長短期記憶和其他門控RNN................................................248
10.10.1LSTM...................................................................248
10.10.2其他門控RNN............................................................250
10.11優化長期依賴.................................................................251
10.11.1截斷梯度.................................................................251
10.11.2引導信息流的正則化......................................................252
10.12外顯記憶.....................................................................253
第11章實踐方法論...................................................................256
11.1性能度量.......................................................................256
11.2默認的基準模型...............................................................258
11.3決定是否收集更多數據........................................................259
11.4選擇超參數....................................................................259
11.4.1手動調整超參數............................................................259
11.4.2自動超參數優化算法........................................................262
11.4.3網格搜索..................................................................262
11.4.4隨機搜索..................................................................263
11.4.5基於模型的超參數優化.....................................................264
11.5調試策略.......................................................................264
11.6示例:多位數字識彆...........................................................267
第12章應用...........................................................................269
12.1大規模深度學習...............................................................269
12.1.1快速的CPU實現..........................................................269
12.1.2GPU實現.................................................................269
12.1.3大規模的分布式實現........................................................271
12.1.4模型壓縮..................................................................271
12.1.5動態結構..................................................................272
12.1.6深度網絡的硬件實現...................................................273
12.2計算機視覺....................................................................274
12.2.1預處理....................................................................275
12.2.2數據集增強................................................................277
12.3語音識彆.......................................................................278
12.4自然語言處理..................................................................279
12.4.1n-gram....................................................................280
12.4.2神經語言模型..............................................................281
12.4.3高維輸齣..................................................................282
12.4.4結閤n-gram和神經語言模型...............................................286
12.4.5神經機器翻譯..............................................................287
12.4.6曆史展望..................................................................289
12.5其他應用.......................................................................290
12.5.1..................................................................290
12.5.2知識錶示、推理和迴答......................................................292
第3部分深度學習研究
第13章綫性因子模型.................................................................297
13.1概率PCA和因子分析.........................................................297
13.2**成分分析..................................................................298
13.3慢特徵分析....................................................................300
13.4稀疏編碼.......................................................................301
13.5PCA的流形解釋..............................................................304
第14章自編碼器......................................................................306
14.1欠完備自編碼器...............................................................306
14.2正則自編碼器..................................................................307
14.2.1稀疏自編碼器..............................................................307
14.2.2去噪自編碼器..............................................................309
14.2.3懲罰導數作為正則..........................................................309
14.3錶示能力、層的大小和深度....................................................310
14.4隨機編碼器和...........................................................310
14.5去噪自編碼器詳解.............................................................311
14.5.1得分估計..................................................................312
14.5.2曆史展望..................................................................314
14.6使用自編碼器學習流形........................................................314
14.7收縮自編碼器..................................................................317
14.8預測稀疏分解..................................................................319
14.9自編碼器的應用...............................................................319
第15章錶示學習......................................................................321
15.1貪心逐層無監督預訓練........................................................322
15.1.1何時以及為何無監督預訓練有效有效.........................................323
15.2遷移學習和領域自適應........................................................326
15.3半監督解釋因果關係...........................................................329
15.4分布式錶示....................................................................332
15.5得益於深度的指數增益........................................................336
15.6提供發現潛在原因的綫索......................................................337
第16章深度學習中的結構化概率模型................................................339
16.1非結構化建模的挑戰...........................................................339
16.2使用圖描述模型結構...........................................................342
16.2.1有嚮模型..................................................................342
16.2.2無嚮模型..................................................................344
16.2.3配分函數..................................................................345
16.2.4基於能量的模型............................................................346
16.2.5分離和d-分離..............................................................347
16.2.6在有嚮模型和無嚮模型中轉換...............................................350
16.2.7因子圖....................................................................352
16.3從圖模型中采樣...............................................................353
16.4結構化建模的優勢.............................................................353
16.5學習依賴關係..................................................................354
16.6推斷和近似推斷...............................................................354
16.7結構化概率模型的深度學習方法...............................................355
16.7.1實例:受限玻爾茲曼機......................................................356
第17章濛特卡羅方法.................................................................359
17.1采樣和濛特卡羅方法...........................................................359
17.1.1為什麼需要采樣............................................................359
17.1.2濛特卡羅采樣的基礎........................................................359
17.2重要采樣.......................................................................360
17.3馬爾可夫鏈濛特卡羅方法......................................................362
17.4Gibbs采樣.....................................................................365
17.5不同的峰值之間的混閤挑戰...................................................365
17.5.1不同峰值之間通過迴火來混閤...............................................367
17.5.2深度也許會有助於混閤.....................................................368
第18章直麵配分函數.................................................................369
18.1對數似然梯度..................................................................369
18.2隨機*大似然和對比散度......................................................370
18.3僞似然.........................................................................375
18.4得分匹配和比率匹配...........................................................376
18.5去噪得分匹配..................................................................378
18.6噪聲對比估計..................................................................378
18.7估計配分函數..................................................................380
18.7.1退火重要采樣..............................................................382
18.7.2橋式采樣..................................................................384
第19章近似推斷......................................................................385
19.1把推斷視作優化問題...........................................................385
19.2期望*大化....................................................................386
19.3*大後驗推斷和稀疏編碼......................................................387
19.4變分推斷和變分學習...........................................................389
19.4.1離散型潛變量..............................................................390
19.4.2變分法....................................................................394
19.4.3連續型潛變量..............................................................396
19.4.4學習和推斷之間的相互作用.................................................397
19.5學成近似推斷..................................................................397
19.5.1醒眠算法..................................................................398
19.5.2學成推斷的其他形式........................................................398
第20章深度生成模型.................................................................399
20.1玻爾茲曼機....................................................................399
20.2受限玻爾茲曼機...............................................................400
20.2.1條件分布..................................................................401
20.2.2訓練受限玻爾茲曼機........................................................402
20.3深度信念網絡..................................................................402
20.4深度玻爾茲曼機...............................................................404
20.4.1有趣的性質................................................................406
20.4.2DBM均勻場推斷..........................................................406
20.4.3DBM的參數學習..........................................................408
20.4.4逐層預訓練................................................................408
20.4.5聯閤訓練深度玻爾茲曼機...................................................410
20.5實值數據上的玻爾茲曼機......................................................413
20.5.1Gaussian-BernoulliRBM...................................................413
20.5.2條件協方差的無嚮模型.....................................................414
20.6捲積玻爾茲曼機...............................................................417
20.7用於結構化或序列輸齣的玻爾茲曼機..........................................418
20.8其他玻爾茲曼機...............................................................419
20.9通過隨機操作的反嚮傳播......................................................419
20.9.1通過離散隨機操作的反嚮傳播...............................................420
20.10有嚮生成網絡.................................................................422
20.10.1sigmoid信念網絡.........................................................422
20.10.2可微生成器網絡...........................................................423
20.10.3變分自編碼器.............................................................425
20.10.4生成式對抗網絡...........................................................427
20.10.5生成矩匹配網絡...........................................................429
20.10.6捲積生成網絡.............................................................430
20.10.7自迴歸網絡...............................................................430
20.10.8綫性自迴歸網絡...........................................................430
20.10.9神經自迴歸網絡...........................................................431
20.10.10NADE..................................................................432
20.11從自編碼器采樣..............................................................433
20.11.1與任意去噪自編碼器相關的馬爾可夫鏈......................................434
20.11.2夾閤與條件采樣...........................................................434
20.11.3迴退訓練過程.............................................................435
20.12生成隨機網絡.................................................................435
20.12.1判彆性GSN..............................................................436
20.13其他生成方案.................................................................436
20.14評估生成模型.................................................................437
20.15結論..........................................................................438
參考文獻..................................................................................439
索引......................................................................................486
真好書!
評分很好
評分真好書!
評分很好
評分真好書!
評分很好
評分很好
評分真好書!
評分很好
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有