發表於2025-01-19
由英特爾的技術專傢撰寫,是目前為止全麵、係統地講解在英特爾至強處理器和至強融核協處理器上進行並行應用開發的專著
《Intel Xeon Phi協處理器高性能編程指南》所采用的方法兼容瞭對未來編程模式的支持,書中所闡述的統一、標準和靈活的編程模式,對於未來作為獨立處理器使用的MIC眾核産品同樣適用。
曬單就送世界超級計算機天河二號機時(僅限於本書代碼測試)
即日起,凡購買本書並 @北京並行科技有限公司 微博曬書,或微信朋友圈曬書並發送曬書截圖至 北京並行科技有限公司官方微信,即可獲得天河二號相應測試機時(僅限於本書代碼測試),體驗500強排行榜中位居冠軍的超級計算機!領取方式可詳詢@北京並行科技有限公司 微博。
《Intel Xeon Phi協處理器高性能編程指南》由英特爾的技術專傢撰寫,是目前為止全麵、係統地講解在英特爾至強處理器和至強融核協處理器上進行並行應用開發的專著。
《Intel Xeon Phi協處理器高性能編程指南》從賽車與至強融核協處理器之間的相似性入手,抽絲剝繭、層層深入,探討實際案例指導編程應用,並對協處理器嚮量化、協處理器分載模式、協處理器架構及Linux係統、數學庫,以及協處理器采樣、計時與優化等進行瞭詳細的解析,是一本詳盡的至強融核協處理器使用參考指南。特彆是,《Intel Xeon Phi協處理器高性能編程指南》所采用的方法兼容瞭對未來編程模式的展望和支持,書中所闡述的統一、標準和靈活的編程模式,對於未來作為獨立處理器使用的MIC眾核産品同樣適用。
《Intel Xeon Phi協處理器高性能編程指南》適用於想要係統學習英特爾至強融核協處理器編程的讀者,無需藉助其他參考書,即可循序漸進、全麵掌握。
James Reinders, 英特爾軟件總監,首席技術布道師。
Jim Jeffers, 英特爾MIC(集成眾核)架構專傢。
★2020年左右在限定功耗下實現百萬萬億次峰值的超級計算機,是目前世界各國競相角逐的下一個超級計算界的皇冠,中、美、日、歐等國都製定瞭雄心勃勃的研製計劃。到目前為止,能夠實現該目標的計算機體係結構,隻有異構眾核加速體係結構具有比較清晰的路綫圖,其他的幾個技術路綫都有著目前看來難以逾越的技術鴻溝。英特爾順應這一技術發展趨勢,創新性地推齣Xeon Phi協處理器,並助力中國國防科技大學團隊創新性地提齣瞭微異構的眾核加速體係結構,一舉奪取瞭世界TOP 500的2013年6月和11月的兩屆冠軍。由於采用瞭與Xeon處理器同類彆的X86指令集,用戶仍然可以使用自己熟悉的MPI和OpenMP進行並行程序設計,極大地降低瞭使用該處理器的入門成本。但是,如果想更大程度地挖掘Xeon Phi的潛在性能,用戶還必須深入瞭解該處理器的體係結構和更多種類的並行編程模式,本書正好可以滿足此類用戶的需求。
——張雲泉,中國計算機學會高性能計算專業委員會(CCF TCHPC)秘書長
★在Xeon Phi協處理器正式發布之前,我們已經開始使用其試生産硬件,並進行瞭GeoEast處理係統下的MIC眾核並行處理模塊移植測試,完成瞭積分法疊前時間偏移並行模塊在MIC上的移植,使用瞭節點間MPI並行+節點內MIC/CPU協同計算模式(兩塊MIC卡/節點)。在GeoEast係統集成環境下,該模塊MIC版本運行效率是原版本的3.8倍。MIC版本的程序與CPU程序代碼完全兼容,因此移植相對比較簡單,對程序進行CPU多綫程的優化仍然適用於MIC版本程序,而MIC指導語句的使用也簡化瞭程序在MIC上的移植,使程序員更容易掌握,也更容易維護。我們正緻力於將更多的計算密集型應用移植到Xeon Phi協處理器上,本書豐富的內容將為我們進行程序的移植提供很好的參考。
——陳維,東方地球物理公司研發中心副總工程師
★Intel的Xeon Phi協處理器為高性能計算領域帶來瞭全新的MIC眾核加速解決方案,也給應用優化帶來瞭新的挑戰。在ASC超算競賽中,大學生們的MIC應用優化實踐證明瞭該技術是容易被學習掌握的,並且確實能夠給適閤的應用帶來齣色的加速性能。本書詳細介紹瞭高性能程序中應用MIC編程的方法,是非常好的MIC編程參考工具書,我相信讀者能夠從此書中學習領會到MIC眾核編程的精妙之處,從而將該技術應用到科學和工程計算領域,推動中國的高性能計算應用發展。
——劉軍,浪潮集團高性能計算總經理 眾核體係結構將成為未來主流的處理器體係結構,而以天河2號超級計算機為代錶的國際機構已經開始大規
第1章 緒論
1.1 更加並行化
1.2 為什麼需要Intel Xeon Phi協處理器
1.3 協處理器平颱
1.4 第一款Intel Xeon Phi協處理器
1.5 控製"Ninja鴻溝"於一定範圍
1.6 移植與優化的雙重優勢
1.7 何時使用Intel Xeon Phi協處理器
1.8 實現處理器性能最優
1.9 為何擴展超過100個綫程如此重要
1.10 最大化並行程序性能
1.11 評估高度並行執行的能力
1.12 對於GPU是怎麼樣的
1.13 易於移植,也易於提升性能
1.14 性能移植
1.15 超綫程與多綫程
1.16 協處理器主要使用模型:MPI和Offload
1.17 編譯器和編程模型
1.18 緩存優化
1.19 案例和細節
1.20 更多信息
第2章 高性能封閉追蹤測試驅動
2.1 揭開引擎蓋:協處理器詳解
2.2 發動汽車:與協處理器溝通
2.3 輕鬆上路:首次運行代碼
2.4 開始加速:多綫程運行代碼
2.5 全速行駛:使用所有核心
2.6 輕鬆過彎:訪存帶寬
2.7 高速漂移:內存帶寬最大化
2.8 總結
第3章 一場鄉間公路友誼賽
3.1 賽前準備:本章重點
3.2 初識賽道:9點模闆算法
3.3 起跑綫上:9點模闆基準程序
3.4 路在前方:運行基準模闆代碼
3.5 石子路上:嚮量化而未擴展
3.6 全力比賽:嚮量化加上規模擴展
3.7 扳手和潤滑油:代碼微調
3.7.1 基準校正
3.7.2 使用流存儲
3.7.3 使用2MB大型存儲頁
3.8 總結
3.9 更多信息
第4章 都市暢遊:實際代碼優化案例
4.1 選擇方嚮:基本的擴散算法
4.2 到達路口:計算邊界效應
4.3 尋找林蔭大道:代碼擴展化
4.4 雷霆之路:保證嚮量化
4.5 剝離:從最內層循環開始
4.6 嘗試辛烷含量更高的燃料:利用數據局部性與切片分塊提升速度
4.7 高速駕駛認證:高速旅行的總結
第5章 大數據(嚮量)
5.1 為什麼嚮量化
5.2 如何嚮量化
5.3 實現嚮量化的五種方法
5.4 六步嚮量化方法論
5.5 通過Cache流:布局、對齊、預取數據
5.5.1 為什麼數據布局影響嚮量化性能
5.5.2 數據校準
5.5.3 預取
5.5.4 流存儲
5.6 編譯器技巧
5.6.1 避免手動展開循環
5.6.2 循環嚮量化的要求(英特爾編譯器)
5.6.3 內聯的重要性,簡單性能分析的乾擾
5.7 編譯器選項
5.8 編譯器指導指令
5.8.1 SIMD指令
5.8.2 VECTOR與NOVECTOR指令
5.8.3 IVDEP指令
5.8.4 隨機數函數嚮量化
5.8.5 充分嚮量化
5.8.6 -opt-assume-safe-padding選項
5.8.7 數據對齊
5.8.8 在數組錶示法(Array Notation)中權衡嚮量長度
5.9 使用數組段(Array Section)支持嚮量化
5.9.1 Fortran數組段
5.9.2 Cilk Plus數組段和元素函數
5.10 查看編譯器生成:匯編代碼檢測
5.10.1 如何找到匯編代碼
5.10.2 快速查看匯編代碼
5.11 嚮量化數值結果差異
5.12 總結
5.13 更多信息
第6章 多任務(非多綫程)
6.1 OpenMP、Fortran2008、Intel TBB、Intel Cilk Plus、Intel MKL
6.1.1 需在協處理器上創建任務
6.1.2 綫程池的重要性
6.2 OpenMP
6.2.1 並行處理模型
6.2.2 指導性語句
6.2.3 OpenMP上的有效控製
6.2.4 嵌套
6.3 Fortran 2008
6.3.1 DO CONCURRENT
6.3.2 DO CONCURRENT以及數據競爭
6.3.3 DO CONCURRENT定義
6.3.4 DO CONCURRENT對比FOR ALL
6.3.5 DO CONCURRENT對比OpenMP"Parallel"
6.4 Intel TBB
6.4.1 發展曆史
6.4.2 使用TBB
6.4.3 parallel_for
6.4.4 blocked_range
6.4.5 Partitioners
6.4.6 Parallel_reduce
6.4.7 Parallel_invoke
6.4.8 C + +11相關
6.4.9 TBB總結
6.5 Cilk Plus
6.5.1 發展曆史
6.5.2 從TBB藉用組件
6.5.3 嚮TBB提供組件
6.5.4 關鍵字拼寫
6.5.5 cilk_for
6.5.6 cilk_spawn與cilk_sync
6.5.7 Reducers(超對象)
6.5.8 數組錶示法與基本函數
6.5.9 Cilk Plus總結
6.6 總結
6.7 更多信息
第7章 分載(Offload)
7.1 兩種分載模式
7.2 分載執行與本地執行
7.2.1 非共享內存模式:使用分載編譯器指導指令(Pragma)
7.2.2 共享虛擬內存模式:通過共享虛擬內存使用分載
7.2.3 Intel數學函數庫(Intel MKL)自動分載
7.3 分載的語言擴展支持
7.3.1 分載的編譯器選項和環境變量
7.3.2 分載的共享環境變量
7.3.3 針對多個協處理器分載
7.4 使用編譯器指導指令分載
7.4.1 設置協處理器上的變量與函數
7.4.2 指針變量的內存分配與管理
7.4.3 時間優化:堅持分配的另外一個原因
7.4.4 對C/C++目標代碼使用編譯器指導指令
7.4.5 對Fortran語言中的目標代碼使用指導指令
7.4.6 執行單一處理器時不創建代碼
7.4.7 英特爾MIC架構預定義宏
7.4.8 Fortran數組
7.4.9 為部分C/C++數組分配內存
7.4.10 為部分Fortran數組分配內存
7.4.11 兩變量間的數據轉移
7.4.12 分載代碼指令使用的限製條件
7.5 在共享虛擬存儲器上使用分載
7.5.1 使用共享內存及共享變量
7.5.2 關於共享函數
7.5.3 共享內存管理函數
7.5.4 同步函數執行與異步函數執行:_Cilk_offload
7.5.5 共享變量和函數:_Cilk_shared
7.5.6 _Cilk_shared和Cilk_offload的使用規則
7.5.7 處理器與目標之間的內存同步
7.5.8 使用_Cilk_offload寫入具體目標代碼
7.5.9 使用虛擬內存分載代碼的限製因素
7.5.10 使用共享虛擬內存時定義持久性數據
7.5.11 使用共享虛擬內存持久性數據的C++聲明
7.6 關於異步計算
7.7 關於異步數據轉移
7.8 應用目標屬性至多個聲明
7.8.1 分載使用的vec-report可選項
7.8.2 測量分載區域的時間與數據
7.8.3 _Offload_report
7.8.4 在分載代碼中使用庫
7.8.5 關於使用xiar和xild創建分載程序庫
7.9 在協處理器上執行I/O文件
7.10 從分載代碼中記錄stdout和stderr
7.11 總結
7.12 更多信息
第8章 協處理器架構
8.1 Intel Xeon Phi協處理器産品傢族
8.2 協處理器卡的設計
8.3 Intel Xeon Phi協處理器芯片概述
8.4 協處理器核架構
8.5 指令集和多綫程處理
8.6 緩存組織和內存訪問
8.7 預取
8.8 嚮量處理單元架構
8.9 協處理器PCI-E係統接口和DMA
8.10 協處理器電源管理
8.11 可靠性、可用性和可維護性(RAS)
8.12 協處理器係統管理控製器(SMC)
8.12.1 傳感器
8.12.2 散熱設計監控和控製
8.12.3 風扇控製
8.12.4 潛在應用影響
8.13 基準測試
8.14 總結
8.15 更多信息
第9章 協處理器係統軟件
9.1 協處理器軟件體係架構概述
9.1.1 對稱性
9.1.2 Ring級彆:用戶態和內核態
9.2 協處理器編程模型和選項
9.2.1 寬度與深度
9.2.2 MPI編程模型
9.3 協處理器軟件體係架構組件
9.4 英特爾眾核平颱軟件棧
9.4.1 MYO: Mine Yours Ours
9.4.2 COI:Coprocessor Offload Infrastructure
9.4.3 SCIF:Symmetric Communications Interface
9.4.4 Virtual networking(NetDev)、TCP/IP及sockets
9.4.5 協處理器係統管理
9.4.6 麵嚮MPI應用程序的協處理器組件
9.5 Linux對Intel Xeon Phi協處理器的支持
9.6 優化內存分配的性能
9.6.1 控製2MB內存頁的數量
9.6.2 監控協處理器上2MB內存頁的數量
9.6.3 分配2MB內存頁的方法示例
9.7 總結
9.8 更多信息
……
第10章 協處理器的Linux係統
第11章 數學庫
第12章 MPI
第13章 采樣和計時
第14章 總結
術語錶
Intel Xeon Phi協處理器高性能編程指南 下載 mobi pdf epub txt 電子書 格式 2025
Intel Xeon Phi協處理器高性能編程指南 下載 mobi epub pdf 電子書專業書籍京東購買也越來越方便,不用自己去淘瞭。
評分.........................
評分書挺好,內容豐富,優化部分講的好
評分並行計算入門書籍,很好!!!!!!!!!
評分雖然已經有瞭英文版,但是技術和語言的雙重障礙還是很難跨過的。翻譯沒有什麼硬傷的地方,偶爾有瑕疵,覺得不通順的地方用英文電子檔對照就好。
評分Intel Xeon Phi編程的書不多,這本算比較官方的瞭。
評分寫得很好,編程必備,人手一份!推薦購買!
評分講得挺清楚!!!!!!!!!!!!!
Intel Xeon Phi協處理器高性能編程指南 mobi epub pdf txt 電子書 格式下載 2025