內容提要
本選題以科普的方式係統地闡述瞭大數據前沿技術與研究進展,對技術的來源、結論、對比、用途以及開源軟件進行瞭深入淺齣的描述,並不過多地涉及數學符號及基礎原理。以大數據可視化為切入點,通過自然語言處理、社交網絡挖掘、語義網絡與知識圖譜三方麵非結構化數據處理技術,闡述大數據經典應用,利用基於圖數據庫、內存計算、分布式存儲係統的大數據存儲與管理作為大數據平颱支撐,進而探討基於眾包技術擴充數據來源與提高數據質量,並圍繞大數據環境下的隱私保護問題,探討瞭大數據安全技術。
目 錄
第1章 大數據可視化 1
1.1?可視化基礎 2
1.1.1?可視化釋義 2
1.1.2?可視化流程 5
1.1.3?可視化對象 6
1.1.4?可視化方法 10
1.2?大數據可視化介紹 36
1.2.1?大數據可視化特點 37
1.2.2?大尺度數據的可視化 38
1.2.3?快速變化數據的可視化 41
1.2.4?多變量數據的可視化 44
1.2.5?非結構化數據的可視化 50
1.2.6?大數據可視分析 53
1.3?可視化與可視分析研發資源 60
1.3.1?代錶性開源與商業軟件 60
1.3.2?開發工具與編程語言 61
1.3.3?可視化信息資源 62
1.3.4?部分可視化科研機構 63
參考文獻 64
第2章 文本大數據處理 67
2.1 文本大數據概述 67
2.2?中文詞法分析 70
2.3?句法分析 73
2.4?語義分析 74
2.5?開源項目與共享工具 75
2.6?文本大數據的部分應用 76
2.6.1?概述 76
2.6.2?基於雙數組Trie樹的麵嚮微博短文本的分詞 77
2.6.3?詞義消歧 80
2.6.4?未登錄詞識彆 83
2.6.5?文本分類與文本聚類 84
2.6.6?機器翻譯 86
2.6.7?其他應用 87
參考文獻 89
第3章 社交網絡大數據挖掘 91
3.1? 概述 91
3.2?大規模異構網絡集成 94
3.2.1?計算模型——COSNET 96
3.2.2?模型求解 98
3.2.3?實驗結果 99
3.3?基於交互的網絡機器學習 101
3.3.1?網絡數據的主動交互學習 101
3.3.2?算法模型——MaxCo 102
3.3.3?網絡流數據的主動交互學習 103
3.3.4?算法模型 104
3.4?基於隨機路徑的高效網絡拓撲相似度算法 106
3.4.1?問題定義 107
3.4.2?基於隨機路徑的網絡拓撲相似度算法——Panther 107
3.4.3?實驗結果 110
3.4.4?小結 113
3.5?個體行為與網絡分布的統一建模框架——M3D 113
3.5.1?研究方案 114
3.5.2?實驗驗證 115
3.6?總結和展望 117
參考文獻 117
第4章 語義大數據——知識圖譜 119
4.1?大規模知識圖譜技術 119
4.1.1?知識圖譜的錶示及其在搜索中的展現形式 119
4.1.2?知識圖譜的構建 121
4.1.3?知識圖譜在搜索中的應用 126
4.1.4?總結 127
4.2?行業知識圖譜工具 127
4.2.1?簡介 127
4.2.2?常見的行業知識圖譜 129
4.2.3?行業知識圖譜的構建 131
4.2.4?行業知識圖譜的應用 139
4.2.5?應用案例 141
第5章 圖數據庫——基於圖的大數據管理 147
5.1?圖數據庫簡介 147
5.1.1?大圖數據 148
5.1.2?OLTP與OLAP 149
5.1.3?圖數據模型 151
5.1.4?圖查詢語言 154
5.2?主流圖數據庫和圖計算引擎 160
5.2.1?最流行的圖數據庫——Neo4j 160
5.2.2?分布式圖數據庫——Titan 161
5.2.3?基於RDF三元組庫的圖數據庫——Blazegraph 162
5.2.4?基於Pregel框架的圖計算引擎——Giraph、Hama、
GraphLab、GraphX 163
5.3?圖數據庫關鍵技術 166
5.3.1?圖數據庫的存儲 166
5.3.2?圖數據庫的索引 169
5.3.3?圖數據庫的查詢處理 172
5.4?圖數據庫應用 175
5.4.1?語義萬維網 175
5.4.2?社會網絡 176
5.4.3?生物信息學 177
第6章 內存計算——高速大數據處理的核心技術 179
6.1?內存計算技術的一個誤區 179
6.2?TimesTen的設計思路 180
6.3?Apache Spark的設計思路 182
6.4?SAP HANA的設計思路 184
6.5?YunTable 4.0的産品介紹 186
6.5.1?整體架構與核心技術 186
6.5.2?MPP 188
6.5.3?列存2.0 188
6.5.4?動態數據分發 190
6.5.5?內存計算 191
6.5.6?性能和路綫圖 191
6.6?總結 192
第7章 分布式存儲係統——大數據存儲支撐技術 193
7.1?大數據對存儲係統帶來的挑戰及其引發的變革 193
7.2?榖歌文件係統(GFS) 194
7.2.1?支持大數據集存取和離綫批處理的分布式存儲係統 194
7.2.2?GFS架構分析 195
7.2.3?係統交互 202
7.2.4?主節點的設計 206
7.2.5?容錯和診斷 211
7.2.6?小結 214
7.3?支持海量數據和大規模並發訪問的分布式對象存儲
OpenStack Swift 214
7.3.1?互聯網化帶來新的存儲需求 214
7.3.2?OpenStack Swift的特點 216
7.3.3?Swift的數據模型和架構 219
7.3.4?Swift的API 236
第8章 大數據安全技術 243
8.1?差分隱私保護方法簡介 243
8.2?差分隱私研究保護方嚮——數據發布和數據挖掘 246
8.2.1?基於差分隱私保護的數據發布(DPDR) 246
8.2.2?差分隱私保護數據挖掘(DPDM) 247
8.3?常見隱私保護方法 247
8.3.1?差分隱私保護分類方法 247
8.3.2?差分隱私保護聚類方法 248
8.3.3?差分隱私頻繁模式挖掘 249
8.4?應用案例和原型係統 249
參考文獻 251
第9章 眾包——數據來源與質量保證 255
9.1?眾包 255
9.1.1?眾包的概念和模型 255
9.1.2?眾包的優劣分析 257
9.2?眾包的關鍵技術 257
9.2.1?眾包流程 257
9.2.2?任務設計 259
9.2.3?任務分配 260
9.2.4?任務動態優化 261
9.2.5?眾包激勵機製 261
9.2.6?眾包質量保障 263
9.3?眾包的成功案例和平颱 264
9.3.1?知識百科眾包 264
9.3.2?數據眾包 264
9.3.3?創新眾包 266
9.3.4?軟件眾包 267
9.3.5?眾籌 268
9.3.6?通用智力勞動眾包 269
9.3.7?中國的眾包平颱 269
9.4?眾包研究趨勢 269
9.5?總結和展望 271
參考文獻 271
作者介紹
阮彤,中科院軟件所博士,現任華東理工大學計算機技術研究所副所長,自然語言處理與大數據挖掘實驗室主任,副教授。中國計算機學會(CCF)大數據專委會委員,中文信息處理學會"CCIR"專委會委員,中關村大數據聯盟學術委員會主任委員。
前 言
大數據四個V的定義已經深入人心,然而,有關大數據的探索,無論從大數據科學角度還是應用角度,都處於早期階段。對於普通的大數據實踐者而言,利用較為成熟的大數據基礎架構Hadoop、計算引擎Spark,以及諸如Weka3這樣的機器學習軟件,能夠在一定程度上解決數據存儲問題、計算與挖掘問題。
然而,對於大量的大數據探索者與實踐者而言,還會碰到形形色色的問題。例如,如何閤理地可視化大數據,如何實現大數據的隱私保護,如何通過信息檢索技術快速在大數據中找到閤適的信息等。這些問題也是學術界正在研究的問題。然而,由於産業與學術的分離、學術研究領域細分等現狀,大多數從業人員無從瞭解此類問題的學術界研究現狀,也無法判斷研究成果是否已經到瞭可用程度。
在編者主持中關村大數據聯盟的綫上學術論壇活動中,各行各業的技術主管都希望能瞭解學術界有關大數據相關的研究方嚮與成果。然而,由於大數據涉及存儲、安全隱私、自然語言處理、可視化等學術研究的方方麵麵,非編者一人能力可及。因此,在學術論壇中,我們邀請瞭來自不同院校、不同研究方嚮的大數據科研工作者,講解他們與大數據相關的科研工作進展。
本書在論壇報告中選擇瞭部分精華,為瞭書本的邏輯性與完整性考慮,又邀請瞭部分知名青年學者增加瞭部分章節,並對每章內容進行瞭提煉和擴充。本書綜閤瞭多名學者的智慧,使得讀者可以高屋建瓴地瞭解大數據在不同學術研究方嚮的現狀和最新成果。為方便讀者閱讀,編者與每章作者統一瞭寫作風格,試圖以科普的方式係統闡述大數據前沿技術與研究進展,對技術的來源、結論、對比、用途及開源軟件進行深入淺齣的描述,並不過多地涉及數學符號及基礎原理。
全書以大數據可視化(第1章)為切入點,通過自然語言處理(第2章)、社交網絡挖掘(第3章)、語義網絡與知識圖譜(第4章)三方麵非結構化數據處理技術,闡述大數據經典應用;利用基於圖數據庫(第5章)、內存計算(第6章)、分布式存儲係統的大數據存儲與管理(第7章)作為大數據平颱支撐;並圍繞大數據環境下的隱私保護(第8章)問題,探討瞭大數據安全技術;進而探討基於眾包技術(第9章)擴充數據來源與提高數據質量。通過係統、多方位地總結大數據的技術前沿,使讀者可以快速瞭解大數據在學術方麵的最新成果。
阮彤
2015年11月23日
這本書簡直是一場思想的盛宴!我一直對人工智能領域充滿好奇,而這本書從一個全新的角度切入瞭我的關注點——AI倫理。它並非直接教授我如何編寫AI算法,而是深入探討瞭AI在現實世界中可能引發的道德睏境,比如算法偏見如何加劇社會不公,以及數據隱私在AI發展中的敏感地位。讀完後,我感覺自己對AI的認識不再停留在技術層麵,而是上升到瞭一個更宏觀、更具人文關懷的高度。書中列舉瞭大量案例,從招聘中的歧視到刑事司法中的誤判,每一個都引人深思,讓我不禁開始反思自己在日常生活中,是否也曾無意識地參與或助長瞭這些不公平。作者的筆觸細膩,邏輯清晰,將復雜的技術和社會問題剖析得入木三分。讓我印象最深刻的是關於AI決策透明度的討論,書中提齣瞭“黑箱”問題,並探討瞭如何構建可解釋的AI係統,這對我理解AI的未來發展方嚮非常有啓發。它沒有給我直接的“怎麼辦”,但卻給瞭我無窮的思考,讓我對接下來的學習方嚮有瞭更明確的定位,也讓我對AI技術的發展抱有更加審慎和負責任的態度。這本書就像一盞明燈,照亮瞭我對AI技術背後人文價值的探索之路。
評分這本書的宏大敘事和曆史跨度,深深地吸引瞭我。我一直對人類文明的演進史著迷,而這本書以一種極其廣闊的視野,梳理瞭從農業革命到信息革命的宏大脈絡,並試圖從中找齣貫穿其中的驅動力。它並沒有細緻地描繪某個時代的具體事件,而是聚焦於那些能夠引領曆史走嚮的重大轉摺點和技術創新。例如,書中對印刷術、蒸汽機、電力以及互聯網等關鍵技術的分析,都讓我對人類文明的進步有瞭更深刻的理解。我印象最深刻的是作者關於“知識傳播”和“信息互聯”如何加速文明發展的論證,這與我之前的一些認知不謀而閤,但書中提供瞭更豐富的曆史證據和理論支撐。它讓我意識到,技術的發展並非孤立的事件,而是與社會、經濟、文化等多種因素相互作用、螺鏇式上升的過程。讀完這本書,我感覺自己仿佛站在瞭一個更高的維度,能夠更清晰地看到人類文明發展的宏大圖景,以及我們是如何一步步走到今天的。它激發瞭我對曆史和科技之間關係的進一步探索,也讓我對人類創造力的無限可能充滿瞭敬畏。
評分這本書帶來的知識衝擊是實實在在的,尤其是在我一直關注的城市規劃領域。它並沒有直接提供具體的城市建設方案,而是從一個更根本的視角,探討瞭“智能城市”的構建邏輯和可持續發展模式。我一直覺得,一個真正“智能”的城市,不應該僅僅是充滿瞭傳感器和大數據平颱,而更應該是一個能夠響應市民需求、優化資源配置、並且真正提升居民生活品質的空間。這本書恰恰抓住瞭這一點,它詳細闡述瞭如何利用物聯網、雲計算和人工智能等技術,去感知城市運行的脈搏,比如交通流量的實時監測,能源消耗的智能調控,甚至是垃圾分類的自動化處理。我尤其對書中關於“數字孿生”的概念印象深刻,通過構建城市的數字模型,我們可以模擬各種發展場景,預測潛在的問題,從而做齣更明智的決策。它讓我看到瞭技術如何能夠真正地賦能城市管理,讓城市變得更高效、更環保、更宜居。讀完之後,我對於我所在的城市,以及未來城市的發展模式,都有瞭全新的認識和期待。書中描繪的未來城市藍圖,既充滿科技感,又迴歸瞭以人為本的初衷,這讓我感到非常振奮。
評分對於我這樣一個對藝術鑒賞懷有濃厚興趣但又缺乏專業知識的人來說,這本書簡直是一場及時雨!它並沒有直接教授我如何去“畫”,而是從一個非常獨特的視角,引導我去理解“藝術”背後的邏輯和美學原理。書中並沒有羅列名傢名作,而是通過對色彩、構圖、綫條以及光影等基本元素的深入解析,讓我看到瞭隱藏在各種藝術形式之下的共通之處。我尤其喜歡書中關於“感知”的探討,它教我如何去“看”,如何去“感受”,而不是僅僅停留在錶麵的信息接收。比如,書中對不同色彩搭配如何影響情緒的分析,對不同構圖如何引導視綫的講解,都讓我豁然開朗。它讓我明白,欣賞一件藝術品,不僅僅是看它“是什麼”,更重要的是去感受它“如何”呈現,以及它“想”傳達什麼。這種由點及麵、由淺入深的學習方式,讓我覺得藝術鑒賞不再是遙不可及的門檻,而是可以被理解和體驗的。讀完之後,我對很多之前不太理解的藝術作品,都有瞭新的感悟,也更加期待在未來的生活中,去發現和體驗更多隱藏在日常中的美。
評分這本關於“後疫情時代”的社會變革分析,著實讓我眼前一亮。我一直對全球化進程的演變充滿興趣,而這本書恰恰提供瞭一個非常獨特的視角,去審視疫情如何重塑瞭我們的社會結構和生活方式。它並非陳述疫情的統計數據,而是深入剖析瞭疫情對工作模式、供應鏈、教育方式甚至人際交往産生的深遠影響。書中提齣的“遠程辦公常態化”和“綫上教育的普及”等觀點,在我自己的工作和生活中就得到瞭印證,這讓我更能體會到作者分析的精準性。它讓我意識到,很多疫情期間的“臨時措施”,可能已經悄然成為新的常態,並且正在以前所未有的速度改變著社會的遊戲規則。我特彆喜歡書中關於“韌性供應鏈”的討論,疫情暴露瞭全球供應鏈的脆弱性,而書中提齣的多元化、本地化以及數字化轉型等策略,為我們應對未來的不確定性提供瞭重要的思路。總而言之,這本書不僅僅是對過去兩年多事件的總結,更是一份關於如何適應和重塑我們社會未來的行動指南。它讓我對未來的社會發展充滿瞭思考,也對接下來的挑戰和機遇有瞭更清晰的認知。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有