發表於2024-11-27
本書作者在多年研究傳統數據集成的基礎上,著重分析瞭大數據背景下的大數據集成。和傳統的數據集成相比,大數據集成具有一些新的挑戰,例如數據和數據源的海量性、數據的多樣性和數據的動態性等。本書共分6章,包括大數據集成的挑戰和機遇、模式對齊、記錄鏈接、數據融閤、齣現的新問題和結論,係統地討論瞭解決大數據集成中關鍵問題的一些重要研究成果和方法,對大數據集成的研究者和實踐者都很有幫助。另外本書也可以作為學生學習該領域的入門讀物。
Xin Luna Dong(董欣), 2013年加入榖歌公司擔任高級研究員,研究興趣包括數據集成、數據清洗和知識管理。在加入榖歌之前,她是AT&T;實驗室的研究員。董欣博士碩士畢業於北京大學,本科畢業於南開大學。
Divesh Srivastava AT&T;實驗室數據庫領域首席科學傢.
叢書前言
譯者序
前言
第1章 大數據集成的挑戰和機遇1
1.1 傳統數據集成2
1.1.1 航班示例:數據源2
1.1.2 航班示例:數據集成7
1.1.3 數據集成:體係結構和三個主要步驟10
1.2 大數據集成:挑戰12
1.2.1 “V”維度13
1.2.2 案例研究:深網數據量15
1.2.3 案例研究:抽取的領域數據18
1.2.4 案例研究:深網數據的質量22
1.2.5 案例研究:淺網結構化數據25
1.2.6 案例研究:抽取的知識三元組28
1.3 大數據集成:機遇30
1.3.1 數據冗餘性31
1.3.2 長數據32
1.3.3 大數據平颱33
1.4 章節安排33
第2章 模式對齊34
2.1 傳統模式對齊:快速導覽35
2.1.1 中間模式35
2.1.2 屬性匹配36
2.1.3 模式映射37
2.1.4 查詢問答38
2.2 應對多樣性和高速性的挑戰39
2.2.1 概率模式對齊39
2.2.2 按需集成用戶反饋52
2.3 應對多樣性和海量性的挑戰54
2.3.1 集成深網數據55
2.3.2 集成Web錶格59
第3章 記錄鏈接68
3.1 傳統記錄鏈接:快速導覽69
3.1.1 兩兩匹配71
3.1.2 聚類72
3.1.3 分塊74
3.2 應對海量性挑戰76
3.2.1 使用MapReduce並行分塊77
3.2.2 meta-blocking:修剪兩兩匹配83
3.3 應對高速性挑戰88
3.4 應對多樣性挑戰95
3.5 應對真實性挑戰100
3.5.1 時態記錄鏈接100
3.5.2 具有唯一性約束的記錄鏈接107
第4章 大數據集成:數據融閤113
4.1 傳統數據融閤:快速導覽114
4.2 應對真實性挑戰116
4.2.1 數據源的準確度117
4.2.2 值為真的概率118
4.2.3 數據源之間的復製關係121
4.2.4 端到端的解決方案128
4.2.5 擴展性和適應性131
4.3 應對海量性挑戰134
4.3.1 基於MapReduce框架做離綫融閤135
4.3.2 在綫數據融閤136
4.4 應對高速性挑戰142
4.5 應對多樣性挑戰146
第5章 大數據集成:齣現的新問題149
5.1 眾包的角色149
5.1.1 利用傳遞關係150
5.1.2 眾包端到端的工作流155
5.1.3 未來的工作158
5.2 數據源選擇158
5.2.1 靜態數據源160
5.2.2 動態數據源162
5.2.3 未來的工作166
5.3 數據源分析166
5.3.1 Bellman係統167
5.3.2 概述數據源170
5.3.3 未來的工作174
第6章 結論175
參考文獻177
索引184
前言大數據集成是兩大重要工作的結閤:一個是相對較老的“數據集成”工作;另一個是相對較新的“大數據”工作。
隻要存在人們要將多個數據集鏈接並融閤起來以提升它們價值的情況,數據集成就必不可少。早在計算機科學傢開始研究這一領域之前,統計學傢們就已經取得瞭許多進展,因為他們迫切需要關聯和分析隨時間不斷積纍的普查數據集。數據集成具有很大的挑戰性是由多種原因造成的,不僅僅因為我們錶示現實世界中實體的方式多種多樣。為瞭有效地應對這些挑戰,在過去幾十年裏,數據集成研究者們已經在一些基礎問題(如模式對齊、記錄鏈接和數據融閤),尤其是結構化數據的研究上,取得瞭巨大進步。
近年來,我們在將現實世界中的每個事件和交互都捕獲成數字化數據方麵的能力增長十分顯著。伴隨著這種能力的增長,我們渴望從這些數據中分析和抽取齣價值,從而迎來瞭大數據時代。在大數據時代,數據的數量和異構性以及數據源的數目,都極大地增長瞭,而且許多數據源是非常動態的並且質量韆差萬彆。不同數據進行鏈接和融閤會使數據的價值爆炸性地增大,因而大數據要能使我們做齣改變社會各方麵的有價值的、數據驅動的決策,數據集成是關鍵。
大數據上的數據集成稱為大數據集成。本書探討數據集成研究界在應對大數據集成帶來的新的挑戰方麵已經取得的進展。它的目的是可以作為研究者、從業者和學生想要瞭解更多關於大數據集成的一個起點。我們試圖覆蓋該領域內各種各樣的研究問題和工作,但顯然要全麵覆蓋這樣一個動態發展的領域是不可能的。我們希望本書的讀者能對這個重要領域有所貢獻,幫助發展大數據的美好願景。
緻謝本書在成書過程中得到瞭許多人的幫助。衷心感謝Tamer?zsu邀請我們寫這本書,感謝DianeCerra管理整個齣版過程,並感謝PaulAnagnostopoulos製作本書。沒有他們溫和的提醒、定期的推動和提示編輯,本書的完成將花費長得多的時間。
本書的大部分內容從我們在以下學校開的講習班和會議上做的大會報告演化而來,這些會議和學校包括:ICDE2013、VLDB2013、COMAD2013、蘇黎世大學、ADC2014和BDA2014的博士學校。感謝許多同行在報告進行中或之後所給的建設性的反饋。
我們也想感謝許多閤作者,他們多年來影響瞭我們對該研究領域的思考和理解。
最後,感謝我們的傢人,他們持續的鼓勵和愛的支持使所有的付齣更加值得。
XinLunaDong和DiveshSrivastava2014年12月
大數據集成 下載 mobi pdf epub txt 電子書 格式 2024
大數據集成 下載 mobi epub pdf 電子書終於齣來中文版的瞭,可以好好看看學習下
評分買傢提供開票信息無誤,商傢將發票開錯瞭,提供的是捲試機打發票,格式裏沒有納稅人識彆號欄位,硬是把這個項目擠到開票抬頭裏去瞭,不符閤公司報銷要求,客戶要求重新開電子檔發票自己打印。但客服不同意,要求必須要把錯誤的紙質發票迴寄,且運費要求我自行承擔。這個條件十分不閤理,財務學上隻要提供發票編碼即可綫上作廢,無需迴收紙質發票,京東客服如此要求就是故意刁難,,實在叫人窩火。多次反饋,毫無進展,實在叫人心寒。。。建議大傢日慎拍京東平颱東西,尤其是自營圖書
評分價格實惠、書也不錯、值得購買
評分還沒看完之後就開始瞭!
評分價格實惠、書也不錯、值得購買
評分挺好的!
評分京東的東西總是值得信賴,物流也很快,會一如既往地支持!
評分此用戶未填寫評價內容
評分不錯,實惠,快遞又快
大數據集成 mobi epub pdf txt 電子書 格式下載 2024