發表於2024-11-27
令人著迷的, 有趣的……—— 《西雅圖郵訊報》
全書充滿瞭生動的例子……——《金融時報》
作為大數據的核心應用,預測正在繁榮發展。它改寫瞭行業,驅動世界嚮前。潮流引領者比如大通銀行、臉譜網、榖歌、HP、IBM、Match.com、網飛公司、優步等正藉助大數據的力量對人類的行為進行預測——其中也包括你的。公司、政府、執法機關、醫院和高校正利用來自預測的力量,預測你否會點擊、購買、撒謊或者死去。
為什麼要對人類的行為進行預測?我們有充分的理由:預測人類行為,可以戰勝危機、促進銷售、提升醫療保健、簡化生産流程、攔截垃圾信息、優化社交網絡、強化打擊犯罪,以及贏得選舉,等等。
預測由世界上*有效、*豐富的非自然資源——數據驅動。作為人們各種日常及社會活動的副産品,數據正在被不斷被記錄和整理,並日漸成為一座金礦。大數據技術通過對數據進行學習,正不斷釋放數據的能量。
在這本內容豐富、有趣的書中,預測分析*專傢埃裏剋·西格爾解讀瞭預測是如何工作和影響我們每個人的。它不僅是一本技術實踐指導手冊,更通過提供新的研究案例以及前沿技術,幫助普通讀者和專業人士更好地瞭解大數據預測。
埃裏剋·西格爾, 博士, Predictive Analytics World創始人,《預測時報》( The Predictive Analytics Times)主編,前哥倫比亞大學教授,預測分析領域知名演講人、教育傢和領導者。
未來,大數據會變得越來越重要,其核心應用預測也會成為互聯網行業以及産業變革的重要力量,我們很有必要對數據預測及其分析方法進行全麵且深入的瞭解。在這一點上,《大數據預測》是本很好的讀物,適閤大數據所有相關行業的人閱讀。
——周鴻禕 360公司創始人、董事長兼CEO,奇酷CEO和知名天使投資人
我對不確定性懷有敬畏之心,但科學技術的發展尤其是大數據時代的來臨以及數據加工技術的進步,使人類行為可預測成為可能。我想,20年後,我們是不是會利用數據也就是預測的方法,去框定一個人的行為,或者說,我們的世界會因為預測技術改變到什麼程度?讀完這本《大數據預測》,基本就能找到答案瞭。
——羅振宇 得到App創始人
關於大數據的《魔鬼經濟學》 。
——斯坦·剋雷辛格 Advertising.com創始執行人
本書是21世紀生活的使用說明手冊。利用大數據進行預測幾乎成為所有領域的關機鍵,不管是科技、商業、財經、運動,還是政治。而埃裏剋·西格爾正是我們*理想的嚮導。
——斯蒂芬·貝剋 《數字迷宮與*風險》作者
本書有趣、有益、細膩入微,西格爾進行瞭深入探究,並讓科學變得激動人心。
——雷伊德·加尼 奧巴馬2012年美國大選團隊首席數據科學傢
商業、政界以及醫療衛生領域的《點球成金》。
——吉姆·斯特恩 eMetrics Summit創始人,Digital Analytics Association主席
序 言
前 言 預測分析的職業風險
導 論 預測效應
第一章 升空!預測開始發威
開始實踐
人人愛預言,雖然不精確
防護預測
價值100 萬美元的無聲革命
個性化的危險
預測分析程序的安裝:迂迴和拖延
運行過程中
基本要素:觀察
行動就是決策
危險的啓動
呼叫休斯敦,我們有麻煩瞭
能做到的小模型
休斯敦,發射
熱情的科學傢
讓預測走入內心
第二章 權力越大,責任越大:惠普、Target超市、警察和美國國傢安全局會窺探你的秘密
Target 超市的預測及其預測目標
意味深長的停頓
我的15 分鍾
曝光於聚光燈下
你無法禁錮那些可傳輸的東西
法律與秩序:政策和數據監管
數據之戰
數據挖掘並不是“攫取”數據
惠普自我學習
洞悉員工還是侵犯隱私
辭職風險:我不乾瞭!
洞見:辭職背後的因素
危險品
辭職風險評估的價值
預測犯罪,提前杜絕犯罪
數據犯罪和犯罪數據
無法測量的機器風險
偏見的輪迴
好的預測 壞的預測
第三章 數據效應:彩虹之後的饕餮
焦慮指數
將情緒可視化
在數據裏尋寶
一切都數據化
把所有艙門都封死:信息太多瞭
誰的數據會成為你的囊中之物?
彩虹之末
預測之汁
遙遠、奇特和驚人的洞察力
有關係,並不意味著是因果關係
第四章 學習的機器:大通銀行對房産抵押風險的預測分析
男孩與銀行的相遇
銀行麵臨著風險
預測抵禦風險
風險業務
學習機器
創建機器學習
從負麵經驗中學習
機器如何學習
你可以決定決策樹的規模
計算機,為自己編程吧
學吧,寶貝
越大越好
過度學習:假設太多
歸納之謎
機器學習的藝術和科學
感覺真實:測試數據
去粗取精是藝術
在大通銀行應用分類—迴歸決策樹
搖錢樹
迴歸—為何顯微鏡無法觀察到宇宙碰撞
後續
第五章 集團效應:Netflix、眾包以及增壓預測
業餘火箭科學傢
黑馬
思想外包:集思廣益
眾包如星火燎原
生於憂患
聯閤國
元學習
兩個預測模型的組閤
好戲在後頭
集體信息
群體和模型的智慧
一袋子模型
集體智慧開始發威
泛化悖論:過猶不及
挑戰極限
第六章 “沃森”和《危險邊緣》節目
文本分析
英語的愛恨情仇
在理解問題之後就要迴答
知識終極源泉
人工智能悖論
學習迴答問題
學人走路,學人說話
更好的捕鼠器
應答機器
投機取巧的《危險邊緣》
從證據中尋找答案
基礎知識,親愛的“沃森”
證據如山
用組閤模型來判斷證據
組閤模型的組閤
機器學習使自然語言處理成為可能
自信但不自負
需要速度
雙重危險—“沃森”會贏嗎?
《危險邊緣》的惶恐
為瞭勝利
比賽之後:榮譽、嘉奬和崇拜
非對稱性IBM 人工智能
對的預測
第七章 用數字說話:挪威電信和美國閤眾銀行工程師
如何通過預測來施加影響
攪拌吧,用力攪拌
沉睡的狗
要預測新的內容
眼睛看不到
預測說服
具有說服性的選擇
商業刺激和商業反饋
定量人性
量子人性—他是否可被影響?
通過上提模型預測影響力
銀行業對影響力的運用
預測錯誤之事
響應上提模型
上提模型的原理
上提模型如何發揮作用
說服效應
不同行業的影響
讓移動客戶不移動
結 語
價值100 萬美元的無聲革命
當組織采用預測分析時,其意義不啻發動瞭一支龐大軍隊,隻不過這是由“螞蟻”組成的軍隊。這些“螞蟻”會走上組織運營的各大前綫,與消費者、學生或病人等服務對象直接接觸。之後,這個“螞蟻軍團”會在預測結果的引導下改善數百個決策。這一過程可能並不是轟轟烈烈的,但用心觀察其綜閤效果之後,會發現這些細小變化所産生的閤力。每一個被改善的決策本身可能都顯得無足輕重,但成韆上萬的決策閤起來就大為不同。2005 年,某位客戶讓我想辦法提高他網站的點擊量,為此我把自己埋在瞭相關數據中,希望能找齣辦法幫助這位客戶。這位客戶希望其網頁上的廣告能獲得更多的點擊量。這關乎收入,廣告的點擊量越多,這位客戶的收入就越高。這傢網站在創辦幾年後已擁有數韆萬用戶,用戶數據大概有5000 萬條,這就是用來做預測的寶貴的原始材料庫,而預測的對象竟然是:點擊!
廣告是媒體不可分割的部分,無論是紙媒、電視還是網絡媒體都離不開廣告。本傑明·富蘭剋林曾說,人生中不可避免的兩樣東西是死亡和稅。如果他現在還活著,一定會加上第三樣東西:廣告。互聯網巨頭Google 承認,廣告是其最大的收入來源。Facebook也是如此 。
但對於我要研究的這傢網站來說,廣告的功能略有不同,隻要能預測用戶的點擊率,其潛在收益就會更大。這傢網站提供搜索高校奬學金的服務,在美國所有準備上大學的高中生中,大約有1/3 都是這傢網站的用戶。這雖是不顯眼的細分市場,但對於許多大學和軍校的招生工作人員來說,卻是不容錯過的網站。在該網站上,有一則大學招生廣告很霸氣,它自稱是“美國創新型教育的領導者”,上麵還附加瞭鏈接讓用戶點擊。不難想象,一些提供學生貸款的機構也選擇在這傢網站上投放廣告,讓報考學生沒有財務上的後顧之憂。這些廣告商為每次點擊支付25 美元。對於網站而言,如果一次點擊就能換來這樣豐厚的收入,那真是太棒瞭。此外,網站上的廣告與網站主題緊密相關,而網站的用戶也有很強的目的性,因此平均下來每100 次點擊就能産生5 筆成功交易,這是令普通網站難以企及的業績!因此,擁有這傢網站的獵頭公司從中獲利頗豐。任何微小的改善都意味著總收入的顯著提升。
但要想改善用戶的廣告選擇卻不是件容易的事。網頁切換時,用戶麵前可能會齣現很多廣告。最難的就是讓用戶點擊最適閤他們的廣告鏈接。目前,網站根據各廣告的平均點擊率來排序,完全沒有考慮用戶的獨特需求。因此,點擊最多的廣告總是擺在最顯眼的位置。這樣的安排降低瞭廣告與單個用戶的匹配度,而且廣告一旦被推到顯眼的位置,就很難被替換下來,因為大量用戶總是會不經意地點擊最顯眼處的鏈接。某些大學對每次點擊都願意支付高價,而且因為位置顯眼,其廣告鏈接的點擊率也很高。因此,似乎沒有理由用冷門的廣告去替換主流廣告,因為這樣做很可能會失去唾手可得的收入。
本書旨在通過量化方法來預測人類的行為。人類在此方麵的最初實踐是在第二次世界大戰時期。1940 年,“控製論之父”諾伯特·維納開始嘗試預測德國空軍飛行員的行為,目的是消滅這些納粹空中力量。其預測方法是,觀測德國飛機運動的軌跡,推測飛行員可能采取的機動規避動作,由此推斷飛機接下來所處的位置並用高射炮將其擊落。然而,維納隻能推斷齣飛機下一秒的飛行軌跡,要想精確炮擊飛機,必須預測飛機至少20 秒內的飛行軌跡。
在埃裏剋·西格爾的書中,你將看到許多預測案例,這些案例與維納預測德國飛機的案例相比要精準許多。與“二戰”時期相比,目前計算機的運算性能有瞭極大的提升,數據的豐富程度也非維納之時可比。因此,銀行、零售商、政治團體、醫院以及其他眾多機構,都在通過計算機數據處理來預測某些特定人群的行為,進而贏取客戶、贏得選舉或治愈疾病。
在本人看來,這些預測行為總體上是有益於人類發展的。在疾病治療、打擊犯罪以及反恐等領域,預測能挽救生命;在商業廣告領域,預測能讓廣告定位更加精準,從而保護森林(減少無效紙質廣告和宣傳冊的發放)、節省受眾的時間和精力;在政治領域,那些相信科學預測方法的政治候選人會有更大的勝算。
然而,正如西格爾在本書開篇坦誠指齣的那樣,這些方法也可能産生問題。西格爾引述瞭電影《蜘蛛俠》中的颱詞“力量越大,責任越大”來說明這一點。其引申意義是,人類必須謹慎運用預測模型,否則其效用和益處就會大打摺扣。與其他重要發明或革命性創新成果相似,預測分析本身並無是非對錯之分,但作為工具,它會帶來或善或惡的結果。要想避免預測分析的不正當應用,我們首先必須知曉預測分析究竟都能做什麼,隨著對本書閱讀的深入,相信你會對此問題形成自己的見解。
本書的重點是預測分析,這是諸多分析方法中的一種,是最有趣和最重要的分析方法。在我看來,純粹的描述性分析已經過時瞭,因為它隻是記錄過去發生的事情,無法真正說明這些事情為何會發生。此外,我也經常在自己的書裏提到第三種分析方法,即規範性分析,也就是通過控製實驗或定嚮優化來告訴人們應該怎麼做。但這些數理分析法的應用範圍較預測分析要小許多。
本書內容及其背後的思想與納西姆·尼古拉斯·塔勒布的思想恰恰相反。塔勒布在《黑天鵝》等書中提到,由於世界充滿偶然性且復雜事物的發展總是具有內在的不可預測性,因此預測行為注定會有失誤。毫無疑問,塔勒布的話是有道理的,世界上總會有不可預測的“黑天鵝事件”,但大部分人類行為都具有慣常性和可預測性。西格爾在本書中所給齣的大量成功預測的案例錶明,世界上大部分天鵝是白色的。
同時,西格爾也在試圖避免陷入“大數據”的陳詞濫調。盡管書中的某些案例具有“大數據”分析的特徵,即數據量龐雜無序以緻難以用傳統關係數據庫進行分析,但預測分析的關鍵點不在於數據的規模或繁復程度,而在於如何對待數據。我認為,通常,“大數據不過是小算術”,某些大數據領域從業者所做的不過是用宏大數據來裝點門麵。其價值與真正的預測模型相比,自然有雲泥之彆。
西格爾在本書中所闡述的理念復雜精巧,但其行文卻淺顯易懂,無論讀者是否熟悉數理分析,都可讀懂本書。書中包含瞭大量的實際案例和分析圖錶,筆觸通俗詼諧。即便是非數理分析專業人士,也應該好好閱讀本書,因為在現實生活中,任何人的行為都免不瞭成為他人分析和預測的對象。此外,非數理分析專業人士也免不瞭要在實踐中學習預測模型、評估模型效果並根據預測模型的結果采取適當的行動。
總而言之,我們所處的是講究預測的社會。要想在這樣的社會中生存發展,最好的方法就是去理解預測模型的目標、方法以及限製,要想做到這一點,最好的方法莫過於閱讀本書。
托馬斯·H. 達文波特
巴布森學院傑齣教授
麻省理工學院數字業務中心成員,德勤分析高級顧問
國際數據分析研究所聯閤創始人
《數據分析競爭法》聯閤作者
大數據預測:告訴你誰會點擊、購買、撒謊或死去(修訂版) 下載 mobi pdf epub txt 電子書 格式 2024
大數據預測:告訴你誰會點擊、購買、撒謊或死去(修訂版) 下載 mobi epub pdf 電子書書還沒看完,包裝還不錯,好評
評分圖書商品不錯,性價比也閤理,具有較好的使用價值和購買價值。
評分東西很不錯,質量挺好的,京東買東西速度快,質量好,值得購買。謝謝
評分給單位購買的,京東買書比較方便!
評分一直在京東買書,送貨快,是正版
評分給單位購買的,京東買書比較方便!
評分好評
評分好評
評分京東的圖書質量挺好的,開捲有益。
大數據預測:告訴你誰會點擊、購買、撒謊或死去(修訂版) mobi epub pdf txt 電子書 格式下載 2024