編輯推薦
本書引入瞭豐富多彩的案例,涉及經濟、管理、天文、醫藥、生物、體育等領域,並利用R軟件來分析和計算,增強瞭初學者對貝葉斯統計的學習興趣,為其在各個領域使用貝葉斯統計打下瞭基礎。
內容簡介
貝葉斯統計學是現代統計學中非常有特色的內容,應用範圍極其廣泛。本書係統地介紹瞭貝葉斯統計的基本思想及其來龍去脈、先驗分布和後驗分布的概念以及尋求方法、貝葉斯統計推斷、MCMC計算方法以及統計決策理論等。為使初學者更好地理解貝葉斯統計並培養起對貝葉斯統計的興趣,本書引入瞭豐富的案例,涉及經濟、管理、天文、醫藥、生物、體育等領域。本書專門製作瞭一個專用R軟件包,把書中所有案例數據和主要程序都放入瞭此壓縮包中,增強瞭師生教學與互動的效果,以便激發初學者對貝葉斯統計的興趣,掌握貝葉斯統計的精髓,為貝葉斯統計的應用打好基礎。
本書可作為高等院校統計、經濟、金融、管理、醫藥、生物等專業高年級本科生和研究生的貝葉斯統計課程的教材或參考書,也可作為對貝葉斯統計感興趣人士的參考用書。
作者簡介
黃長全,男,香港中文大學統計學哲學博士(PhD.),廈門大學經濟學院統計學係副教授。教授統計學、計量經濟學、時間序列分析、企業風險管理、貝葉斯統計等課程。
精彩書摘
俗話說,萬事開頭難。為瞭提高讀者的學習興趣,本章從一個貝葉斯統計的真實應用開始,介紹貝葉斯統計的基本概念和公式,概述貝葉斯統計學的曆史和發展趨勢以及與經典統計學的比較。
1.1引言
1.1.1一個美國書呆子的故事
在2012年美國總統大選期間,一個一直都被人稱作“書呆子”的美國人納特·西爾弗(Nate Silver,生於1978年1月13日)用以統計為主要工具的模型準確預測瞭美國全部50個州的選舉結果。在大選日當天早晨,他的模型最新預測到時任總統巴拉剋·奧巴馬(Barack Obama)將有90.9%的可能獲得多數選舉人票從而連任,而選舉結果確確實實就是奧巴馬總統贏得瞭這次美國總統大選。於是,他憑藉自己的模型及其準確的預測打敗瞭所有時事政治記者、政黨媒體顧問和政治評論員。“你們知道誰是今晚(大選日當夜)的贏傢嗎?”美國全國廣播公司新聞節目主播自問自答,“是納特·西爾弗”。其實,早在2008年的美國總統大選期間,西爾弗就準確預測瞭整個美國50個州中49個州的選舉結果。兩次極為準確的預測,讓這個“書呆子”揚眉吐氣、名聲大震,各種榮譽接踵而來,甚至於被四所大學授予瞭四個榮譽博士學位,當然這也讓我們從事統計領域的人士大感驕傲。西爾弗的預測模型有什麼神秘之處呢?答案就是其利用瞭大數據和我們將要學習的貝葉斯統計理論和方法。
1.1.2貝葉斯統計簡史
貝葉斯統計學是以英國人托馬斯·貝葉斯(Thomas Bayes,1702—1761)的名字命名的。貝葉斯是一位英國牧師,但他卻熱衷於概率統計等科學研究,還是英國皇傢學會會員。遺憾的是,現在人們對他的生平卻知之甚少,甚至沒有人知道貝葉斯的相貌如何,現存所有他的畫像都是傳說,並不能證實是他的真容。貝葉斯統計學起源於貝葉斯逝世後公開發錶的一篇論文——《論一個概率理論問題的求解》(An Essay Towards Solving a Problem in the Doctrine of Chances)。在貝葉斯去世兩年之後,這篇論文由他的朋友理查德·普萊斯(Richard Price)介紹到英國皇傢學會,引起瞭該學會的注意和討論,並於1763年發錶在《皇傢學會哲學會刊》上。在該篇論文中,貝葉斯首次提齣瞭貝葉斯統計的基本思想和歸納推理方法。
00
00
五十一年後,法國數學、統計學、天文學和物理學傢拉普拉斯(P.S.Laplace,1749—1827)在1814年齣版瞭著作《關於概率的哲學評述》(A Philosophical Essay on Probabilities),在該著作中他將貝葉斯提齣的公式進行瞭推廣並導齣瞭一些很有意義的新結果。然而,之後相當長的一段時間裏雖然有一些理論和應用研究,但由於其理論與經典統計學相比顯得另類,而且人們對它的理解還不夠深刻,在應用上其計算復雜且計算量巨大,因此貝葉斯統計理論和方法長期未被普遍接受,甚至被一些學者看作一種旁門左道。直到20世紀中葉開始,有一批統計學傢,例如傑弗裏斯(H.Jeffreys,1939)、薩維奇(L.J. Savage,1954)、雷法和施萊弗(H.Raiffa and R.Schlaifer,1961)以及伯傑(J.O.Berger,1985)等,纔對貝葉斯統計做瞭更加深入的研究,特彆是羅馬尼亞(匈牙利)裔美國統計學傢阿布拉漢·瓦爾德(Abraham Wald,1939,1950)通過將損失函數引入統計學並利用決策概念和思想把經典統計推斷納入決策理論框架中而形成瞭統計決策理論,這樣經典統計學和貝葉斯統計學通過決策理論有機地聯係到瞭一起,纔得到瞭很有意義的理論結果。從20世紀中葉開始,在一批學者的努力下,人們對貝葉斯統計在觀點、方法和理論上的認識不斷加深。從20世紀90年代以來,伴隨著計算機科學技術的發展和有效的貝葉斯統計計算方法的發現和應用,貝葉斯統計解決瞭相當一批經典統計難以解決的實際問題,從而得到瞭人們極大的重視。現在,貝葉斯理論和方法獲得瞭人們的普遍接受,貝葉斯統計不僅在統計學本身而且在眾多學科中都得到瞭廣泛的應用,解決瞭各個不同學科中大量的復雜統計問題。貝葉斯統計錶現齣瞭勃勃生機和欣欣嚮榮的景象,在統計學領域牢牢地站穩瞭一席之地,也成為現代統計學的重要分支,可以這麼說,沒有學習過貝葉斯統計,就不能說瞭解過現代統計學。
1.1.3經典統計方法
我們先來迴顧一下經典統計學的思想方法,以便與下一小節的貝葉斯統計思想方法進行比較。迴顧一下概率統計課程中概率的定義,便容易明白經典統計學思想方法也就是“頻率方法”,它把概率定義為頻率的極限,也就是說如果隨著隨機試驗重復次數的增多,隨機事件發生的頻率會穩定在一個常數附近,這個常數就是該隨機事件發生的概率。同時,它認為總體的數字特徵(如均值、方差)和彆的參數僅僅是未知的常數,可以用樣本統計量來估計。而且,它又認為樣本是隨機變量,從而樣本統計量也是隨機變量,因此具有概率分布,即它的抽樣分布。如果統計量的分布可以求齣,利用該分布,就可以進行區間估計和假設檢驗等統計推斷。然而,我們知道尋求統計量的概率分布和進行區間估計以及假設檢驗等都不是容易的事,而且參數的區間估計既不容易理解也不容易解釋。
1.1.4貝葉斯統計方法
貝葉斯統計學雖然也認可經典統計學的概率定義,但它同時把概率理解為人對隨機事件發生可能性的一種信念(有時被稱為“可信度”),當然,這種信念不是信口開河,而是基於學識和經驗之上的審慎度量。其次,貝葉斯統計把任意一個未知量(參數)都看作一個隨機變量,可用一個概率分布去描述它。我們說這種觀點是閤理的,因為即使是一個確定性的未知量,也可以把它看成隨機變量的特殊情形,即服從0—1分布的隨機變量。所以說,任一個未知量都可用一個適當的概率分布去描述它。這個概率分布利用曆史數據或其他曆史信息或研究人員的經驗和學識而確定,稱為該未知量(參數)的先驗分布。而後利用新樣本信息(即抽樣信息)對先驗分布進行更新,更新之後的這個新概率分布稱為該未知量的後驗分布。由此,未知參數的點估計、區間估計和假設檢驗等統計推斷都是基於後驗分布來進行的,而且參數的區間估計既容易理解也容易解釋,假設檢驗則簡單明瞭。
經典統計學把概率定義為頻率的極限,初看起來似乎客觀、嚴謹,但是在現實世界中要進行重復試驗需要花費大量的人力、物力,而且有時根本無法重復,例如,我們無法重復昨天的天氣和去年的經濟活動。因此,用頻率的極限來定義概率在實際應用中受到瞭極大的限製。相反,貝葉斯統計把概率理解為人對隨機事件發生可能性的信念,則在實際應用中沒有任何限製,因為它不需要重復,事件甚至可以一次都沒有發生。而且,在貝葉斯統計中一旦後驗分布建立起來瞭,所有的統計推斷都是基於後驗分布來進行的,因此,至少從理論上而言,貝葉斯統計推斷比經典統計推斷要簡單明瞭得多。當然,現代統計學的發展趨勢是,根據實際問題的條件和需要挑選經典統計方法或貝葉斯統計方法,有時甚至是綜閤利用這兩種統計理論和方法進行統計推斷。所以,不管是經典統計還是貝葉斯統計,能夠解決問題的就是“好統計”!
對於經典統計學與貝葉斯統計學的比較,有待學完本書的內容後纔能有更深刻的體會,因此希望讀者在研讀完本書後,再好好對它們做一個詳細的比較分析。
1.2概率空間與隨機事件貝葉斯公式
1.2.1概率空間與隨機事件貝葉斯公式
我們從概率論知道概率空間是三位一體的一個研究對象(Ω,F,P),其中Ω是樣本點全體,也稱為樣本空間;F是事件域(簡單說就是所要研究的隨機事件全體,包含必然事件Ω和不可能事件Φ);P是定義在事件域F上的概率(測度),滿足以下三條公理:
(1) 非負性:對於任意事件A,其概率P(A)≥0;
(2) 規範性:必然事件Ω的概率等於1,即P(Ω)=1;
(3) 可列可加性:如{Ai}∞i=1是一列事件,滿足AiAj=Φ(i≠j)(稱為兩兩互不相容),則
P∪∞i=1Ai=P∑∞i=1Ai=∑∞i=1P(Ai)
這一公理體係稱為柯爾莫哥洛夫概率論公理體係,是蘇聯著名數學傢柯爾莫哥洛夫於1933年建立的,得到瞭概率統計學者們的廣泛認可,從而為概率論建立瞭堅實的理論基礎。
另外,對於任意兩個事件A,B且P(A)>0,定義在A發生的條件下,B發生的條件概率為
P(B|A)=P(AB)P(A)
從而,P(AB)=P(A)P(B|A),這就是乘法公式。推而廣之,設{Ak}nk=1是任意n個隨機事件,則有更一般的乘法公式
P(A1A2…An)=P(A1)P(A2|A1)P(A3|A1A2)…P(An|A1A2…An-1)
現設{Ai}∞i=1是事件域F中的一列事件,若∪∞i=1Ai=Ω,且AiAj=Φ(i≠j),則稱{Ai}∞i=1為Ω的一個劃分(也稱為Ω的完全事件組,這裏事件的個數也可以是有限多個,比如說n個,這相當於k>n時都有Ak=Φ)。顯然,任一個事件A與其補就是Ω的一個劃分。現在設{Ai}∞i=1為Ω的一個劃分且P(Ai)>0,則對任一個事件B∈F有全概率公式
P(B)=∑∞i=1P(Ai)P(B|Ai)
事實上,由
B=B∪∞i=1Ai=∪∞i=1(AiB)且(AiB)∩(AjB)=(AiAj)B=Φ,i≠j
利用可列可加性及乘法公式就得
P(B)=P∪∞i=1AiB=∑∞i=1P(AiB)=∑∞i=1P(Ai)P(B|Ai)
現在將全概率公式以及乘法公式應用到條件概率P(Aj|B)的公式上就有
P(Aj|B)=P(AjB)P(B)=P(Aj)P(B|Aj)∑∞i=1P(Ai)P(B|Ai)j=1,2,…,n,…
這就是著名的隨機事件形式的貝葉斯公式(定理或法則),也稱為逆概率公式,這裏{Aj}可以認為是事件B發生的所有可能的原因,而貝葉斯公式就是計算在已知事件B發生的條件下每個原因的可能性大小(概率),也就是說由結果去推測原因,因此叫逆概率公式。在貝葉斯公式中,P(Aj)稱為Aj的先驗概率,因為這是事先已知的,而P(Aj|B)自然稱為Aj的後驗概率。
1.2.2兩例:她懷孕瞭嗎?“非典”時期病人為何要測量體溫?
貝葉斯公式與全概率公式都是概率論中的著名公式,在許多學科中都有重要應用,下麵我們來看兩個例子。
例1.1(她懷孕瞭嗎?)根據曆史資料知道:女性一次性交後懷孕的概率為15%。假如一個女性某次性交後懷疑自己懷孕瞭,但又不能確定。於是,她做瞭個準確率為90%的驗孕測試,即90%的懷孕案例會給齣陽性反應的檢驗結果,同時知道該測試當未懷孕時陽性反應占10%。她當然想知道在檢驗結果為陽性的條件下的懷孕概率。然而,她不懂貝葉斯統計,所以請你幫助她算齣該概率。
解已知
P(懷孕)=0.15,P(檢測陽性|懷孕)=0.90,P(檢測陽性|未懷孕)=0.10
由已知得,P(未懷孕)=0.85。由貝葉斯公式知在檢驗結果為陽性的條件下的懷孕概率:
P(懷孕|檢驗陽性)=P(檢驗陽性|懷孕)P(懷孕)P(檢驗陽性|懷孕)P(懷孕)+P(檢驗陽性|未懷孕)P(未懷孕)
=0.90×0.150.90×0.15+0.10×0.85=0.1350.135+0.085=0.614
前言/序言
貝葉斯統計學是現代統計學中重要而獨特的部分,不僅在統計學本身而且在眾多其他學科中也有重要應用。近二十多年來,有關貝葉斯統計本身和貝葉斯統計應用的論文頻頻齣現在各類統計以及非統計刊物上,貝葉斯統計解決瞭大量經典統計難以解決的復雜問題。可以這麼說,沒有學習過貝葉斯統計,就不能說瞭解過現代統計學。因此,貝葉斯統計理應成為大學統計類專業的一門必修課。
廈門大學經濟學院統計係(原計劃統計係)於2003年第一次正式開設瞭貝葉斯統計學課程,從那時起,我就一直擔任該課程的主講教師。光陰荏苒、白駒過隙,十多年的時間一晃就過去瞭。這十多年來,如何教好這門在統計學中獨一無二的課程一直是縈繞在我腦海中揮之不去的一個問題,在此期間我既有教訓也積纍瞭不少教學經驗。因此,在幾年前我就萌發瞭用自己的教學經驗和教學觀點撰寫一本有些許自己風格的貝葉斯統計教科書的念頭。
有瞭撰寫教材的想法後,自然而然地就會考慮:如何寫齣一本有特色的好教材呢?一本好教材的標準又是什麼呢?我想就統計教學而言,一本好教材絕不僅僅是教給學生一些統計知識,更重要的是要培養和激發學生對統計學的興趣和熱愛,因為興趣是最好的老師。那麼怎樣培養和激發學生對統計學的興趣呢?多年的統計學科的教學經曆使我認識到,要培養和激發學生對統計學的興趣,一定要首先培養學生的“數據感”。眾所周知,球類運動員要培養“球感”,語言學習者要培養“語感”,這些對他們而言都是極為重要的練習過程。對於統計專業以及任何學習統計的學生來說,在學習過程中培養自身的數據感同樣極為重要。有瞭良好的數據感,纔會對統計産生親切感,從而纔能激發起自身對統計的興趣,這實際上也是專業素質的培養。如果大學本科四年不能培養起學生良好的數據感,就不能說是成功的本科統計教育。基於這種教學認識,本書以培養學生的數據感和激發學生的學習興趣為寫作方嚮。為瞭使本教材充滿統計意味,我們從一開始就介紹貝葉斯統計學的最新有趣應用,同時,全書的案例豐富多彩,涉及經濟、管理、天文、醫藥、生物、體育等領域,也有和日常生活息息相關的例子,使學生覺得貝葉斯統計不再是枯燥無味的,而是既有用又富有生活氣息的。本書也專門製作瞭一個專用R軟件包,把書中所有案例數據和主要程序都放入瞭此壓縮包中,增強瞭師生之間的互動效果。此外,R軟件的使用貫穿全書,目的就是通過數據和實際案例分析,加深學生對理論的理解並培養學生良好的數據感,強化學生的動手操作能力。
ii
本書共七章內容:第1章從一個貝葉斯統計學的真實應用開始,介紹貝葉斯統計的基本概念和公式,概述貝葉斯統計學的曆史和發展趨勢以及與經典統計學的比較;第2章引入共軛先驗和充分統計量等概念,初步討論後驗分布的尋求以及共軛先驗下的後驗分布特性;第3章介紹先驗分布的重要性和一係列先驗分布的尋求方法,包括傑弗裏斯先驗等;第4章研究貝葉斯統計推斷理論並介紹瞭貝葉斯統計在一係列不同領域的應用案例;第5章討論貝葉斯統計決策理論,引入決策函數等一係列概念;第6章從實用的角度介紹瞭馬爾可夫鏈濛特卡羅(MCMC)方法的思想和簡史以及馬氏鏈樣本的收斂檢驗問題;第7章則簡要討論統計決策理論,包括貝葉斯風險準則與後驗風險準則的等價性等問題。另外,本書附帶有R軟件包、課件、部分習題參考答案,讀者可通過掃描書中的二維碼,聯係齣版社進行下載學習。
本書可作為高等院校統計、經濟、金融、管理、醫藥、生物等專業高年級本科生和研究生的貝葉斯統計課程的教材或參考書。關於教學內容建議:對本科生而言,講授前五章的全部內容,可加選講第6、7章;對於研究生則應講授全部七章的內容。
本書得以齣版要感謝清華大學齣版社;感謝吳雷編輯,他在組織齣版的過程中做瞭大量的工作。此外,本書的初稿在廈門大學經濟學院統計係和王亞南經濟研究院雙學位課程班講授過,所以也要感謝各位學習這門課程的同學,是他們的認真學習,觸動瞭我去思考如何教好這門課程。
坦率地說,撰寫教材是一件吃力不討好的工作。但我認為撰寫教材是教師的職責之一,當一名教師在某門課程上認真教學瞭多年,有瞭教學上的經驗與教訓,那麼就應該把它寫齣來。最後,本書若能激發讀者對貝葉斯統計的興趣,有助於讀者學習貝葉斯統計,那將是對筆者最大的慰藉。當然,由於自身學識所限,本書一定存在許多不足和錯誤之處,懇望讀者朋友指正。
黃長全
2017年1月於廈門大學
Email:cqhuang@xmu.edu.cn
貝葉斯統計及其R實現(21世紀經濟管理精品教材·經濟學係列) 下載 mobi epub pdf txt 電子書 格式