産品特色
編輯推薦
想知道為什麼不能賭博嗎——學統計吧!
想知道為什麼淘寶總能“猜透你的心”嗎——學統計吧!
想知道怎樣纔能獲得升職加薪的捷徑嗎——學統計吧!
內容簡介
大數據時代,每個人都要懂一點統計學,我們缺的不是數據,而是正確分析數據的路徑,從海量數據中擷取有用信息、産生新價值,甚至用以推估未知的事物,並且已經成為個人和企業的關鍵競爭力。這是一本關於統計輕知識的書,作者希望藉助輕鬆幽默的語言來激發讀者對統計學的學習熱情。內容從描述性統計到推斷性統計,通過將生活中有趣的事件一一展開,瞭解統計雪學中的核心知識點,最後是常見疑問的答疑匯編。本書偏重於對案例和圖錶的引用,不會過多關注於數學推導。
本書主要針對未曾學習過統計學或初學統計學並對此有興趣的讀者,以及希望通過學習相關知識補充數據分析技能的在職人員。
作者簡介
歸璐,畢業於立信會計學院,2011-2013上海浦東統計調查所,擔任數據統計及分析報告撰寫;2013至今人大經濟論壇兼職編輯。
能靜能動,能嚴肅能無厘頭。長期混跡於經管之傢(原人大經濟論壇)的計量經濟與統計闆塊,也曾舞文弄墨整理並發布過統計知識的入門貼,緻力於將枯燥無味的統計知識用通俗易懂的方式來做普及。擅長統計學及數據分析,以及利用Eviews和SPSS軟件對行業數據進行分析研究。曾多次參與區縣級經濟發展情況研究課題。
目錄
第0章 入門階段——帶你邁入統計學的大門 1
0.1 我和統計學的從零開始 1
0.2 統計學的從零開始 4
第1章 你的數據從何而來 10
1.1 “不可能完成的任務”——普查 11
1.2 “四兩撥韆斤”——事半功倍的抽樣調查 13
☆本章重點歸納: 20
第2章 掌握指標學會數據分析 21
2.1 被誤解還是“被平均” 21
2.1.1 數值平均數——最熟悉的陌生人 23
2.1.2 位置平均數——關鍵的排序 28
2.2 均值的好朋友——方差(標準差) 34
2.3 峰度&偏度——打造風度翩翩的數據分布 38
☆本章重點歸納: 40
第3章 圖錶的世界 42
必備技能1——頻數分布錶 42
必備技能2——頻數分布圖 46
必備技能3——莖葉圖 48
必備技能4——箱綫圖 52
必備技能5:散點圖 54
☆本章重點歸納: 61
第4章 當小“正太”遇上“大叔”——正太分布篇 63
4.1 小“正太”的基本情況 64
4.2 小“正太”的性格和優點——正態分布的定義和特徵 65
4.3 小“正太”的可愛之處——正態分布的作用 68
☆本章知識點補充: 75
第5章 當小“正太”遇上“大叔”——大數定律和中心極限篇 77
5.1 正態分布的“左膀”——大數定律 77
5.2 正態分布的“右臂”——中心極限定理 80
5.3 如何牽手“大叔”和“正太” 83
☆本章重點歸納: 85
第6章 相關和因果切莫傻傻分不清楚 86
6.1 為瞭“不確定”的確定 86
6.1.1 散點圖 87
6.1.2 相關係數 89
6.2 上帝擲骰子?! 94
☆本章知識拓展: 96
第7章 “小”亦可為,“大”而佐之 99
7.1 這個“小二”一點都不“二” 99
7.2 另闢蹊徑的最大似然估計 102
7.3 他山之石,或可攻玉 106
☆本章知識拓展: 107
第8章 從先放牛奶or先放熱茶說起 109
8.1 掀開假設檢驗的麵紗 111
8.1.1 原假設VS備擇假設 112
8.1.2 統計檢驗量和拒絕域 115
8.1.3 P值 117
8.2 幾種常用假設檢驗簡介 120
8.3 手把手教你做檢驗 123
☆本章知識拓展 126
第9章 迴歸分析——科學研究的“萬金油” 128
9.2 釋放“迴歸”的超能力 131
9.3 規避“迴歸”的誤區(僞迴歸問題) 136
☆本章知識拓展 139
第10章 物以類聚,人以群分 142
10.1 分久必閤——聚類分析 142
10.2 閤久必分——判彆分析 147
第11章 獨闢蹊徑,麯徑通幽 152
精彩書摘
9.3 規避“迴歸”的誤區(僞迴歸問題)
在迴歸分析中,如果稍有失誤,就可能會陷入誤區。
誤區1:樣本量過小——你的樣本有代錶性嗎
在上一節的迴歸分析中,樣本量是多少?在整個迴歸模型建立的過程中,筆者都未對此加以說明。事實上,筆者的這批數據是27個兒童身高和體重的樣本,用27個兒童來代替整體並不可靠。隨之而來的疑問就是:樣本能代錶總體嗎?是的,無論是假設檢驗還是迴歸分析,我們都希望透過樣本來發現總體規律。
我們知道,某些臨床實驗會采用小樣本(或者對於一些罕見病來說,隻能獲得小樣本),而這就增加瞭隨機偏離的數據在統計中起到的作用,使得研究結果有偏,而這隻是一種客觀上的小樣本。另一種則是有意無意地縮減樣本。比如觀察某類藥物的攝取量對該疾病的治療效果,如果選擇觀測時間為三個月,通過迴歸分析可能得到的是隨著藥物攝取量的增加,疾病治療效果越為顯著。如果不進行更長時間的監測,那麼或許就無法發現當藥物攝取量達到某一值後對疾病治療已無明顯作用,甚至繼續增加藥物攝取量將會導緻其他不良癥狀,這時候,“小樣本”就失效瞭。
為此,我們需要盡可能地獲得大樣本(一般N大於30),或者保證數據的正態性,這樣纔能得到真正有價值的結論。
誤區2:未對迴歸分析的前提假設進行檢驗
雖然我們已經知道瞭迴歸分析的假設條件,但對於有些假設,如果不事先建立模型,是無法對它做齣檢驗的,如隨機誤差項是否不存在自相關、隨機誤差項是否是同方差等。所以在完成瞭上文所說的主要檢驗後,還需要對模型的隨機誤差項做一係列檢驗,包括誤差項的正態性檢驗——QQ圖/PP圖、誤差項的異方差檢驗——White檢驗、誤差項的自相關檢驗——DW/LM檢驗等。
同樣,針對解釋變量,我們也要對其是否具有完全共綫性進行檢驗。共綫性檢驗其實可以從相關係數T檢驗中事先獲得一些信息。比如,在做多元迴歸分析時發現,如果將每個解釋變量分彆與被解釋變量做一元迴歸,則迴歸係數都是顯著有效的;而放在一起做多元迴歸時,卻總有幾個變量的T檢驗無法拒絕原假設,此時就意味著解釋變量極有可能存在嚴重的共綫性問題。
當完全共綫性發生時,會對迴歸分析造成以下影響:
(1)完全共綫性下參數估計量不存在。
(2)參數估計量的經濟含義不閤理。
(3)變量的顯著性檢驗失去意義,可能將重要的解釋變量排除在模型之外。
(4)模型的預測功能失效:變大的方差容易使區間預測的“區間”變大,使預測失去意義。
那麼,可以通過什麼方法進行檢驗和規避呢?常用的檢驗方法是通過VIF(方差膨脹因子)是否大於10來進行簡單判斷;如果需要規避修正的話,也有很多方法,比如可以選擇用逐步迴歸、嶺迴歸、主成分法提取變量等來代替普通的綫性迴歸。
誤區3:“僞迴歸”——真真假假分不清
“僞迴歸”中的“僞”指的是虛假相關關係。我們在衡量兩組數據是否有相關關係的時候,無非就是將它們放在一起畫一張散點圖,計算相關係數,然後得齣是否有綫性相關關係。其實我們並沒有告知軟件這兩組數據的定義。換句話說,如果我們將樹木高度與中國GDP放在一起進行相關分析,那麼也能得到一個很高的相關係數,但事實是,二者之間沒有任何關係。
但在有些時候,“僞迴歸”的存在是由於思維的定式和邏輯的漏洞引起的,並非故意而為,所以“僞迴歸”不僅考量我們的科學道德,而且還考量我們的邏輯思維能力。
當然,並非避開瞭這三大誤區我們就能大步嚮前瞭,在迴歸分析的過程中,還會齣現諸多小誤區,比如遺漏瞭重要的解釋變量,從而造成迴歸結果的嚴重偏差。舉例來說,當我們研究與疾病相關的影響因素時,性彆、年齡這兩個變量就不能遺漏。因為它們對於人體的各類疾病都存在大大小小的影響,一旦遺漏,就會造成其他解釋變量的迴歸係數齣現偏差。如果隻是係數的數值大小偏差那麼還可以挽迴,但如果直接造成係數正負顛倒,就會成為緻命的錯誤。
所以,“迴歸”這個武器用得好,能讓分析工作事半功倍;一旦失誤,就會成為傷人的利器。因此,我們在進行迴歸分析的過程中需認真加以識彆、確認、檢驗、修正。
☆本章知識拓展
首先來明確一個基本前提,那就是迴歸分析與相關分析的聯係和區彆。
區彆:
(1)相關分析中的兩個變量的地位是相等的,而迴歸分析中的變量則需要分為解釋變量和被解釋變量。
(2)相關分析中的兩個變量都是隨機變量,而迴歸分析中隻有被解釋變量是隨機變量。
(3)相關分析適用於判定相關程度和方嚮,而迴歸分析則可以進一步地進行模型預測和控製。
聯係:
(1)相關分析是迴歸分析的基礎和前提,沒有相關則無法進行迴歸。而且對於綫性模型來說,相關程度越高,迴歸效果越好。
(2)相關分析和迴歸分析的理論方法具有一緻性,一般來說,相關係數和迴歸係數的方嚮一緻,可以互相推算。
(3)迴歸分析是相關分析的繼續和深化。
按照不同的劃分規則,迴歸也可以分為幾個類彆。下麵介紹幾個典型的迴歸模型。
(1)Logistic迴歸:它是除綫性迴歸外應用範圍最廣的。Logistic迴歸與綫性迴歸不同,它要求被解釋變量必須是分類變量,不可能是連續變量。分類變量既可以是二分類;也可以是多分類,多分類中既可以是有序,也可以是無序。Logistic迴歸有個近鄰叫Probit迴歸,二者不僅函數模式十分接近,而且分析結果也類似。不過Probit迴歸的實際含義不如Logistic迴歸容易理解。
(2)cox迴歸:cox迴歸是迴歸傢族裏的一個另類,因為cox迴歸的被解釋變量有些特殊:它的被解釋變量必須同時有兩個,一個代錶狀態,所以是分類變量;另一個代錶時間,所以是連續變量。隻有同時具有這兩個變量,纔能使用cox迴歸分析。cox迴歸主要用於生存資料的分析。
(3)主成分迴歸:主成分迴歸其實是將主成分分析與綫性迴歸結閤在一起。所謂的主成分分析就是把多個具有高度相關的變量所包含的信息用一個或兩三個變量來錶示,我們稱這個變量為主成分。
(4)嶺迴歸:又稱脊迴歸,由於模型的解與正則化參數λ之間的圖像類似於山脊,因此得名。嶺迴歸作為修正變量完全共綫性的方法,其思路為:既然綫性模型在解釋變量完全共綫的時候估計值會不穩定,那麼嶺迴歸在最小二乘估計裏加個k值,改變它的估計值,使估計結果變穩定。至於k值的確定,可以先選很多個k值,然後作齣嶺跡圖,看看這個圖在k取哪個值的時候較為穩定,選取該k值即可。
(5)偏最小二乘迴歸:該迴歸可以用於解決解釋變量之間高度相關的問題,其優勢是可以用於樣本量很少的情形。它的原理其實跟主成分迴歸類似,即用被解釋變量和解釋變量的綜閤變量來進行分析,所以它也可以用於多個解釋變量的迴歸。這麼說來,偏最小二乘法集主成分分析、典型相關分析和多元綫性迴歸分析三種分析方法的優點於一身,成為分析領域的“新貴”。
……
前言/序言
學統計的理由
Hi,親。很高興遇見你,雖然你看不到我,我也無法目睹你的容顔,但當你翻開這本書的時候,我們就已經通過文字這個載體見麵瞭!
我猜你應該是被本書的標題吸引纔會翻開它的吧?那麼聰明的你應該知道,這是一本關於統計學的圖書。統計學是一門有趣而實用的學科,它將會成為你生活、工作中的好幫手(彆告訴我你不炒股、不玩微博、不買彩票,甚至不逛淘寶,你以為我會告訴你這些都和統計有關嗎)。
想知道為什麼不能賭博嗎——學統計吧!
想知道為什麼淘寶總能“猜透你的心”嗎——學統計吧!
想知道怎樣纔能獲得升職加薪的捷徑嗎——學統計吧!
你有沒有想過買一張福利彩票,然後被五百萬元大奬砸中?我就有過,那通常發生在大白天,我兩眼呆滯且目光渙散,幻想自己抱著一堆紅色的人民幣傻樂……但是當我迴過神來後,我就清楚地意識到中大奬的機會微乎其微——這是概率論教會我的。
你也許會想:這是我小時候就懂的道理,你還要讀瞭概率論纔知道。
要知道,概率論誕生於賭博遊戲。一次兩次的小贏,甚至接連幾次都贏是有可能發生的,這屬於概率的正常波動。其實,如果在完全公平的情況下,輸贏概率應該各為50%。但為什麼總感覺賭的時間越長,越容易輸呢?這是因為我們忽視瞭一個重要的因素,那就是輸贏各半的前提是可以進行無限多次的賭博,但事實是我們根本不可能有那麼多的資金和精力。要知道,得齣拋硬幣正反麵齣現概率各為50%的結論,是建立在上萬次試驗結果之上的。所以,你若知道概率還蘊涵積分的數學思想,就不難理解為何“十賭九輸”瞭。
你有沒有想過,“萬能”的淘寶為何總能在你搜索寶貝的時候順便推送一些名為“猜你喜歡”的産品,而且這些推送有時還能被你成功加入購物車?其中就用到瞭推薦算法。推薦算法不僅涉及文本挖掘技術,而且與統計學中頻率的計算和關聯性知識有緊密聯係。
在我們的日常工作中,如果你從事的是銷售、財務工作,或者你是某項目的策劃者,當領導詢問你對即將上架的産品,或者要削減某項開支,或者某項目的推廣方案的看法時,你該如何迴答?
如果你對自己所做的工作有過翔實的數據采集,例如,對需要銷售的産品做過統計,就可以得齣一係列圖錶來證明該産品在某個時間段或針對某些特殊人群有明顯的銷量提升(這通常涉及方差分析);再如,你對公司的財務數據做瞭詳細的颱賬記錄,則可以清楚地知道縮減哪些開支既不影響生産銷售又可以提高營業利潤(這時可以運用相關分析);又如,你使用定量方法將推廣方案的定性數據量化,通過分析得齣最佳方案。試著使用數據來說話,慢慢培養統計思維,你會發現,你的工作將會事半功倍。
生命和統計息息相關
如果上述例子無法給你學習統計的充分理由,那麼,當數據和生命聯係在一起時,會是怎樣呢?
手術中,麻醉師的用藥劑量與病人的個體情況有著嚴格的匹配要求;新藥物上市前,必須經過無數次試驗檢驗;用藥說明書上的劑量指導,更是建立在海量試驗檢驗基礎之上的。其中就涉及抽樣調查、假設檢驗和實驗設計等多種統計學的理論知識。
不久前,“霧霾緻癌嗎”這個話題異常火爆。關於這個命題的真僞,在此不做評述,但眾所周知,吸煙是有害健康的,吸煙緻癌也被大傢廣為接受。但你知不知道,“吸煙是否是引起肺癌的原因”這個論題曾經在統計學界掀起瞭軒然大波?當時,費希爾(統計學界的泰鬥級人物)極力反對這個觀點,其實,在證明吸煙與肺癌關係的過程中,更值得討論的是對於試驗的設計和流行病醫學裏的因果關係的論證。直到目前,仍然沒有一種有效的方法能夠證明統計和哲學雙層麵的因果關係。但隨著統計學的飛速發展,醫學統計逐漸流行起來,並發展成為一門熱門學科。
生活中的每一部分都和統計密切相關
當一門學科發展到可以通過量化數據來解密人體科學的時候,還能說它不值得去學習瞭解嗎?比如,在大數據時代,如果你不會兩個統計名詞,怎能充分利用大數據的價值?從事金融行業的不會數據分析,不能跑代碼,怎麼體現你的專業素養?如果沒聽說過什麼是Hadoop/R/SAS,你怎麼做閤格的程序員?還有機器學習、詞頻分析、文本挖掘、數據挖掘……所有這些都離不開統計理論的支撐。所以,如果你想走在時代的前沿,就抓緊時間學統計吧!
當然,即使有韆萬個學習統計的理由,但總有一個理由會讓你拒絕學習,那就是數學!你不熱愛數學,所以你拒絕學習和數字有關的學科。但是,這並不能成為你不學習統計的理由,因為統計和數學並不相同。筆者認為,統計學就是“高冷”數學和深奧哲學的平衡點。
其實,筆者天生對數學沒有興趣,絲毫看不齣那些積分符號優美在何處。但是這並不能阻礙筆者對統計學的熱愛。誠然,統計理論是完全建立在數學基礎上的,數理統計對數學的要求很高,但是統計學裏還有一個分支叫應用統計,本書就是為瞭應用而生。
本書不會有繁冗的數學公式推導,不過在有些時候,為瞭說清楚問題,數學公式和定理是不可或缺的,筆者水平有限,力爭通過通俗易懂的語言讓大傢明白統計是怎麼迴事、統計可以用來做些什麼。
你不用懼怕巨大的計算量,這些都可以通過軟件來完成。喜歡編程並想深入研究理論知識的,可以使用Stata、SAS、R;想要快速解決問題的,可以使用SPSS;甚至可以使用Excel完成絕大多數統計分析工作。
至此,你應該找不到不學統計的理由瞭吧?
歡迎大傢和筆者一起進入奇妙的統計學世界!
計對數學的要求很高,但是統計學裏還有一個分支叫應用統計,本書就是為瞭應用而生。
本書不會有繁冗的數學公式推導,不過在有些時候,為瞭說清楚問題,數學公式和定理是不可或缺的,筆者水平有限,力爭通過通俗易懂的語言讓大傢明白統計是怎麼迴事、統計可以用來做些什麼。
你不用懼怕巨大的計算量,這些都可以通過軟件來完成。喜歡編程並想深入研究理論知識的,可以使用Stata、SAS、R;想要快速解決問題的,可以使用SPSS;甚至可以使用Excel完成絕大多數統計分析工作。
至此,你應該找不到不學統計的理由瞭吧?
歡迎大傢和筆者一起進入奇妙的統計學世界!
從零開始學統計 下載 mobi epub pdf txt 電子書 格式