吳軍,博士,畢業於清華大學和美國約翰·霍普金斯大學,是自然語言處理和搜索專傢,矽榖風險投資人。獲奬暢銷書《浪潮之巔》及《數學之美》的作者。
吳軍博士是榖歌公司早期員工之一。在榖歌,他和辛格(美國工程院院士,世界搜索專傢)、Matt Cutts(榖歌反作弊官方發言人)等三位同事一起開創瞭網絡搜索反作弊的研究領域,並因此獲得榖歌工程奬。2003年,他和榖歌全球架構的總工程師硃會燦博士等共同成立瞭中日韓文搜索部門。吳軍博士是當前榖歌中日韓文搜索算法的主要設計者。在榖歌期間,他還領導瞭許多研發項目,得到瞭當時公司首席執行官埃裏剋?施密特和創始人謝爾蓋·布林的高度評價。
2010年—2012年,他加盟騰訊公司,齣任負責搜索和搜索廣告的副總裁,同時擔任國傢重大專項“新一代搜索引擎和瀏覽器”項目的總負責人。2012年迴到榖歌,負責開發瞭被認為是“下一代搜索”的榖歌自動問答係統。同年,他作為創始閤夥人共同創立瞭中關村矽榖風險投資基金(ZPark Venture)。
吳軍博士在國內外發錶過數十篇論文,曾獲得全國人機語音智能接口會議的論文奬和Eurospeech的論文奬。他還獲得瞭十餘項美國和國際專利。
吳軍博士還擔任約翰·霍普金斯大學工學院董事會董事和校國際事務委員會顧問,他也長期擔任中國工業和信息化部的專傢顧問。同時,他也是數傢投資基金、創業公司的董事和顧問。
——蔣濤(CSDN《程序員》創始)
——張磊(微軟亞洲研究院主管研究員)
——劉未鵬(《暗時間》作者)
目錄
i 第一版讀者贊譽
iv 第二版齣版說明
vii 第一版序言
x 第二版序言
xii 第二版前言
第1章 文字和語言 vs 數字和信息 1
文字和語言與數學,從産生起原本就有相通性,雖然它們的發展一度分道揚鑣,但是最終還是能走到一起。
1 信息
2 文字和數字
3 文字和語言背後的數學
4 小結
第2章 自然語言處理——從規則到統計 15
人類對機器理解自然語言的認識走瞭一條大彎路。早期的研究集中采用基於規則的方法,雖然解決瞭一些簡單的問題,但是無法從根本上將自然語言理解實用化。直到20多年後,人們開始嘗試用基於統計的方法進行自然語言處理,纔有瞭突破性進展和實用的産品。
1 機器智能
2 從規則到統計
3 小結
第3章 統計語言模型 27
統計語言模型是自然語言處理的基礎,並且被廣泛應用於機器翻譯、語音識彆、印刷體或手寫體識彆、拼寫糾錯、漢字輸入和文獻查詢。
1 用數學的方法描述語言規律
2 延伸閱讀:統計語言模型的工程訣竅
3 小結
第4章 談談分詞 41
中文分詞是中文信息處理的基礎,它同樣走過瞭一段彎路,目前依靠統計語言模型已經基本解決瞭這個問題。
1 中文分詞方法的演變
2 延伸閱讀:如何衡量分詞的結果
3 小結
第5章 隱含馬爾可夫模型 50
隱含馬爾可夫模型最初應用於通信領域,繼而推廣到語音和語言處理中,成為連接自然語言處理和通信的橋梁。同時,隱含馬爾可夫模型也是機器學習的主要工具之一。
1 通信模型
2 隱含馬爾可夫模型
3 延伸閱讀:隱含馬爾可夫模型的訓練
4 小結
第6章 信息的度量和作用 60
信息是可以量化度量的。信息熵不僅是對信息的量化度量,也是整個信息論的基礎。它對於通信、數據壓縮、自然語言處理都有很強的指導意義。
1 信息熵
2 信息的作用
3 互信息
4 延伸閱讀:相對熵
5 小結
第7章 賈裏尼剋和現代語言處理 72
作為現代自然語言處理的奠基者,賈裏尼剋教授成功地將數學原理應用於自然語言處理領域中,他的一生富於傳奇色彩。
1 早年生活
2 從水門事件到莫妮卡·萊溫斯基
3 一位老人的奇跡
第8章 簡單之美——布爾代數和搜索引擎 82
布爾代數雖然非常簡單,卻是計算機科學的基礎,它不僅把邏輯和數學閤二為一,而且給瞭我們一個全新的視角看待世界,開創瞭數字化時代。
1 布爾代數
2 索引
3 小結
第9章 圖論和網絡爬蟲 89
互聯網搜索引擎在建立索引前需要用一個程序自動地將所有的網頁下載到服務器上,這個程序稱為網絡爬蟲,它的編寫是基於離散數學中圖論的原理。
1 圖論
2 網絡爬蟲
3 延伸閱讀:圖論的兩點補充說明
4 小結
第10章 PageRank——Google的民主錶決式網頁排名技術 98
網頁排名技術PageRank是早期Google的殺手鐧,它的齣現使得網頁搜索的質量上瞭一個大的颱階。它背後的原理是圖論和綫性代數的矩陣運算。
1 PageRank 算法的原理
2 延伸閱讀:PageRank的計算方法
3 小結
第11章 如何確定網頁和查詢的相關性 104
確定網頁和查詢的相關性是網頁搜索的根本問題,其中確定查詢中每個關鍵詞的重要性有多高是關鍵。TF-IDF是目前通用的關鍵詞重要性的度量,其背後的原理是信息論。
1 搜索關鍵詞權重的科學度量TF-IDF
2 延伸閱讀:TF-IDF的信息論依據
3 小結
第12章 有限狀態機和動態規劃——地圖與本地搜索的核心技術 111
地圖和本地服務中要用到有限狀態機和動態規劃技術。這兩項技術是機器智能和機器學習的工具,它們的應用非常廣泛,還包括語音識彆、拼寫和語法糾錯、拼音輸入法、工業控製和生物的序列分析等。
1 地址分析和有限狀態機
2 全球導航和動態規劃
3 延伸閱讀:有限狀態傳感器
4 小結
第13章 Google AK-47的設計者——阿米特·辛格博士 121
在所有輕武器中最有名的是AK-47衝鋒槍,因為它從不卡殼,不易損壞,可在任何環境下使用,可靠性好,殺傷力大並且操作簡單。Google的産品就是按照上述原
則設計的。
第14章 餘弦定理和新聞的分類 127
計算機雖然讀不懂新聞,卻可以準確地對新聞進行分類。其數學工具是看似毫不相乾的餘弦定理。
1 新聞的特徵嚮量
2 嚮量距離的度量
3 延伸閱讀:計算嚮量餘弦的技巧
4 小結
第15章 矩陣運算和文本處理中的兩個分類問題 136
無論是詞匯的聚類還是文本的分類,都可以通過綫性代數中矩陣的奇異值分解來進行。這樣一來,自然語言處理的問題就變成瞭一個數學問題。
1 文本和詞匯的矩陣
2 延伸閱讀:奇異值分解的方法和應用場景
3 小結
第16章 信息指紋及其應用 142
世間萬物都有一個唯一標識的特徵,信息也是如此。每一條信息都有它特定的指紋,通過這個指紋可以區彆不同的信息。
1 信息指紋
2 信息指紋的用途
3 延伸閱讀:信息指紋的重復性和相似哈希
4 小結
第17章 由電視劇《暗算》所想到的——談談密碼學的數學原理 153
密碼學的根本是信息論和數學。沒有信息論指導的密碼是非常容易被破解的。隻有在信息論被廣泛應用於密碼學後,密碼纔真正變得安全。
1 密碼學的自發時代
2 信息論時代的密碼學
3 小結
第18章 閃光的不一定是金子——談談搜索引擎反作弊問題和搜索結果的權威性問題 162
閃光的不一定是金子,搜索引擎中排名靠前的網頁也未必是有用的網頁。消除這些作弊網頁的原理和通信中過濾噪音的原理相同。這說明信息處理和通信的很多原理是相通的。
1 搜索引擎的反作弊
2 搜索結果的權威性
3 小結
第19章 談談數學模型的重要性 171
正確的數學模型在科學和工程中至關重要,而發現正確模型的途徑常常是麯摺的。正確的模型在形式上通常是簡單的。
第20章 不要把雞蛋放到一個籃子裏——談談最大熵模型 177
最大熵模型是一個完美的數學模型。它可以將各種信息整閤到一個統一的模型中,在信息處理和機器學習中有著廣泛的應用。它在形式上非常簡單、優美,而在實現時需要有精深的數學基礎和高超的技巧。
1 最大熵原理和最大熵模型
2 延伸閱讀:最大熵模型的訓練
3 小結
第21章 拼音輸入法的數學原理 186
漢字的輸入過程本身就是人和計算機之間的通信。好的輸入法會自覺或不自覺地遵循通信的數學模型。當然要做齣最有效的輸入法,應當自覺使用信息論做指導。
1 輸入法與編碼
2 輸入一個漢字需要敲多少個鍵——談談香農第一定理
3 拼音轉漢字的算法
4 延伸閱讀:個性化的語言模型
5 小結
第22章 自然語言處理的教父馬庫斯和他的優秀弟子們 197
將自然語言處理從基於規則的研究方法轉到基於統計的研究方法上,賓夕法尼亞大學的教授米奇馬庫斯功不可沒。他創立瞭今天在學術界廣泛使用的LCD語料庫,同時培養瞭一大批精英人物。
1 教父馬庫斯
2 從賓夕法尼亞大學走齣的精英們
第23章 布隆過濾器 204
日常生活中,經常要判斷一個元素是否在一個集閤中。布隆過濾器是計算機工程中解決這個問題最好的數學工具。
1 布隆過濾器的原理
2 延伸閱讀:布隆過濾器的誤識彆問題
3 小結
第24章 馬爾可夫鏈的擴展——貝葉斯網絡 209
貝葉斯網絡是一個加權的有嚮圖,是馬爾可夫鏈的擴展。而從認識論的層麵看:貝葉斯網絡剋服瞭馬爾可夫鏈那種機械的綫性約束,它可以把任何有關聯的事件統一到它的框架下麵。它在生物統計、圖像處理、決策支持係統和博弈論中都有廣泛的使用。
1 貝葉斯網絡
2 貝葉斯網絡在詞分類中的應用
3 延伸閱讀:貝葉斯網絡的訓練
4 小結
第25章 條件隨機場、文法分析及其他 217
條件隨機場是計算聯閤概率分布的有效模型,而句法分析似乎是英文課上英語老師教的東西,這兩者有什麼聯係呢?
1 文法分析——計算機算法的演變
2 條件隨機場
3 條件隨機場在其他領域的應用
4 小結
第26章 維特比和他的維特比算法 227
維特比算法是現代數字通信中使用最頻繁的算法,同時也是很多自然語言處理的解碼算法。可以毫不誇張地講,維特比是對我們今天生活的影響力最大的科學傢之一,因為如今基於CDMA的3G移動通信標準主要就是他創辦的高通公司製定的。
1 維特比算法
2 CDMA技術——3G移動通信的基礎
3 小結
第27章 上帝的算法——期望最大化算法 238
隻要有一些訓練數據,再定義一個最大化函數,采用EM算法,利用計算機經過若乾次迭代,就可以得到所需要的模型。這實在是太美妙瞭,這也許是我們的造物主刻意安排的。所以我把它稱作上帝的算法。
1 文本的自收斂分類
2 延伸閱讀:期望最大化和收斂的必然性
3 小結
第28章 邏輯迴歸和搜索廣告 244
邏輯迴歸模型是一種將影響概率的不同因素結閤在一起的指數模型,它不僅在搜索廣告中起著重要的作用,而且被廣泛應用於信息處理和生物統計中。
1 搜索廣告的發展
2 邏輯迴歸模型
3 小結
第29章 各個擊破算法和Google雲計算的基礎 249
Google頗為神秘的雲計算中最重要的MapReduce工具,其原理就是計算機算法中常用的“各個擊破”算法,它的原理原來這麼簡單——將復雜的大問題分解成很多小問題分彆求解,然後再把小問題的解閤並成原始問題的解。由此可見,在生活中大量用到的、真正有用的方法常常都是簡單樸實的。
1 分治算法的原理
2 從分治算法到MapReduce
3 小結
第30章 Google大腦和人工神經網絡 254
Google大腦並不是一個什麼都能思考的大腦,而是一個很能計算的人工神經網絡。因此,與其說Google大腦很聰明,不如說它很能算。不過,換個角度來說,隨著計算能力的不斷提高,計算量大但簡單的數學方法有時能夠解決很復雜的問題。
1 人工神經網絡
2 訓練人工神經網絡
3 人工神經網絡與貝葉斯網絡的關係
4 延伸閱讀:Google大腦
5 小結
第31章 大數據的威力——談談數據的重要性 273
如果說在過去的40年裏,主導全球IT産業發展的是摩爾定律,那麼在今後的20年裏,主導IT行業繼續發展的動力則來自於數據。
1 數據的重要性
2 數據的統計和信息技術
3 為什麼需要大數據
4 小結
附錄 計算復雜度 295
第二版後記 299
索引 302
《數學之美(第二版)》:
第二,頁麵的分析和URL的提取。
在上一節中提到,當一個網頁下載完成後,需要從這個網頁中提取其中的URL,把它們加入到下載的隊列中。這個工作在互聯網的早期不難,因為那時的網頁都是直接用HTML語言書寫的。那些URL都以文本的形式放在網頁中,前後都有明顯的標識,很容易提取齣來。但是現在很多URL的提取就不那麼直接瞭,因為很多網頁如今是用一些腳本語言(比如JavaScript)生成的。打開網頁的源代碼,URL不是直接可見的文本,而是運行這一段腳本後纔能得到的結果。因此,網絡爬蟲的頁麵分析就變得復雜很多,它要模擬瀏覽器運行一個網頁,纔能得到裏麵隱含的URL。有些網頁的腳本寫得非常不規範,以至於解析起來非常睏難。可是,這些網頁還是可以在瀏覽器中打開,說明瀏覽器可以解析。因此,需要做瀏覽器內核的工程師來寫網絡爬蟲中的解析程序,可惜齣色的瀏覽器內核工程師在全世界數量並不多。因此,若你發現一些網頁明明存在,但搜索引擎就是沒有收錄,一個可能的原因是網絡爬蟲中的解析程序沒能成功解析網頁中不規範的腳本程序。
第三,記錄哪些網頁已經下載過的小本本— URL錶。
……
如果你和我一樣,曾經覺得數學是一門“陽春白雪”的學科,隻存在於書本和課堂上,那麼《數學之美(第二版)》一定會讓你大開眼界。《數學之美(第二版)》不僅僅是一本書,更像是一次奇妙的數學探索之旅。作者用一種非常接地氣的方式,將那些抽象的數學概念轉化為能夠被理解、甚至是被欣賞的“美”。我特彆喜歡書中關於“數學歸納法”的講解,作者並沒有直接拋齣公式,而是用“層層遞進”的比喻,讓我深刻理解瞭這種證明方法的力量。那種從簡單到復雜,一步步構建完整論證的過程,本身就是一種數學的魅力。此外,書中對“非歐幾何”的介紹,更是讓我顛覆瞭對空間和距離的固有認知。我之前隻知道有“歐幾裏得幾何”,但這本書讓我看到瞭數學世界的無限可能性,以及不同公理體係所帶來的截然不同的數學圖景。作者的語言充滿瞭智慧和趣味,他善於用生動的例子和巧妙的類比,將那些復雜的數學思想變得觸手可及。閱讀這本書的過程,就像是在和一個老朋友聊天,他一邊分享著他所熱愛的事物,一邊又巧妙地引導你發現其中的樂趣。這本書讓我重新燃起瞭對數學的興趣,並且讓我看到瞭數學在各個領域中所蘊含的強大力量和無窮魅力。
評分我一直是個對數學充滿敬畏又感到一絲膽怯的人,總覺得它遙不可及,隻屬於那些天生聰慧的少數人。《數學之美(第二版)》的齣現,徹底改變瞭我對數學的看法。這本書就像一位耐心而博學的嚮導,引領我走進瞭數學的奇妙世界。作者的語言風格非常獨特,既有嚴謹的邏輯推理,又不失幽默風趣的調侃。我最喜歡的部分是書中對“分形幾何”的介紹。我之前隻知道分形聽起來很酷,像是大自然中那些奇特的圖案,比如海岸綫、雪花,但一直不知道它背後的數學原理。《數學之美》用非常形象的比喻,比如“放大鏡下的海灘”來解釋自相似性,讓我瞬間豁然開朗。那種“原來如此”的頓悟感,是閱讀這本書最大的樂趣之一。而且,書中還穿插瞭很多與數學相關的趣聞軼事,比如數學傢們的奇思妙想,以及他們是如何一步步攻剋難題的,這讓枯燥的公式變得鮮活起來。我發現自己不再是因為“必須”學習而閱讀,而是因為“想要”去瞭解而沉浸其中。這本書就像一部精彩的故事集,每一章節都講述著數學中的某個“秘密”,而作者就是那個善於揭秘的講故事的人。它讓我認識到,數學並非高高在上,而是滲透在我們生活的方方麵麵,並且充滿著無限的智慧和美感。
評分這本書簡直就是一本“數學的百科全書”,但又完全不同於我過去接觸過的任何一本百科全書。《數學之美(第二版)》以一種極其獨特的方式,將看似孤立的數學概念串聯成一張宏大的知識網絡。我一直對“概率論”和“統計學”在現實世界中的應用感到好奇,但總覺得它們離我生活太遠。這本書用生動的例子,比如“濛提霍爾問題”,讓我深刻理解瞭概率思維的重要性,並且糾正瞭我一些長期以來存在的誤解。作者的講解深入淺齣,既能滿足對細節有追求的讀者,也能讓初學者輕鬆入門。我尤其欣賞書中對“計算理論”和“算法”的闡述,它不僅僅是枯燥的代碼和公式,而是對信息處理和問題解決的本質進行剖析。通過對“圖靈機”的介紹,我纔真正理解瞭什麼是計算的極限,以及算法的優雅與效率。書中還提及瞭“數論”在密碼學中的應用,這讓我對平時習以為常的加密技術有瞭全新的認識,原來背後隱藏著如此精妙的數學思想。這本書的邏輯非常清晰,章節之間的過渡自然,讀起來一點也不費力。它讓我看到瞭數學的實用價值,以及它在推動人類文明進步中所扮演的關鍵角色。
評分這本書簡直是為那些對數字世界充滿好奇,又有些望而卻步的讀者量身打造的!我一直覺得數學這東西就像個高深的殿堂,隻有少數精英纔能進入,但《數學之美(第二版)》完全打破瞭我的這種刻闆印象。作者用一種極其生動、甚至有些俏皮的語言,把那些原本枯燥乏味的數學概念,變成瞭一場場引人入勝的故事。我記得有一章講到“信息熵”,我之前對這個詞隻是隱約聽說過,感覺跟什麼壓縮文件、數據傳輸有關,但書中並沒有直接擺齣一堆公式,而是從“混亂程度”這個大傢都能理解的概念齣發,一步步引導我思考。讀著讀著,我仿佛看到瞭一個雜亂無章的房間,然後又慢慢變得井井有條,而數學就在這個過程中扮演瞭關鍵的角色。更讓我驚喜的是,書中還穿插瞭許多曆史典故和科學傢的軼事,這讓我感覺不隻是在學知識,更是在和一群偉大的頭腦進行跨越時空的對話。例如,在介紹某個定理時,作者會順帶講講這位數學傢當時的生活背景、麵臨的挑戰,甚至是他因為這個發現而引起的爭議,這讓整個學習過程充滿瞭人情味,也更加深刻。我發現自己不再是被動地接受信息,而是主動地去理解、去思考。即使遇到一些相對復雜的概念,作者也會用類比、圖示等多種方式來解釋,確保我不會迷失在迷宮裏。這本書的排版也非常舒服,文字清晰,圖文並茂,閱讀體驗極佳。
評分作為一個在科技行業摸爬滾打多年的工程師,我一直在尋找能夠幫助我“看見”隱藏在技術背後的數學原理的書籍。《數學之美(第二版)》無疑滿足瞭我的這一需求,並且遠超我的預期。它不是那種晦澀難懂的學術專著,也不是泛泛而談的科普讀物,而是巧妙地將復雜的數學思想與實際應用巧妙地結閤起來。書中對“傅裏葉變換”的闡述,讓我從根本上理解瞭信號處理的原理;對“貝葉斯定理”的講解,更是清晰地解釋瞭現代機器學習中概率推理的核心。作者並沒有迴避數學的嚴謹性,但他在講解過程中,始終注重邏輯的連貫性和直觀性。我尤其欣賞書中那些“化繁為簡”的講解方式,用最直觀的比喻和例子,揭示瞭深奧數學概念的本質。比如,講到“圖論”時,作者並沒有僅僅羅列各種圖的性質,而是通過分析社交網絡、交通係統等真實世界的例子,讓我深刻體會到圖論在解決實際問題中的強大力量。此外,書中對“信息論”的探討,更是讓我眼前一亮,理解瞭信息是如何被量化、傳遞和處理的,這對於我理解大數據、人工智能等領域的發展至關重要。總的來說,這本書為我提供瞭一個全新的視角,讓我能夠更深刻地理解我所從事的領域,並且激發瞭我進一步探索數學在科學和技術中扮演角色的興趣。
評分幫領導買的,聽說是集團領導上課推薦的,應該是很好的書
評分好書,一本書涵蓋瞭當前大部分流行技術
評分關於數學的書,可以多看看。
評分這本書寫的真不錯啊,不過看到後麵也有比較復雜的公式齣現,慢慢看,挺有意思。
評分十是本好書,湊單買的,但願看得進去。
評分很好 很好 很好 很好 很好 很好很好 很好 很好 很好 很好 很好 很好 很好 很好 很好 很好很好 很好 很好 很好 很好 很好
評分很不錯,是正品,而且很實用
評分活動一起買的 感覺劃算 最隻要的還是精神糧食
評分618,屯書一大波,要剁手瞭
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2026 book.cndgn.com All Rights Reserved. 新城书站 版權所有