內容簡介
《生物信息學》同繞目前生物信息學研究與應用的主要內容,以豐富的實例,重點介紹瞭相關數據庫和軟件的功能、應用策略和使用方法。具體內容包括:核酸與蛋白質序列數據資源、序列比較與相似序列搜索、分子係統發育分析、基因組結構注釋、蛋白質結構分析、蛋白質序列分析、Microam,基因錶達數據分析、蛋白質組數據分析、生物信息學在疾病相關基因與藥物發現中的應用,以及生物信息導航資源。《生物信息學》試圖綜閤介紹生物信息學研究解決的問題、基本方法、現有成果與存在的問題,特彆是能使讀者把握生物信息學自身的特點和分析解決問題的基本途徑,使不同專業背景讀者都能有一定的收獲。
《生物信息學》適閤作為生命科學、計算機科學等相關專業的教材使用,也可供相關科研人員參考使用。
目錄
1 緒言
1.1 生物信息學的發展曆史
1.2 本書內容簡介
1.3 貫穿本書的例子
2 序列數據資源
2.1 分子生物學數據庫
2.2 序列數據存儲格式
2.3 核酸序列數據庫
2.3.1 GenBank數據庫
2.3.2 RefSeq數據庫
2.3.3 EPD數據庫
2.4 蛋白質序列數據庫
2.4.1 UniProt簡介
2.4.2 UniProtlKB數據庫
2.5 基因組數據資源
2.5.1 基礎知識
2.5.2 不同物種的基因組數據庫
2.5.3 人類基因組數據庫
2.6 數據的檢索與獲取
2.6.1 檢索工具
2.6.2 獲取序列數據的例子
思考題
3 序列比對與比對搜索
3.1 基本概念
3.1.1 比對序列的選擇:核苷酸序列還是蛋白質序列
3.1.2 同源性、相似性和一緻性
3.1.3 空位
3.1.4 多序列比對
3.2 Dayhoff模型:可接受點突變
3.2.1 PAMl矩陣
3.2.2 PAM250和其他PAM矩陣
3.2.3 從突變概率矩陣到對數比值打分矩陣
3.2.4 雙序列比對中PAM矩陣的實際有用性
3.2.5 PAM矩陣的重要替代者:BLOSUM打分矩陣
3.2.6 雙序列比對和檢測限度
3.3 比對算法:全局和局部
3.3.1 全局序列比對:Needleman—wunsch算法
3.3.2 局部比對:Smith—waterman算法
3.3.3 Smith—Waterman算法的快速和啓發式版本
3.4 雙序列比對的顯著性
3.4.1 雙序列比對統計顯著性檢驗
3.4.2 全局比對的統計顯著性
3.4.3 局部比對的統計顯著性
3.5 局部比對搜索基本工具BLAST
3.5.1 BLAST搜索的關鍵步驟
3.5.2 BLAST算法:列錶、掃描、延伸
3.5.3 BLAST算法的統計學和E值
3.5.4 BLAsT的各類分值
3.5.5 BLAST搜索示例:應用搜索原則
3.5.6 BLAsT搜索示例:多結構域蛋白的搜索
3.5.7 BLAST搜索示例:改變打分矩陣
3.6 尋找遠緣相關的蛋白質:PSI—BLAST
3.6.1 基本步驟
3.6.2 PSI—BLAST的結果評估
3.6.3 PSI—BLAST的錯誤:破壞的問題
3.7 模式識彆BLAST(PHI—BLAST)
3.8 用BLAST來發現新基因
思考題
4 基因組結構注釋
4.1 引言
4.1.1 基因及其結構
4.1.2 基因結構預測概述
4.2 基於EST序列數據識彆基因結構
4.2.1 判彆基因序列的真實EST匹配的措施
4.2.2 真實EsT匹配的識彆流程
4.2.3 確定EST對應的基因結構
4.3 基因結構預測的統計學建模方法
4.3.1 基於多級優化預測基因結構的基本思想
4.3.2 基因結構的分級建模
4.3.3 基因結構預測的動態規劃算法
4.3.4 基於統計學方法預測基因結構的效果
4.4 基因組結構的自動注釋
4.4.1 Ensembl的基因組注釋流程
4.4.2 Ensembl自動注釋結果與人工注釋結果比較
思考題
5 分子係統發生分析
5.1 分子水平的進化介紹
5.1.1 問題的曆史起源
5.1.2 分子鍾
5.2 基本概念
5.2.1 係統發生樹的基本概念
5.2.2 直係同源和旁係同源
5.3 分子係統發生樹的構建
5.3.1 選擇可供分析的序列
5.3.2 多序列比對
5.3.3 構建係統發生樹
5.3.4 方法的選取
5.3.5 常用分析軟件
思考題
6 蛋白質結構
6.1 蛋白質結構
6.2 蛋白質結構數據庫和結構可視化
6.2.1 PDB數據庫
6.2.2 蛋白質結構傢族分類數據庫
6.2.3 蛋白質結構的可視化
6.3 蛋白質結構分析
6.3.1 蛋白質結構比對
6.3.2 結構模型品質的分析
6.3.3 蛋白質內部相互作用分析
6.3.4 溶劑可接近錶麵的計算及分析
6.3.5 功能位點的分析
6.4 蛋白質結構預測
6.4.1 蛋白質結構比較建模
6.4.2 蛋白質結構從頭預測方法
6.4.3 二級結構預測
6.4.4 結構預測的策略
思考題
7 蛋白質序列分析與功能預測
7.1 引言
7.2 功能描述
7.2.1 基因本體
7.2.2 利用GO術語的功能注釋
7.3 基於序列相似性的功能預測
7.3.1 基本預測方法
7.3.2 分析與討論
7.3.3 蛋白質傢族與序列的相似性聚類
7.4 基於蛋白質信號的功能預測
7.4.1 蛋白質信號
7.4.2 信號的描述
7.4.3 蛋白質模體、結構域和傢族數據庫
7.4.4 分析與討論
7.5 基於蛋白質序列特徵的功能預測
7.5.1 序列的理化性質
7.5.2 跨膜與捲麯螺鏇分析
7.5.3 蛋白質翻譯後修飾分析
7.5.4 亞細胞定位預測
7.5.5 基於序列特徵的蛋白質分子功能預測
7.6 功能預測的其他思路
思考題
8 微陣列數據分析
8.1 微陣列
8.1.1 微陣列實驗過程
8.1.2 微陣列製備
8.1.3 雜交方式
8.1.4 圖像分析
8.1.5 數據標準化
8.1.6 基因錶達矩陣
8.1.7 基因錶達數據分析
8.2 數據預處理
8.2.1 全局歸一化
8.2.2 散點分析
8.2.3 數據全局歸一化中的局部歸一化
8.3 差異錶達基因的檢測
8.3.1 基本檢驗方法
8.3.2 分析實例
8.3.3 疾病基因錶達譜差異分析
8.4 微陣列數據的分類分析方法
8.4.1 聚類分析
8.4.2 分類分析
8.5 構建基因調控網絡
8.5.1 基因調控網絡的簡單例子
8.5.2 微分方程模型
8.5.3 布爾網絡模型
8.5.4 貝葉斯網絡模型
8.6 微陣列數據與分析軟件
8.6.1 數據交換標準
8.6.2 微陣列數據庫
8.6.3 微陣列數據分析流程
8.6.4 微陣列數據分析工具
思考題
9 蛋白質組數據分析
9.1 二維凝膠電泳數據分析
9.1.1 二維凝膠電泳原理
9.1.2 二維凝膠電泳數據及其應用
9.2 蛋白質質譜數據分析
9.2.1 質譜技術
9.2.2 蛋白質的質譜分析
9.3 蛋白質互作生物信息學
9.3.1 親和層析和質譜
9.3.2 酵母雙雜交係統
9.3.3 蛋白質一蛋白質互作預測
9.3.4 蛋白質相互作用數據庫
9.4 分析細胞通路的生物信息學方法
思考題
10 疾病相關研究
10.1 疾病基因相關研究的概述
10.2 疾病相關的數據資源
10.2.1 人類在綫孟德爾遺傳數據庫
10.2.2 遺傳關聯數據庫
10.2.3 人類基因突變數據庫
10.2.4 癌癥數據庫
10.2.5 單核苷酸多態性數據庫
10.3 疾病基因發現
思考題
11 SNP芯片及深度測序數據分析
11.1 SNP簡介
11.2 結構變異
11.3 SNP實驗簡介
11.3.1 Illumina芯片
11.3.2.Affymetrix芯片
11.4 深度測序技術
11.5 序列數據基本格式
11.5.1 FASTQ
11.5.2 SAM和BAM
11.5.3 BED
11.5.4 VCF
11.6 實例數據分析
11.6.1 利用深度測序發現SNV
11.6.2 利用SNP芯片檢測拷貝數變異
思考題
參考書目
精彩書摘
《生物信息學》:
由Pearson和Lipman於1988年提齣的FASTA搜索算法分如下4步。
(1)生成一個查詢錶,包括數據庫中短的氨基酸和核苷酸片段。短片段的長度由參數k—tup決定。如果蛋白質搜索k—tup=3,查詢序列就以3個氨基酸為塊到查詢錶中查找可能的3個氨基酸匹配。FASTA程序對一個給定的k—tup值,産生10個最高分值片段。
(2)對這10個匹配區域重新打分,並允許有保守性替換,打分過程中使用打分矩陣(如PAM250)。
(3)屬於同一蛋白質的高分值區域連接在一起。
(4)FASTA然後在高分值序列上執行全局(Needleman—Wunsch)或者局部(Smith—Water—man)比對,這樣可以優化查詢序列和數據庫匹配序列的比對。動態規劃算法應用於數據庫時隻得到有限的使用,允許FAsTA能非常快速地返迴結果,因為它隻評估瞭一部分潛在的比對。
BLAST是一個局部比對搜索工具,用來確定一條查詢序列和一個數據庫的比對。不過1990年給齣的BLAST不引入空位。現在改進的BLAST版本已允許比對中引入空位。本章將在3.5節中詳細介紹BLAST及其啓發式算法。
3.4 雙序列比對的顯著性
如前所述,通過比對,我們可以得到兩條比對序列間的一緻性。然而,怎樣纔能判斷兩條序列從進化上來說是顯著相關的?比如兩條序列比對得到的一緻性為26%,這個值隨機情況下也能發生嗎?
……
生物信息學 [Bioinformatics] 下載 mobi epub pdf txt 電子書 格式