内容简介
《遗传统计学:基于连锁和关联分析的基因定位(翻译版)》将遗传学的基础理论、数理统计学的基本方法和遗传学前沿研究结合起来,结构编排科学,主要包括:遗传学基础理论;数理统计学基础理论;基因连锁分析的基础理论、常用分析方法及其统计模型基础、常用分析程序;基因关联分析的基础理论、数理分析方法及其统计模型基础、常用分析程序。
作者简介
Benjamin M Neale,于2006年毕业于弗吉尼亚联邦大学(Virginia Commonwealth Universitv),获得精神疾病遗传学学士学位。在本科学习期间,他与Patrick Sullivan博士、Cynthia Bulik博士、Kenneth Kendler博士等一起从事结构方程建模和精神疾病的连锁分析研究工作。2004年,他搬到精神疾病研究所(IOP)与PakSham博士共同开发关联分析的方法。在精神疾病研究所,他开始与Philip Asherson博士进行多动症的遗传学研究,主要是关联分析研究。目前,他与Mark Daly博士正在麻省总医院(Massachusetts General:Hospital)的人类遗传研究中心和麻省理工学院-哈佛大学Broad研究所做访问研究,主要是开发全基因组关联研究的分析方法。
Manuel AR Ferreira,于2000年毕业于葡萄牙里斯本大学(University of Lisbon,Portugal)的生物科学专业。在本科学习期问,特别是作为一名访问学生在英国牛津大学学习期间,他主要从事行为生态学方面的研究。2001年,他移居到澳大利亚的昆士兰大学(University of Oueensland)的昆士兰医学研究所和医学院跟随NickMartin教授和David Dufry博士攻读博士学位。他的论文是通过连锁分析鉴定哮喘的遗传风险因素。他曾获得多项学术奖励,包括2004年度的欧洲人类遗传学学会Lodewijk-Sandkuijl奖。2006年,他获得了澳大利亚国家健康和医学研究理事会Sidney Sax奖学金,加入哈佛大学医学院人类遗传研究中心Shaun Purcell博士领导的研究组。目前,他在那里参与全基因组关联研究分析方法的开发。
Sarah E Medland,于2000年毕业于澳大利亚昆士兰大学(University of Queensland),获得神经心理学学士学位(荣誉)。她本科期间主要针对大脑语言中枢的偏侧性进行研究。她在昆士兰医学研究所的遗传流行病部攻读博士学位时,指导老师为David Duffy博士、Margie Wright博士和Gina Geffen教授。在博士学习期间,她与Nick'Martin教授开展合作。她的博士课题主要针对行为的偏侧性进行遗传流行病学研究。她还开展了多个其他领域的研究,包括方法学的开发、药物滥用、政治和社会态度、婴儿生长发育和肥胖。2006年,她获得了澳大利亚国家健康和医学研究理事会Sidney Sax奖学金,加入弗吉尼亚州精神病学和行为遗传学研究所Mike Neale博士领导的研究组。
内页插图
目录
第一篇 基础知识
第1章 引言
第2章 DNA和基因分型的基础
2.1 DNA结构
2.2 DNA重组和遗传距离
2.3 基因型分析
2.4 基因分型技术
2.5 小结
第3章 群体遗传学简介
3.1 历史背景
3.2 孟德尔遗传定律
3.3 随机婚配
3.4 多基因遗传
3.5 亲缘关系和遗传共享
3.6 单基因位点的Fisher模型
3.7 多位点和环境效应的Fisher模型
3.8 小结
第4章 统计学基础
4.1 简介
4.2 描述性统计量
4.3 统计推断
4.4 线性回归
4.5 似然
4.6 混合分布
4.7 小结
第5章 统计把握度
5.1 正确(不正确)决策的概率
5.2 最大似然估计
5.3 小结
5.4 示例
5.5 最小二乘估计
5.6 充分统计量
5.7 小结与局限性
第6章 群体遗传学及其在基因定位中的作用
6.1 简介
6.2 哈迪-温伯格平衡
6.3 遗传漂变和近亲交配
6.4 连锁不平衡
6.5 小结
第二篇 连锁分析
第7章 连锁分析原则
7.1 基因定位
7.2 模型依赖的连锁分析
7.3 非模型依赖的连锁分析
7.4 经验估计全基因组连锁显著性
7.5 小结
第8章 IBD估计算法
8.1 简介
8.2 计算问题:处理未知相型
8.3 家系数据分析
8.4 举例
第9章 用于连锁分析的回归法
9.1 简介
9.2 Haseman-Elston算法
9.3 Haseman-Elston算法拓展
9.4 基于回归的全谱系连锁
9.5 模拟研究
9.6 使用MERLIN回归的几个实例
9.7 小结
第10章 数量性状的方差成分连锁分析
10.1 简介
10.2 方差成分连锁模型
10.3 用MERLIN进行方差成分连锁分析
10.4 结构方程建模软件包中的方差成分连锁分析
10.5 小结
第11章 单变量连锁分析的扩展
11.1 亲源效应
11.2 基因型-环境相互作用
11.3 X染色体连锁
11.4 单因素连锁分析扩展的实施
第12章 同胞对中多元数据的数量性状位点检测
12.1 简介
12.2 多变量分析在人类遗传学/双胞胎研究的简史
12.3 特征选择
12.4 多元方差成分连锁分析
12.5 多元QTL分析:实践问题
12.6 小结
第13章 连锁分析中影响第一类错误和统计把握度的因素
13.1 选择性抽样
13.2 样本量大小
13.3 性状分布偏差
13.4 异常值
13.5 家系误差
13.6 基因分型错误
13.7 标记位点的信息性、密度和遗传图谱
13.8 质量控制准则
第三篇 关联研究
第14章 关联研究概述
14.1 简介
14.2 关联研究中的方法
14.3 关联研究中的概念
14.4 国际人类基因组单倍型图计划
14.5 关联研究的把握度
14.6 关联分析的应用
14.7 小结
第15章 单基因座位关联模式
15.1 简介
15.2 基于随机样本的关联分析
15.3 病例-对照研究
15.4 以家系为基础的关联研究
15.5 小结
第16章 全基因组关联研究数据分析:PLINK使用手册
16.1 简介
16.2 GWAS
16.3 GWAS SNP基因分型及数据处理
16.4 分析前的GWAS数据准备
16.5 GWAS数据分析概论
16.6 质量控制
16.7 拷贝数变异
16.8 肌萎缩侧索硬化症病例-对照GWAS数据的描述性分析
16.9 GWAS数据的关联分析
16.10 PLINK的附加功能
16.11 未来发展方向
16.12 小结
第17章 单倍型分析
17.1 简介
17.2 人群基础的单倍型重建
17.3 基于家系的单倍型构建
17.4 利用单倍型定位疾病基因
17.5 小结
第18章 区域性多位点关联模型
18.1 简介及基本方法
18.2 已定相与未定相
18.3 多位点检验的使用
18.4 WHAP分析
18.5 小结
第19章 连锁不平衡与遗传标记
19.1 连锁不平衡相关统计量
19.2 基因组的区块样特性
19.3 遗传标记
19.4 群体变异
19.5 复等位基因标记
19.6 小结
第20章 Haploview连锁不平衡分析和标签的应用指南
20.1 简介
20.2 数据检查
20.3 连锁不平衡分析
20.4 标签分析
20.5 在Haploview中查看PLINK结果
20.6 其他的考虑和程序
20.7 小结
第21章 影响关联分析把握度和第一类错误的因素
21.1 简介
21.2 检测关联性把握度的影响因素
21.3 人群分层
21.4 基因分型错误
21.5 全基因组关联分析
21.6 发现关联性的计算把握度
21.7 小结
第22章 统计推断的重抽样方法
22.1 简介
22.2 自助法估计
22.3 置换检验
附录 文件格式
A1.1 概述
A1.2 MERLIN/MERLIN-Regress/Pedstats/Minx/QTDT/GRR
A1.3 WHAP
A1.4 Haploview
A1.5 PLINK
A1.6 DOS与Unix/Linux下运行程序的比较
网络资源
索引
前言/序言
2014年,我在美国参加学术会议期间第一次见到Statistical Genetics:Gene Mapping through Linkage and Association,就被书中的内容深深吸引,猛然间萌生出翻译此著作的念头。
回国后,我尝试着与该著作的主编BenjaminNeale博士取得联系,询问出版中文译著的可能。出乎我的意料,Neale博士及时回应并给予了极大支持,细致地指导我如何获取版权。Neale博士的肯定和鼓励,更加坚定了我翻译此著作的想法。在人民卫生出版社的支持下,译著出版计划于2015年11月正式获得立项。
该书以基因定位研究为主线,内容覆盖了遗传学、统计学和数学的基础知识,并分别从连锁分析和关联分析的角度,介绍了基因定位研究的常用方法、应用范畴及其数理基础;书中引入了大量研究实例,语言通俗易懂,内容新颖生动,适合于有志于或正在从事遗传学研究的研究生及科技工作者阅读。
此译著的26位青年译者全部工作在遗传统计学研究的一线,在各自的领域都有着突出的成绩;长期参与遗传统计学研究的实践,使得他们对遗传统计学有着客观而专业的认识。其中部分人我虽素未谋面,但在译著翻译出版过程中,他们专业的素养、专注的态度和执著的精神都给我留下了深刻的印象。
感谢上海交通大学贺林院士、安徽医科大学张学军教授的鼓励和指导。译著翻译出版过程中,得到了安徽医科大学叶冬青教授、上海交通大学师咏勇教授、中山大学贝锦新教授、中南大学夏昆教授、军事医学科学院周钢桥教授、南京医科大学胡志斌教授和香港大学杨万岭教授等的帮助和指导,在此一并谢过。
感谢人民卫生出版社给予的帮助和支持。感谢我的爱人一直默默地支持我的工作。
由于译者水平有限,书中某些翻译难免存在不尽如人意之处,真诚地希望读者提出宝贵意见和建议。
遗传统计学:基于连锁和关联分析的基因定位(翻译版) 内容简介 本书深入剖析了现代遗传统计学领域的核心——基因定位,通过对连锁分析和关联分析这两种关键方法的详尽阐释,为读者构建了一个全面而深入的理解框架。本书的价值不仅在于其理论的严谨性,更在于其将复杂概念转化为可操作方法的实用性,旨在引导研究者掌握在海量遗传数据中精确锁定致病基因的科学艺术。 第一部分:理论基石——遗传学与统计学的融合 在踏入基因定位的迷人世界之前,本书首先为读者奠定了坚实的理论基础。这部分内容强调了遗传学原理与统计学方法的有机结合,是理解后续所有分析技术的基石。 遗传学的基石: 我们将从孟德尔遗传定律出发,回顾基因的传递、连锁与重组的基本概念。理解染色体结构、基因在染色体上的排列方式,以及同源染色体在减数分裂过程中发生的交叉互换,是理解连锁分析的关键。本书将详细介绍等位基因、基因型、表型之间的关系,并探讨群体遗传学中的基本概念,如等位基因频率、基因型频率以及Hardy-Weinberg平衡定律,这些都为后续的群体基因定位研究提供了理论依据。 统计学的力量: 统计学在遗传统计学中扮演着至关重要的角色,它为我们提供了从不确定数据中提取有效信息的工具。本书将介绍描述性统计和推断性统计的基本原理,包括均值、方差、标准差、概率分布(如二项分布、正态分布)等。重点将放在假设检验、回归分析、方差分析等统计方法上,这些工具将贯穿于整个基因定位的分析过程,帮助我们评估数据中的信号是否具有统计学意义,并量化基因与性状之间的关联强度。 遗传统计学的交汇: 本书将清晰地阐述遗传学问题如何转化为统计学问题,以及统计学方法如何解决这些遗传学难题。例如,如何用统计模型来描述基因在群体中的传递,如何用假设检验来判断某个基因座与特定性状之间是否存在关联。这种跨学科的视角,将帮助读者理解为何需要遗传统计学,以及它在现代生物学研究中的不可替代性。 第二部分:连锁分析——家族谱系中的基因追踪 连锁分析是基因定位的经典方法,它依赖于基因在染色体上的物理位置以及在世代传递过程中表现出的连锁现象。本部分将深入探讨连锁分析的原理、方法和应用。 连锁与重组的原理: 本书将详细解释连锁(linkage)的概念——即位于同一条染色体上的基因倾向于一同遗传。同时,我们将深入探讨重组(recombination)的发生机制,即在减数分裂过程中,同源染色体之间发生的片段交换,这会导致连锁基因的分离。重组频率(recombination frequency)是衡量两个基因之间物理距离的关键指标,也是构建遗传连锁图谱的基础。 连锁分析的基本概念: 连锁图谱(Linkage Map): 读者将学习如何利用重组频率构建基因的连锁图谱,它以图的形式展示基因在染色体上的相对位置和顺序。本书将介绍不同类型的连锁图谱,以及如何通过多点连锁分析来提高图谱的精度。 连锁分析统计量(Lod Score): 这是连锁分析的核心统计工具。本书将详尽解释Lod score的计算原理,它衡量的是在某个特定重组率下,观察到的连锁模式比随机分配的概率。读者将学会如何解读Lod score,特别是Lod score大于3的阈值,它通常被认为是存在连锁的有力证据。 家族研究的设计与数据收集: 连锁分析通常依赖于具有明确遗传关系的家族谱系数据。本书将讨论如何设计有效的家族研究,包括选择合适的家族成员、收集详细的表型和遗传型信息,以及处理缺失数据和不完整谱系等问题。 连锁分析的算法与软件: 本书将介绍实现连锁分析的常用算法,例如最大似然估计法(Maximum Likelihood Estimation, MLE),以及基于贝叶斯方法的算法。同时,将推荐和介绍一些在实际研究中广泛使用的连锁分析软件,并展示如何利用这些软件进行数据分析和结果解读。 连锁分析的应用: 学习连锁分析如何应用于定位单基因遗传病(如囊性纤维化、亨廷顿病)的致病基因,以及如何用于研究多基因遗传病的遗传因子。 第三部分:关联分析——群体中的基因与性状关联探索 随着高通量基因分型技术的发展,关联分析已成为研究复杂遗传病和数量性状基因定位的主流方法。本部分将系统介绍关联分析的原理、策略和挑战。 关联分析的原理: 关联分析的基本思想是,如果在群体中,某个遗传标记(如SNP)的特定等位基因与某个性状(疾病状态、生理指标等)的出现频率之间存在显著的统计学关联,那么这个遗传标记可能位于致病基因附近,或者它本身就是致病基因的一部分。 不同类型的关联分析: 全基因组关联研究(Genome-Wide Association Study, GWAS): 本书将重点介绍GWAS,它通过在大量的独立个体中,对遍布全基因组的数百万个遗传标记进行系统性检测,来寻找与特定性状显著关联的基因位点。本书将详细阐述GWAS的研究设计、样本选择、数据质量控制、SNP筛选、统计检验方法(如logistic回归、线性回归)以及多重检验校正(如Bonferroni校正、FDR校正)。 候选基因关联研究(Candidate Gene Association Study): 尽管GWAS更为强大,候选基因关联研究在特定情况下仍有其价值。本书将解释如何基于先前的生物学知识,选择特定的候选基因进行关联分析,以及这种方法的优势与局限性。 关联分析中的挑战与对策: 连锁不平衡(Linkage Disequilibrium, LD): LD是指在群体中,某些等位基因倾向于一同遗传的现象。本书将深入分析LD的产生原因、程度度量(如r²和D'值),以及它对关联分析结果的影响。理解LD是解读GWAS结果和进行精细定位的关键。 群体分化(Population Stratification): 不同亚群之间可能存在遗传背景的差异,这可能导致虚假关联。本书将介绍检测和纠正群体分化的常用方法,如主成分分析(Principal Component Analysis, PCA)和混合模型(Mixed Model)。 表型与遗传型的异质性: 真实世界的表型可能受到环境因素、基因-基因互作和基因-环境互作的影响。本书将探讨如何处理这些异质性,以及如何设计研究来捕捉更复杂的遗传模式。 关联分析的精细定位与功能验证: 找到显著关联的SNP后,下一步是精细定位真正的致病基因。本书将介绍基于LD块、eQTLs(expression Quantitative Trait Loci)等方法进行精细定位的策略。此外,还将简要提及功能验证的重要性,即通过实验手段(如基因敲除、基因编辑)来确认找到的基因在致病机制中的作用。 第四部分:高级主题与未来展望 除了核心的连锁和关联分析,本书还将触及一些更高级的主题,并展望遗传统计学领域的未来发展。 多基因风险评分(Polygenic Risk Score, PRS): 随着GWAS识别出越来越多的风险位点,PRS成为整合多个微弱遗传效应以预测个体疾病风险的重要工具。本书将介绍PRS的构建方法、应用场景及其局限性。 基因-基因互作(Gene-Gene Interaction, GGI)与基因-环境互作(Gene-Environment Interaction, GEI): 复杂性状往往由多个基因共同作用,或与环境因素协同影响。本书将介绍如何利用统计模型来探索GGI和GEI,尽管这仍然是遗传统计学中的一个重大挑战。 表观遗传学与基因定位: 除了DNA序列变异,表观遗传修饰(如DNA甲基化、组蛋白修饰)也可能影响基因功能和性状。本书将简要介绍表观遗传学在基因定位研究中的潜在作用。 大数据与机器学习在遗传统计学中的应用: 随着数据量的爆炸式增长,机器学习和人工智能技术正在被引入遗传统计学领域,用于更高效的数据分析、模式识别和预测。本书将对这些新兴趋势进行探讨。 伦理、法律和社会影响(ELSI): 基因定位研究的成果不仅有科学价值,还涉及到重要的伦理、法律和社会议题,如隐私保护、基因歧视、知情同意等。本书将对这些问题进行必要的讨论。 本书特色 理论与实践并重: 本书既有严谨的理论推导,又不乏实际操作的指导,让读者能够将理论知识转化为解决实际研究问题的能力。 清晰的逻辑结构: 内容组织条理清晰,从基础理论到核心方法,再到高级主题,层层递进,帮助读者建立系统性的知识体系。 丰富的案例分析: (此处为虚构,但如果原书有,会是其特色)本书将穿插大量的真实研究案例,展示连锁分析和关联分析在实际研究中的应用过程和结果解读。 面向读者广泛: 无论您是生物学、医学、统计学、计算机科学等相关领域的学生、研究人员,还是对人类遗传学和疾病机制感兴趣的专业人士,本书都将是您宝贵的学习资源。 通过研读《遗传统计学:基于连锁和关联分析的基因定位》,您将掌握探索基因世界奥秘的有力武器,为揭示生命的遗传密码、理解疾病发生机制、开发个性化医疗提供坚实的理论和技术支持。