内容简介
《生物数学丛书 计算生物学导论:图谱、序列和基因组》是Introduction to Computational Biology的中文译著,《生物数学丛书 计算生物学导论:图谱、序列和基因组》的意图是针对有数学技能的人介绍令人着迷的生物数据和问题,并建立更实际的生物数学的基础。
《生物数学丛书 计算生物学导论:图谱、序列和基因组》共分15章,其中第1章介绍分子生物学的基本常识,第2-4章介绍限制图谱和多重图谱,第5、6章研究克隆和克隆图谱,第7章讨论DNA序列相关的话题,第8-11章是共同模式下序列比较问题,第12章涉及序列中模式计数的统计问题,第13章叙述RNA二级结构的数学化论述,第14章给出有关序列的进化历史,书末第15章给出某些关键文献的原始出处。
《生物数学丛书 计算生物学导论:图谱、序列和基因组》结构完整,内容更新、更全面,《生物数学丛书 计算生物学导论:图谱、序列和基因组》适合高等院校数学和生物专业的高年级大学生、研究生和教师阅读参考,也适合科研单位的研究人员参考。
内页插图
目录
《生物数学丛书》序
前言
数学符号
第0章 引言
0.1 分子生物学
0.2 数学,统计和计算机科学
第1章 分子生物学一些知识
1.1 DNA和蛋白
1.1.1 双螺旋结构
1.2 中心定理
1.3 遗传密码
1.4 转化RNA和蛋白序列
1.5 基因不简单
1.5.1 开始与停止
1.5.2 基因表达的控制
1.5.3 割裂基因
1.5.4 跳跃基因
1.6 生物化学
问题
第2章 限制图谱
2.1 引言
2.2 图
2.3 区间图
2.4 片段大小的度量
问题
第3章 多重图谱
3.1 双消化问题
3.1.1 双消化问题的多重解
3.2 多重解分类
3.2.1 反射性
3.2.2 重叠等价
3.2.3 重叠尺寸等价
3.2.4 更多的图论知识
3.2.5 从一条路到另一条路
3.2.6 限制图谱及边界块图
3.2.7 限制图谱的盒变换
3.2.8 -个例子
问题
第4章 求解DDP的算法
4.1 算法和复杂性
4.2 DDP是NP完全的
4.3 解DDP的方法
4.3.1 整数规划
4.3.2 划分问题
4.3.3 TSP
4.4 模拟退火法:TSP和DDP
4.4.1 模拟退火法
4.4.2 TSP
4.4.3 DDP
4.4.4 环状图谱
4.5 用真实数据作图
4.5.1 使数据符合图
4.5.2 图谱算法
问题
第5章 克隆与克隆文库
5.1 有限的随机克隆数
5.2 完全消化的文库
5.3 部分消化的文库
5.3.1 可克隆基的组分
5.3.2 采样、方法1
5.3.3 设计部分消化文库
5.3.4 Poisson近似
5.3.5 获得所有片段
5.3.6 最大表达度
5.4 每个微生物中的基因组
……
第6章 物理基因组图谱:海洋、岛屿和锚
第7章 序列装配
第8章 数据库和快速序列装配
第9章 动态规划、两个序列比对
第10章 多重序列比对
第11章 序列比对用到的概率和统计
第12章 有关序列模式的概率与统计
第13章 RNA二级结构
第14章 树和序列
第15章 来源与展望
参考文献
附录 问题解答和提示
索引
前言/序言
仅仅在1953年才确定了著名的DNA双螺旋结构.自从那时起,出现了一系列惊人的发现,阐明遗传密码仅仅是开始,了解基因和它们在真核生物,如人类基因组中不连续性的细节,已经导致能够研究和操作Mendel的抽象概念——基因本身,学会越来越快地阅读遗传材料使我们能够试图解读整个基因组,像我们正在接近21世纪一样,我们也正在接近生物学不可思议的新纪元。
分子生物学的革新率惊心动魄.一代人为写博士论文必须煞费苦心掌握的实验技术,对现代大学生来说成为例行实验.数据的积累已经使建立国际核酸、蛋白质、单个生物体,甚至染色体的数据库成为必要.粗略地度量核酸数据库的大小进展过程成指数增长,从而新的学科(如果这样说太自大了):生物学和信息科学结合的新的专门领域正在不断产生.在巨大的数据库中寻找相关事实和假设,对生物学来说变得非常重要,这本书是关于生物学数据库,特别是关于序列和染色体的数学结构的。
数学书名趋向于简洁、隐匿的观点,而生物学的书名通常比较长,包含的信息多,相当于数学家给出的简单摘要,相应地,生物学家的摘要有数学家引言的长度和细节.为了努力填补到目前为止几乎孤立的两种文化之间的鸿沟,我的书名反映了这些冲突的传统.“计算生物学导论”是一个短书名,可以用作许多不同书的名字,书名的副标题“图谱,序列和基因组”是让读者知道这本书是关于分子生物学应用的,即使这样也太短,“计算生物学导论……”应该为“计算,统计和数学分子生物学……”。
在第1章详细说过,打算读本书的读者应该学过概率和统计的基本课程,也应该掌握微积分.计算机科学中的算法和复杂性的概念也是有帮助的.至于生物学,大学入门课程也非常有用,是每个受教育的人在任何场合都应该知道的材料,本书打算给具有数学技能的人介绍令人着迷的生物数据和问题,而不是给那些喜欢自己学科纯洁又封闭的人,在如此迅速发展的学科中所做工作有立即变废的重大危险.我已经试图在我认为不大会改变的基础上和那些会被明天更巧妙的技术淘汰的数据结构和问题之间建立一个平衡.例如,物理图谱(如限制图谱)的基本性质依1日重要.虽然20年来一直关心双消化问题,它有变成过时的可能.序列装配也容易受到技术的影响而发生许多改变.序列比较总是有意义的,并且动态规划算法是一个好的简单的框架,这些问题都可以嵌入其中,如此等等.我试图介绍生物学引起的数学,但不完全,而且省略了一些重要的课题,构造进化树值得写一本书,到现在还没有写.蛋白结构是一个巨大的课题通常与数学无关,这里没有涉及,我试图做的是给出与基因组研究有关的一些有趣的数学。
对恰当确定与本书有关的研究领域的课题给予了很多关注.甚至,书的名字还没处理好,数学生物学看起来并不满意,一部分是由于更早时期的不幸,并且这种选择相对计算生物学和信息学更窄.(如果后半部分名字成功,我希望它用法语发音.)更重要的是这个学科由哪些部分组成?有三种主要的见解:①它是生物学适当的子集和能满足其需要的数学和计算机科学;②它是数学科学的子集,生物学是遥远的动机所在;③有许多真正的交叉学科成分,具有生物学的原始动机的数学问题,而这些问题的解又给生物学实验以提示,如此等等.我个人的观点是,虽然最后一种是最值得鼓励的行动,但所有这三种不仅是值得做而且是不可避免的和适当的做法.在建立和阐述数学知识时,我希望本书能帮助建立更实际的生物学中交叉学科的基础。
现代计算科学与前沿交叉领域新视界 本书旨在为读者提供一个全面而深入的视角,审视当代计算科学在应对复杂系统、信息处理以及新兴技术挑战中的核心地位与发展趋势。全书聚焦于计算理论的基石、高性能计算范式的演进、数据密集型环境下的算法创新,以及计算思维在跨学科研究中的应用与深化。 本书结构分为四个主要部分,层层递进,从基础理论到尖端应用,全面勾勒出当前计算科学的宏伟蓝图。 --- 第一部分:计算的理论基石与复杂性分析 本部分将追溯计算学科的哲学与数学根源,重点探讨决定计算能力极限和效率的关键概念。 1. 奠基性计算模型与可计算性 深入解析图灵机模型,不仅仅作为理论抽象,更作为理解现代计算机硬件和软件设计的基础范式。讨论停机问题、可计算性理论的边界,以及递归论在复杂问题识别中的作用。重点阐述邱奇-图灵论题的现代解释,及其对人工智能、形式化验证等领域的深远影响。 2. 复杂性理论的量化与分类 系统介绍时间复杂度和空间复杂度的形式化定义,聚焦于P、NP、NP-完全性等核心复杂度类。通过大量实例分析(如可满足性问题SAT、旅行商问题TSP),展示如何利用多项式时间归约来证明问题的内在难度。讨论随机化算法(如类BPP)的引入如何拓宽我们对“可有效解决”的理解,以及交互式证明系统(IP=PSPACE)的理论突破及其对密码学安全性的启示。 3. 离散结构与图论算法的高级应用 超越基础图遍历算法,本章专注于图结构的深度剖析。详细探讨平面图理论、超图表示及其在网络科学中的应用。核心内容包括:大规模图的嵌入技术(Graph Embedding),用于降维和模式识别;动态图算法的设计与分析,处理网络随时间变化的特性;以及网络流与匹配理论在资源分配和优化调度中的精确建模方法。特别关注大规模图数据库的查询优化策略。 --- 第二部分:高性能计算范式与并行架构 本部分探讨如何将理论上的计算能力转化为现实世界中处理海量数据的强大引擎,关注并行化、分布式计算以及新型硬件架构。 1. 从冯·诺依曼到异构计算 回顾经典串行计算架构的局限性,引入现代并行计算的必要性。详细分析多核CPU、GPU(图形处理器)以及专用加速器(如FPGA、TPU)的架构差异、内存层次结构和编程模型。重点讲解CUDA、OpenCL等并行编程接口,以及如何有效进行负载均衡和同步管理。 2. 分布式系统与容错计算 探讨集群计算的拓扑结构与通信协议(如MPI)。深入分析大规模数据处理框架,如MapReduce的原理与局限性,及其在Hadoop和Spark等现代框架中的演进。讨论分布式事务的一致性模型(如CAP定理),以及通过冗余编码和共识算法(如Paxos、Raft)实现高可用性和容错能力的机制。 3. 内存计算与数据流架构 面对“内存墙”挑战,本章聚焦于如何优化数据访问模式。探讨缓存一致性协议、非一致性内存访问(NUMA)环境下的优化策略。引入数据流编程模型(Dataflow Programming),分析其如何通过消除数据依赖性来实现更细粒度的并行,并探讨新型存储技术(如持久化内存PMEM)对算法设计的影响。 --- 第三部分:现代信息处理:算法与机器学习的融合 本部分着重于算法设计在处理高维、非结构化数据,尤其是在人工智能领域的核心作用。 1. 优化理论与现代机器学习基础 系统梳理凸优化、非凸优化在机器学习中的应用,包括梯度下降法的收敛性分析、牛顿法、共轭梯度法等。详细介绍正则化技术(L1, L2, Dropout)如何通过引入先验知识来提高模型的泛化能力。讨论拉格朗日对偶理论在支持向量机(SVM)和结构化预测中的应用。 2. 深度学习的计算效率与可解释性 超越标准网络结构,本章关注深度学习模型的计算效率优化。讨论模型剪枝(Pruning)、量化(Quantization)以及知识蒸馏(Knowledge Distillation)技术,以实现模型在边缘设备上的部署。同时,深入探讨模型可解释性(XAI)的计算方法,如梯度可视化、显著性映射(Saliency Maps)的算法原理,确保决策过程的透明度。 3. 随机化算法与近似计算 在许多实际问题中,精确解的计算成本过高。本章专门探讨随机化算法(如蒙特卡洛方法、马尔可夫链蒙特卡洛MCMC)在积分估计、采样和优化中的强大作用。分析随机化对结果精度的影响,并介绍近似算法的设计范式,如近似比的严格证明和贪婪算法的性能保证。 --- 第四部分:计算科学的前沿交叉与未来趋势 本部分将视角扩展到计算科学与其他关键科学领域的交汇点,展示其解决现实世界复杂问题的潜力。 1. 复杂网络动力学与信息传播模型 利用图论和微分方程模型分析信息、疾病或意见在复杂网络中的传播过程。介绍基于代理(Agent-Based Modeling)的计算方法,用于模拟大规模社会系统和生态系统的演化行为。重点讨论小世界网络、无标度网络的特性及其对鲁棒性和级联失效的影响。 2. 科学计算的数值方法革新 关注计算流体力学(CFD)和计算物理中的关键算法。深入探讨有限元方法(FEM)、谱方法在高精度模拟中的应用,以及网格自适应技术的计算效率提升。讨论如何利用GPU加速求解大规模稀疏线性方程组,这是许多科学模拟的计算瓶颈。 3. 符号计算与形式化验证的回归 探讨计算机代数系统(CAS)在自动化定理证明、精确数值计算中的作用。分析模型检验(Model Checking)和抽象解释技术,这些方法利用计算理论的严谨性来形式化地证明软件和硬件系统的正确性,尤其是在安全关键系统的设计与验证中。 --- 通过对这些相互关联的领域进行详尽的梳理和深入的分析,本书旨在培养读者以计算思维来解构和解决复杂问题的能力,为他们在计算科学、工程技术及数据驱动的研究领域中开辟更广阔的视野。