内容简介
近年来,针对属性数据的特殊统计方法的应用日益广泛,尤其是在生物医学和社会科学领域。这个现象一定程度上反映了过去几十年里属性数据分析方法的发展,同时也反映了科学家和应用统计学家方法论的日益精湛。如今,绝大多数科学家和应用统计学家已经意识到,将针对连续数据的分析方法应用于属性数据是没有必要而且通常是不合适的。
《属性数据分析》展示了针对属性数据*重要的分析方法,概述了诸如卡方检验等长期占主导地位的方法。除此之外,《属性数据分析》特别强调了建模技巧,尤其是logistic回归。
《属性数据分析》的表述基于一个较低的技术层面上,并不要求熟悉如微积分学和矩阵代数等高等数学内容。但是读者应该具备一些相关统计背景知识。这些知识包括非统计专业的本科生或研究生两学期的统计方法系列教材所含的内容,即估计、假设检验、回归模型。
《属性数据分析》是为学习属性数据分析入门课程的学生而设计。同时我也为应用统计学家和在实际工作中涉及数据分析的科学家而写。我希望这《属性数据分析》能对社会科学、行为科学和生物医学领域,以及公共卫生、市场营销、教育、生物、农业科学和工业质量控制等领域的分析师们处理属性响应数据有所帮助。《属性数据分析》1-8章涵盖了*基础的属性数据分析方法。第2章将介绍诸如优势比、独立性检验、条件关联性以及边缘关联性等针对列联表的标准描述方法和推断方法。然而,我觉得可以通过在统计模型背景里观察统计方法以加强对它们的理解。因此,《属性数据分析》其余篇幅主要聚焦于属性响应数据的建模。第3章将介绍二分数据和计数数据的广义线性模型。第4章以及第5章将讨论二项(二分)数据的*重要的模型——logistic回归模型。第6章将介绍名义和有序多项响应的logistic回归模型。第7章将讨论泊松(计数)数据的对数线性模型。第8章将展示针对配对数据的分析方法。
内页插图
目录
第1章 导言
1.1 属性响应数据
1.1.1 响应变量和解释变量的区别
1.1.2 名义量表和有序量表的区别
1.1.3 本书的结构
1.2 属性数据的概率分布
1.2.1 二项分布
1.2.2 多项分布
1.3 比例的统计推断
1.3.1 似然函数和极大似然估计
1.3.2 二项比例的显著性检验
1.3.3 案例:关于堕胎合法化的调查结果
1.3.4 二项比例的置信区间
1.4 关于离散数据的更多统计推断
1.4.1 Wald,似然比和得分推断
1.4.2 二项参数的Wald,得分和似然比推断
1.4.3 小样本二项推断
1.4.4 小样本离散数据推断的保守性*
1.4.5 基于中间P-值的推断*
1.4.6 小结
习题
第2章 列联表
2.1 列联表的概率结构
2.1.1 联合概率,边缘概率以及条件概率
2.1.2 案例:关于来世
2.1.3 诊断检验的敏感度和特异度
2.1.4 独立性
2.1.5 二项抽样和多项抽样
2.2 2×2表比例的比较
2.2.1 比例差
2.2.2 案例:阿司匹林与心脏病
2.2.3 相对风险
2.3 优势比
2.3.1 优势比的性质
2.3.2 案例:阿司匹林和心脏病案例中的优势比
2.3.3 优势比和对数优势比的推断
2.3.4 优势比和相对风险的联系
2.3.5 案例对照研究中优势比的应用
2.3.6 观测研究的种类
2.4 独立性的卡方检验
2.4.1 皮尔逊统计量和卡方分布
2.4.2 似然比统计量
2.4.3 独立性检验
2.4.4 案例:政党认同中的性别差异
2.4.5 列联表的单元残差
2.4.6 卡方统计量的分解
2.4.7 卡方检验的小结
2.5 有序数据的独立性检验
2.5.1 线性趋势与独立性
2.5.2 案例:饮酒与婴儿畸形
2.5.3 有序检验的特殊功效
2.5.4 得分的选择
2.5.5 I×2表和2×J表趋势的检验
2.5.6 名义变量一有序变量列联表
2.6 小样本的精确推断
2.6.1 2×2表的费希尔精确检验
2.6.2 案例:费希尔的品茶者试验
……
第3章 广义线性模型
第4章 logistic回归
第5章 logistic回归模型的构建及应用
第6章 多类别logit模型
第7章 列联表的对数线性模型
第8章 配对数据的模型
第9章 关联,聚簇响应的建模
第10章 随机效应:广义线性混合模型
第11章 属性数据分析史漫谈
附录A:针对属性数据分析的软件
附录B:卡方分布表
参考文献
案例索引
名词索引
部分奇数号习题的简要答案
前言/序言
近年来,针对属性数据的特殊统计方法的应用日益广泛,尤其是在生物医学和社会科学领域。这个现象一定程度上反映了过去几十年里属性数据分析方法的发展,同时也反映了科学家和应用统计学家方法论的日益精湛。如今,绝大多数科学家和应用统计学家已经意识到,将针对连续数据的分析方法应用于属性数据是没有必要而且通常是不合适的。
本书展示了针对属性数据最重要的分析方法,概述了诸如卡方检验等长期占主导地位的方法。除此之外,本书特别强调了建模技巧,尤其是logistic回归。
本书的表述基于一个较低的技术层面上,并不要求熟悉如微积分学和矩阵代数等高等数学内容。但是读者应该具备一些相关统计背景知识。这些知识包括非统计专业的本科生或研究生两学期的统计方法系列教材所含的内容,即估计、假设检验、回归模型。
本书是为学习属性数据分析入门课程的学生而设计。同时我也为应用统计学家和在实际工作中涉及数据分析的科学家而写。我希望这本书能对社会科学、行为科学和生物医学领域,以及公共卫生、市场营销、教育、生物、农业科学和工业质量控制等领域的分析师们处理属性响应数据有所帮助。本书1-8章涵盖了最基础的属性数据分析方法。第2章将介绍诸如优势比、独立性检验、条件关联性以及边缘关联性等针对列联表的标准描述方法和推断方法。然而,我觉得可以通过在统计模型背景里观察统计方法以加强对它们的理解。因此,本书其余篇幅主要聚焦于属性响应数据的建模。第3章将介绍二分数据和计数数据的广义线性模型。第4章以及第5章将讨论二项(二分)数据的最重要的模型——logistic回归模型。第6章将介绍名义和有序多项响应的logistic回归模型。第7章将讨论泊松(计数)数据的对数线性模型。第8章将展示针对配对数据的分析方法。
我认为logistic回归模型比对数线性模型更加重要,因为在实际应用中多数属性响应就是一个单独的二项或多项响应变量。因此我将主要精力放在了与此模型有关的章节以及后面章节中讨论此模型推广的部分。与本书第一版相比,第二版更加强调了logistic回归而较少强调对数线性模型。
我喜欢通过使前述模型与通常的回归分析和ANOVA模型一致化来教授属性数据分析方法。第3章将通过广义线性模型来完成这个工作。一些教师可以选择轻描淡写地讲授这一章,主要将这一章用来介绍二项数据的logistic回归模型(3.1及3.2节1。
第二版相对于第一版的主要变化是增加了两章,这两章主要是分析诸如具有个体重复测量的纵向研究中出现的聚簇关联属性数据。第9章和第10章把第8章的配对方法推广到聚簇数据中。第9章通过边缘模型完成这项工作,并强调了广义估计方程(GEE)方法,而第10章则基于随机效应更充分地对关联性进行建模。本书最后一章以历史的角度回顾了属性数据发展的历程(第11章),附录给出了本书中出现的几乎所有方法的SAS程序。
第1-8章的内容是属性数据分析入门课程的核心部分。若想为其它主题留出余‘力,可以略过2.5、2.6、3.3、3.5、5.3-5.5、6.3、6.4、7.4、7.5以及8.3-8.6节。教师可以选择9-11章的内容作为1-8章基础主题的补充。本书加星号的章节相对次要,想要迅速接触主题的读者可以略过这些章节。
《深入探索:统计学在决策中的力量》 这是一部引人入胜的著作,旨在揭示统计学这门强大工具如何在现代社会中扮演着至关重要的角色,并为其在各行各业的实际应用提供深入的洞察。本书并非旨在介绍某一个特定的统计学分支,而是着眼于一个更宏观的视角,探讨统计学思维如何塑造我们的理解,驱动创新,并最终引导我们做出更明智、更有力的决策。 第一部分:统计学的脉络——理解世界的语言 我们身处一个数据爆炸的时代,信息如潮水般涌来。然而,如果没有一套系统性的方法来理解和解释这些信息,它们将只是杂乱无章的噪音。《深入探索》的第一部分将带领读者踏上一段旅程,去理解统计学的核心价值——它是一门关于如何从不确定性中提取意义、发现模式、检验假设的科学。 我们将从统计学的基本概念出发,阐述其在科学研究、商业分析、政策制定乃至日常生活中的普遍适用性。本书将强调,统计学不仅仅是一系列复杂的数学公式,更是一种严谨的思维方式。它教会我们如何批判性地看待数据,如何识别潜在的偏差,以及如何避免因片面理解而产生的误导性结论。 统计学思维的基石:我们会详细探讨概率论的基本原理,解释随机性是如何在我们的世界中发挥作用的。通过生动的例子,读者将理解概率的含义,以及它如何帮助我们量化不确定性。接着,我们将深入研究数据收集的设计原则,包括抽样方法、实验设计等,强调高质量数据的重要性,以及如何通过周密的设计来确保研究结果的有效性和可靠性。 从数据到洞察的桥梁:本书将详细介绍描述性统计学的强大之处,包括各种可视化技术(如直方图、散点图、箱线图等)和汇总统计量(如均值、中位数、标准差等)。这些工具不仅能帮助我们直观地理解数据的分布特征和中心趋势,更能揭示数据中隐藏的模式和异常值。我们将通过实际案例,展示如何运用这些方法来概括和呈现大量数据,从而提炼出关键的业务或研究洞察。 推断的艺术:本书的重要篇段将聚焦于推断性统计学,即如何利用样本数据来对总体特征进行推断。我们将详细讲解置信区间的构建和解释,以及假设检验的基本流程和原理。通过生动形象的比喻和直观的图示,读者将能深刻理解统计显著性、P值等概念的含义,并学会如何根据统计推断的结果来做出合理的判断和决策。我们会涵盖参数估计、假设检验等核心内容,并探讨它们在实际问题中的应用。 第二部分:统计学在行动——跨越领域的赋能 统计学并非象牙塔里的理论,它早已渗透到我们生活的方方面面,成为推动各行各业发展的强大引擎。《深入探索》的第二部分将通过一系列具体而富有启发性的案例研究,展示统计学如何在不同的领域发挥其独特的赋能作用。 商业与营销的智慧:在商业世界中,数据就是生命线。本书将深入剖析统计学如何帮助企业进行市场细分、客户行为分析、产品优化和风险管理。我们将探讨如何利用统计模型来预测销售趋势,评估营销活动的效果,以及识别潜在的投资机会。通过分析真实的企业案例,读者将了解如何将统计学知识转化为可操作的商业策略,从而提升企业的竞争力和盈利能力。我们将涉及的领域包括: 客户分析:如何利用统计方法来理解客户的购买习惯、偏好和生命周期价值,从而实现精准营销和个性化推荐。 市场预测:如何通过时间序列分析和回归模型来预测市场需求、销售额和行业趋势,为企业战略规划提供依据。 产品开发:如何通过用户反馈分析和A/B测试来评估产品特性,优化用户体验,并驱动产品创新。 风险管理:如何运用统计模型来识别和量化经营风险、金融风险和合规风险,并制定有效的风险应对策略。 科学研究的基石:在科学探索的道路上,统计学是不可或缺的助手。本书将展示统计学如何帮助科学家设计实验、分析数据、验证理论,并发现新的科学规律。从生物医学到物理学,从社会科学到环境科学,统计学的应用无处不在。我们将探讨如何通过科学的统计分析来确保研究结论的严谨性和可重复性。 社会与政策的指南:统计学在理解和解决社会问题方面也发挥着关键作用。本书将展示如何利用统计学来分析人口结构、经济发展、犯罪率、教育水平等社会指标,为政府制定公共政策提供科学依据。我们将探讨如何通过数据分析来评估政策的有效性,并为社会的可持续发展提供方向。 公共卫生:如何利用流行病学统计来监测疾病传播,评估疫苗有效性,并制定公共卫生干预措施。 经济学:如何运用统计模型来分析宏观经济指标,预测经济增长,并评估财政和货币政策的影响。 社会学:如何通过统计调查和分析来理解社会现象,如贫困、不平等、教育机会等,为社会改革提供证据。 技术与创新的驱动力:在信息技术飞速发展的今天,统计学更是成为人工智能、机器学习、大数据分析等前沿技术的核心支撑。本书将展望统计学在这些领域的应用前景,展示如何利用统计学原理来构建智能系统,优化算法,并实现数据驱动的创新。 第三部分:统计学在实践——挑战与未来 《深入探索》的第三部分将超越理论和案例,进一步探讨统计学在实践中可能遇到的挑战,并展望其未来的发展方向。 数据质量与伦理考量:在数据驱动的决策过程中,数据质量的可靠性和使用过程中的伦理问题同样重要。本书将深入讨论如何识别和处理数据中的错误、缺失值和偏差,以及如何确保数据的隐私和安全。我们还将探讨在统计分析和应用中可能出现的伦理困境,并强调负责任的数据使用和科学诚信的重要性。 统计学家的角色与成长:随着数据科学的兴起,统计学家的角色也在不断演变。本书将探讨统计学专业人士所需的关键技能,包括数学功底、编程能力、领域知识以及沟通能力。我们还将分析统计学未来的发展趋势,以及如何培养新一代能够应对复杂挑战的统计学人才。 拥抱不确定性,驾驭数据潮汐:最终,《深入探索》旨在赋予读者一种驾驭数据、拥抱不确定性的能力。通过学习统计学的基本原理和应用方法,读者将能够更自信地分析信息,更清晰地认识世界,并做出更具前瞻性的决策。本书相信,统计学不仅是一门学科,更是一种洞察力,一种智慧,一种引领我们走向更美好未来的力量。 无论您是商业领袖、科研人员、政策制定者,还是对数据分析充满好奇的普通读者,《深入探索:统计学在决策中的力量》都将是您不可或缺的指南。它将带领您深入理解数据背后的逻辑,掌握分析数据的强大武器,并最终在信息洪流中找到属于自己的清晰航道。