分类数据分析的统计方法(第2版) [Statistical Methods for Categorical Data Analysis(Second Edition)]

分类数据分析的统计方法(第2版) [Statistical Methods for Categorical Data Analysis(Second Edition)] pdf epub mobi txt 电子书 下载 2025

[美] 丹尼尔.A.鲍威斯(Daniel A. Powers),[美] 谢宇(Yu Xie) 著
图书标签:
  • 统计分析
  • 分类数据
  • 数据分析
  • 统计学
  • 方法
  • 第二版
  • Categorical Data
  • 统计建模
  • 离散数据
  • 统计推断
想要找书就要到 新城书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 社会科学文献出版社
ISBN:9787520117210
版次:1
商品编码:12320698
包装:平装
丛书名: 社会学教材教参方法系列
外文名称:Statistical Methods for Categorical Data Analysis(Second Edition)
开本:16开
出版时间:2018-02-01
页数:

具体描述

内容简介

本书对分类数据分析的方法和模型,及其在社会科学研究中的应用做了全面介绍。它的一个目标是整合变换方法和潜在变量方法,这是两类不同但又相互补充的处理分类数据分析的传统方法。这也是di一次在一本单册书中详细地介绍针对离散因变量、交叉分类和跟踪数据的模型与方法对于广大的社会科学研究者来说,意义重大,既可以使得他们能顺利使用合适的定类数据的统计方法,又可以让他们对统计后的结果作进一步的科学检验,使得研究能够更加深入下去。

作者简介

Dan Powers and Xieyu 作者之一的谢宇是美国密歇根大学教授,1959年出生于中国江苏省镇江市。1982年获得上海工业大学工学学士学位,1984年获得美国威斯康星大学科学史硕士和社会学硕士学位,1989年获得同所大学社会学博士学位。毕业后在美国密歇根大学社会学系任助理教授(1989—1994)、副教授(1994—1996)、正教授(1996年至今)。1996年被授予Perrin讲座教授,1999年被授予Huetwell讲座教授,2002年被授予社会学系和统计系的Otis Dudley Duncan讲座教授。同时担任密歇根大学社会研究所人口研究中心和调查研究中心的研究教授。2004年当选为美国艺术科学院院士。研究范围:统计方法、社会分层和社会人口学。著作:《类型变量的分析方法》、《妇女科学家》、《亚裔美国人》(英文)。

目录

图目录/1
表目录/1
中文版序/1
前 言/1
第1 章 绪论/1
  1.1 为什么需要分类数据分析?/1
  1.2 分类数据的两种哲学观点/6
  1.3 一个发展史的注脚/8
  1.4 本书特点/9
第2 章 线性回归模型回顾/11
  2.1 回归模型/11
  2.2 再谈线性回归模型/17
  2.3 分类变量和连续型因变量之间的区别/27
第3 章 二分类数据模型/29
  3.1 二分类数据介绍/29
  3.2 变换的方法/30
  3.3 Logit模型和Probit模型的论证/39
  3.4 解释估计值/54
  3.5 其他的概率模型/61
  3.6 小结/62
第4 章 列联表的对数线性模型/64
  4.1 列联表/64
  4.2 关联的测量/68
  4.3 估计与拟合优度/73
  4.4 二维表模型/79
  4.5 次序变量模型/89
  4.6 多维表的模型/97
第5 章 二分类数据多层模型/110
  5.1 导言/110
  5.2 聚类二分类数据模型/113
  5.3 追踪二分类数据模型/130
  5.4 模型估计方法/136
  5.5 项目响应模型/151
  5.6 小结/159
第6 章 关于事件发生的统计模型/161
  6.1 导言/161
  6.2 分析转换数据的框架/162
  6.3 离散时间方法/163
  6.4 连续时间模型/177
  6.5 半参数比率模型/188
  6.6 小结/211
第7 章 次序因变量模型/213
  7.1 导言/213
  7.2 赋值方法/214
  7.3 分组数据的Logit模型/216
  7.4 次序Logit和Probit模型/220
  7.5 小结/232
第8 章 名义因变量模型/234
  8.1 导言/234
  8.2 多项Logit模型/235
  8.3 标准多项Logit模型/237
  8.4 分组数据的对数线性模型/242
  8.5 潜在变量方法/245
  8.6 条件Logit模型/246
  8.7 设定问题/251
  8.8 小结/258
附录A 回归的矩阵方法/259
  A.1 导言/259
  A.2 矩阵代数/259
附录B 大似然估计/266
  B.1 导言/266
  B.2 基本原理/266
参考文献/285
索 引/295
译后记/314


图目录
图1-1 四种测量的分类模式/5
图2-1 关于θ的L对数的大化/19
图2-2 二分类数据的逻辑斯蒂回归与线性回归的比较/27
图3-1 p的logit和probit变换/38
图3-2 以累积概率函数曲线切线的斜率表示的边际效应/57
图3-3 虚拟变量的边际效应/58
图3-4 按家庭收入水平变化的毕业概率/60
图3-5 p的互补双对数变换/61
图5-1 显示预测概率向总比例收缩的观测概率和预测概率/124
图5-2 模型2按照家庭结构和母亲的受教育水平分的婚前生育预测概率/127
图5-3 家庭别随机效应分布/129
图5-4 家庭别随机效应的经验贝叶斯估计值/130
图5-5 观测的、边际的和条件的logit/136
图5-6 β3和σ20的迹线图与直方图/142
图5-7 赋闲比数比的后验分布(南部居住地vs.非南部居住地)(高中毕业vs.未毕业)/147
图5-8 包含3个题项的1PL模型的题项特征曲线/153
图5-9 2PL模型的题项特征曲线/155
图5-10 使用LSAT数据估计的1PL和2PL模型的题项特征曲线/159
图6-1 退学的离散时间风险和生存函数/168
图6-2 对数累积风险和生存函数图/204
图6-3 家庭收入效应的Schoenfeld残差图/207
图6-4 随时间变化的家庭收入效应图/209
图7-1 对应于一个四分类响应变量的累积分布/221
图7-2 潜在变量和现实结果之间的关系/224
表目录
表2-1 瑞典于默奥市婴儿出生后前6个月的死亡数/24
表2-2 列向布局的数据文件/25
表2-3 对数-比率模型的OLS、FGLS和ML估计值/26
表2-4 回归模型的类型/28
表3-1 按种族、性别和家庭结构分类的高中毕业生/31
表3-2 用虚拟变量以列的形式概括表3-1的数据/32
表3-3 替代的二分类因变量模型估计结果/38
表3-4 按照种族、性别和家庭结构分类的估计毕业概率/39
表3-5 比较主效应和二维交互作用模型/50
表3-6 收入和性别对投票倾向的影响/58
表3-7 个人水平数据的logit和probit模型估计值/59
表4-1 受教育水平和对婚前性行为的态度/65
表4-2 观测(期望)频次/66
表4-3 期望概率/67
表4-4 独立情形下的期望频次/68
表4-5 各单元格对皮尔逊卡方的贡献/68
表4-6 独立情形下的行比例/69
表4-7 观测数据的行比例/69
表4-8 态度例子的完整表格/71
表4-9 基于相邻行和列的局部比数比/72
表4-10 模型A下的皮尔逊卡方构成/74
表4-11 可识别的参数/80
表4-12 Hauser的流动表格/83
表4-13 饱和模型的交互参数:代际流动的例子/83
表4-14 参数μh的估计值/84
表4-15 流动表模型的拟合优度统计量/93
表4-16 对堕胎和婚前性行为的态度/96
表4-17 估计的测度得分/96
表4-18 加州大学伯克利分校的研究生录取数据/98
表4-19 合并后的研究生录取数据/99
表4-20 对录取数据所拟合模型的拟合优度统计量/104
表4-21 模型4的交互参数估计值/105
表4-22 三国阶级流动数据的模型/107
表4-23 国家别的�疾问�/109
表5-1 生物化学领域的博士后训练与NIH资金分布/120
表5-2 常规与随机截距模型/121
表5-3 观测比例()与模型预测的比例()/123
表5-4 初次婚前生育的logit模型/126
表5-5 数值积分的支点(u)和权重(p)/129
表5-6 拟合青年就业数据的追踪模型/135
表5-7 不同方法的估计值/144
表5-8 观测的与期望的响应模式/146
表5-9 logit模型拟合统计量/148
表5-10 Bock和Lieberman法学院能力倾向测试(LSAT)数据/157
表5-11 使用LSAT数据估计的1PL和2PL模型/158
表6-1 事件发生数据/165
表6-2 退学生命表/167
表6-3 人-层(person-level)和人-期(person-period)数据格式/172
表6-4 5次追踪观测到的二分类响应序列/172
表6-5 研究退学的离散时间logit模型估计值/175
表6-6 项目完成之前的等待时间/179
表6-7 表6-6所含数据的发生数-暴露量矩阵/180
表6-8 美国按照年龄、种族和出生结果进行分类的婴儿死亡数(暴露量,以天为单位)
  ——1995~1998年/185
表6-9 婴儿死亡数据的模型及其拟合统计量/186
表6-10 美国婴儿死亡的基线风险与风险比(1995~1998年)/187
表6-11 事件史数据的概念格式/188
表6-12 分时段事件史数据格式/191
表6-13 表6-12的交互分类数据/192
表6-14 含非比例效应的分段式恒定率模型/192
表6-15 初次婚前生育风险的分段式恒定指数模型/193
表6-16 非比例性诊断检验/206
表6-17 含比例效应与非比例效应的Cox回归模型/208
表7-1 以态度为例的标准分变换/216
表7-2 受教育水平与对婚前性行为的态度/219
表7-3 不同参数求解方法下的次序logit估计值/227
表7-4 次序probit估计值与边际效应/228
表7-5 对妇女就业的态度/229
表7-6 次序logit与单独logit的估计值/230
表7-7 比例比数假定的Brant检验/231
表7-8 部分比例比数模型/231
表8-1 多项logit结果/241
表8-2 三维表情况下多项logit和对数线性模型之间的等价/244
表8-3 按照种族和父亲的受教育年限分的就业状况/244
表8-4 从对数线性模型推出的多项logit估计值/245
表8-5 条件logit模型的估计值/248
表8-6 混合模型的结果/250
表8-7 教育获得/257

前言/序言

修订译本说明

《分类数据分析的统计方法》(第2版)一书自2009年7月出版以来,受到广大学生和教师的高度好评。此书不仅是北京大学-密歇根大学学院暑期量化课程的教学参考书,而且是许多高校讲授社会科学量化分析方面课程的教材或参考书。我们经常收到学员和教师对此书的反馈建议和评价。作为译者,我们感谢读者对本书翻译质量的肯定,同时也感谢读者针对本书一些翻译细节提出的很好的建议。这些建议加上我们在教学过程中学生提出的问题,累积起来也有不少。为此,我们在进一步理解原书内容的同时,在有机会的时候也向原书作者谢宇教授和Dan当面请教。借此书翻译修订的机会,我们对译著做了以下几方面的修正和补充。
(1)纠正了文中的一些错别字;进一步区分公式中符号的正斜体,并予以正确标注。
(2)统一了书中的个别关键词。
(3)重新翻译和修改了一些不太通顺或不太符合中文表达习惯的语句,尽可能减少语言表达上存在的明显的翻译痕迹。
(4)按照英文书籍的传统格式,我们在中文译本“主题索引”的基础上制作了中文版“索引”,在内容和格式上基本与原著的索引保持一致。
此修订译本,可能依然存在对原著的理解不足和翻译错误,或者错别字,欢迎读者批评、指正。

译者
2018年1月12日


中文版序

《分类数据分析的统计方法》(第2版)的中文版终于和读者见面了,我感到非常高兴。
《分类数据分析的统计方法》是我和Daniel Powers合著的,也是我的di一本书。di一版于2000年由美国的学术出版社(Academic Press)出版,第二版于2008年由英国的翡翠出版社(Emerald Group)出版。很荣幸的是,我们能在2009年英文第2版刚刚出版后不久就见到由社会科学文献出版社出版发行的中文版。
《分类数据分析的统计方法》是为社会科学——特别是社会学——做定量研究的学者和学生专门写作的教......
深入理解数据背后的模式:现代统计学视角下的分类数据分析 分类数据,在现实世界中无处不在,从市场调研中的客户偏好、医疗诊断中的疾病类型,到社会科学中的政治倾向、行为模式,它们以文本、类别或标签的形式,构成了我们理解世界的重要组成部分。然而,与连续数据不同,分类数据的非数值性和离散性带来了独特的分析挑战。传统的统计方法往往难以直接有效地处理这些数据,误用或忽视其特性可能导致分析结果的偏差,甚至得出错误的结论。 本书旨在为读者提供一套系统、全面且现代的统计方法,用于深入探索和理解分类数据的内在模式与规律。我们摒弃了对初学者可能造成困惑的过于抽象的理论推导,而是专注于揭示各类统计模型的直观意义、适用场景、实施步骤以及结果解读。本书的目标是赋能读者,使其能够自信地应用恰当的统计工具,从复杂的分类数据中提取有价值的洞见,并就相关问题做出明智的决策。 本书的独特之处在于其“由问题驱动,以方法为导向”的叙事结构。 我们不只是罗列统计模型,而是从实际应用场景出发,提出读者可能遇到的典型问题,然后循序渐进地引入最适合解决这些问题的统计方法。每一个模型都将配以清晰的理论阐释,强调其背后的统计思想,以及在何种条件下最为有效。同时,我们也非常重视模型的实际操作性,因此,每一种主要方法都将包含详细的步骤指南,并提供在常用统计软件(例如 R、Python 等,具体视内容调整)中实现的代码示例,帮助读者快速上手。 本书内容涵盖了分类数据分析的核心领域, 从最基础的计数数据分析,到更为复杂的多元分类数据模型。我们将首先从描述性统计入手,介绍如何有效地汇总、可视化分类数据,理解其分布特征。随后,我们将深入探讨推断性统计在分类数据中的应用,包括各种假设检验方法,例如卡方检验、Fisher精确检验等,以及它们在比较不同类别频率时的应用。 概率模型在分类数据分析中扮演着至关重要的角色。 本书将花费大量篇幅介绍逻辑回归(Logistic Regression)模型,这是分析二元分类结果(例如,购买/不购买,疾病/健康)的最基本也是最强大的工具之一。我们将详细解释逻辑回归的原理,包括广义线性模型(Generalized Linear Models, GLM)的框架,以及如何解释回归系数的含义(如优势比)。在此基础上,我们将进一步扩展到多项逻辑回归(Multinomial Logistic Regression),用于处理具有三个及以上互斥类别的因变量,例如预测消费者对不同品牌产品的选择。 条件逻辑模型(Conditional Logistic Models) 也是本书的一大亮点,尤其是在处理配对或分层数据时,例如病例对照研究。我们将介绍条件逻辑回归的原理及其在控制混杂因素方面的优势。 对于具有有序类别的分类数据, 例如“差”、“中”、“好”等评分,我们将介绍有序逻辑回归(Ordinal Logistic Regression)。这种模型能够有效地捕捉类别之间的顺序关系,提供比普通多项逻辑回归更具信息量的分析结果。 泊松回归(Poisson Regression)和负二项回归(Negative Binomial Regression) 将被引入,用于分析计数数据,即事件发生的次数,例如客户投诉次数、网站访问次数等。我们将比较这两种模型在处理计数数据时的异同,以及何时应该选择其中一种。 本书还将深入探讨多变量分类数据的分析。 这意味着我们不仅关心一个分类变量,还关心多个分类变量之间的关联性。我们将介绍对数线性模型(Log-linear Models),它们是分析两个或多个分类变量之间关系的一种强大工具,能够帮助我们识别变量之间的独立性、条件独立性以及复杂的相互作用。 对于更具挑战性的问题,例如具有重复测量或层级结构的分类数据, 我们将介绍混合效应模型(Mixed-effects Models)在分类数据分析中的应用,尽管这个部分会以介绍性为主,旨在让读者了解其可能性。 模型选择、评估与诊断 是任何统计分析不可或缺的一部分。本书将提供关于如何选择最适合特定问题的模型、如何使用各种指标(如 AIC、BIC、AUC、混淆矩阵等)评估模型性能,以及如何进行模型诊断以检查模型假设是否得到满足的实用建议。 数据预处理与可视化 作为分析的前提,也将得到充分的关注。我们将讨论如何处理缺失的分类数据、如何进行特征工程,以及如何利用各种图表(如条形图、堆积条形图、马赛克图、散点图矩阵等)直观地展示分类数据的特征和模型结果。 本书的另一项重要贡献是强调统计学在现实世界中的应用。 除了理论和方法论,每一章都将穿插精心挑选的案例研究,这些案例来自不同领域,如市场营销、医疗健康、金融风险管理、社会调查等。通过分析这些真实的、贴近读者工作和研究场景的例子,读者可以更深刻地理解所学方法的实际价值,并学会如何将统计理论转化为解决实际问题的策略。 本书的读者群体非常广泛。 对于统计学专业的学生,本书提供了扎实的理论基础和丰富的实践指导;对于应用领域的专业人士,例如市场研究员、数据科学家、生物统计学家、社会科学家、管理咨询师等,本书是他们掌握和应用分类数据分析技术的得力助手;对于希望提升数据分析能力的研究者,本书将帮助他们拓展分析的视野,更有效地从数据中发掘信息。 本书的编写风格力求清晰、严谨且易于理解。 我们避免使用过于复杂的数学符号,而是通过直观的解释和丰富的图示来传达概念。每一种方法都将从基本原理出发,逐步深入,直至掌握其精髓。我们鼓励读者亲自动手实践,利用提供的代码示例,在自己的数据集上进行分析。 总之,本书的目标是成为一本关于分类数据分析的实用指南,它不仅传授知识,更重要的是培养分析思维。我们希望通过本书,帮助读者建立对分类数据分析的信心,能够独立地解决复杂的分类数据分析问题,并最终利用数据驱动的决策,在各自的领域取得更大的成功。

用户评价

评分

我最近在处理一个大型市场调研数据集,里面充满了大量的分类变量,原本我对如何准确地建模和解读这些数据感到非常头疼,网上的零散资料看得我一头雾水。直到我开始系统地研读这本书,那种豁然开朗的感觉真是难以言喻。作者在讲解逻辑回归(Logistic Regression)时,没有采用那种生硬的数学推导开路,而是从经典的概率模型出发,慢慢过渡到对数几率(Log-odds)的解释,这种循序渐进的教学方式,极大地降低了初学者的门槛。特别是关于模型诊断的部分,它详细阐述了如何评估多重共线性、如何处理过度离散(overdispersion)问题,这些都是教科书里常常一带而过但实际工作中却至关重要的细节。我立刻尝试将书中学到的残差分析方法应用到了我的数据上,结果惊喜地发现,之前模型中那些不稳定的系数瞬间变得有意义了。这本书不是那种只停留在理论的“象牙塔”读物,它更像是一位经验丰富的导师,在你具体实践遇到瓶颈时,总能提供精准且实用的指导。

评分

与其他统计学教材相比,这本书在计算工具的结合运用上做得尤为出色。我注意到它在每章的末尾,都会提供使用主流统计软件(比如R或SAS)来实现书中介绍方法的具体代码示例。这对我这种需要快速将理论转化为实际操作的工程师来说,简直太方便了。我记得有一章专门讲到了列联表的精确检验(Exact Tests),在传统教材中往往只是一笔带过,但这本书却详细展示了如何用软件高效计算费舍尔精确检验(Fisher's Exact Test)的P值,并且解释了当样本量较大时,为什么要谨慎地依赖渐近线检验。这表明作者不仅精通统计理论,对现代数据分析的工作流程也有着深刻的洞察力。这种理论与实践的无缝对接,极大地缩短了知识吸收和应用之间的距离,让学习过程充满了即时反馈的成就感。

评分

这本书的叙事风格非常具有说服力,它不像某些学术著作那样冷冰冰地陈述事实,而是更像一场精心策划的辩论赛,每引入一个统计工具,都伴随着对其适用范围、优势和局限性的深刻剖析。比如,在讨论泊松回归(Poisson Regression)时,作者花了相当大的篇幅去对比它与负二项分布回归(Negative Binomial Regression)之间的选择依据,清晰地指出了当数据方差大于均值时,必须慎用泊松模型。这种对模型背后的“哲学”思考,远比单纯掌握公式重要得多。此外,书中对各种假设检验的介绍也极其到位,它不仅仅告诉你“该用哪个检验”,更重要的是告诉你“为什么用这个,不用那个”,并用非常形象的类比来解释中心极限定理在非正态分布数据中的引申意义。这种深度挖掘,让我对统计推断的本质有了更深层次的理解,感觉自己的分析思维都被重塑了。

评分

这本书的装帧和印刷质量确实没得说,纸张厚实,字体清晰,阅读起来非常舒服。我特别喜欢它封面那种沉稳的蓝色调,给人一种专业、可靠的感觉。初次拿到手时,那种纸张摩擦的触感就让我觉得这本书绝对是下了血本的。翻开目录,内容组织得很有条理,从最基础的计数数据到更复杂的模型,逐步深入,结构清晰。比如,它在介绍卡方检验时,不仅给出了公式,还配了大量的实际案例说明,让人很容易就能理解那些抽象的统计概念是如何应用到真实世界中的。而且,书中的插图和图表制作得非常精良,很多图表能够一目了然地展示复杂的数据分布情况,这对于我们这些需要结合视觉辅助来理解统计学的读者来说,简直是福音。这种对细节的关注,使得整本书的阅读体验大大提升,即便是长时间研读,眼睛也不会感到疲劳。总的来说,从物理层面到内容架构的初步印象,这本书都传递出一种高水准的专业制作感,让人充满期待去探索接下来的知识海洋。

评分

这本书最让我欣赏的一点是它对复杂模型如广义估计方程(GEE)和混合效应模型(Mixed Effects Models)的处理方式,它没有回避这些高级主题,而是用一种极其审慎的态度去引导读者。作者并没有试图把这些复杂的模型简化到失真,而是坦诚地指出了它们在处理纵向数据或集群数据时的难点,比如如何正确设定协方差结构,以及如何解释非独立观测值带来的推断偏差。这种坦率让我感到非常踏实,因为它承认了统计建模的复杂性,没有给我一种“万能药”的错觉。通过阅读这些章节,我意识到分类数据分析远不止于简单的卡方检验,它需要对数据结构有细致的理解和对模型选择有批判性的判断。这本书成功地将我从一个只会套用公式的初级分析师,提升到了一个能够审慎选择和解释复杂模型的思考者的高度。

评分

很好

评分

还不错 可以考虑再次购买

评分

好好好好好好好好还好好好

评分

东西不错,下次还来~

评分

很好

评分

纸张质量可以

评分

好好好好好好好好还好好好

评分

好好好好好好好好还好好好

评分

东西不错,下次还来~

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有