内容简介
要使普通小二乘法产生优线性无偏估计,必须符合经典回归假设。其中一个较难实现的假设是,因变量是连续的。如果因变量是离散的,似然技术(如logit或probit)通常更有效。
《logit与probit:次序模型和多类别模型》致力于分析因变量具多类别时的估计情况,关注离散和次序形式的因变量,并把处理对象扩展到具有两个以上结果的多类别或非次序因变量。另外,作者提供了十分有用的计算机程序详情。
总体而言,《logit与probit:次序模型和多类别模型》为估计和解释从更复杂的离散因变量模型中得到的结果提供了实用指南。
内页插图
目录
序
第1章 概论
第2章 次序模型
第1节 简介
第2节 方法论
第3节 应用:剥夺状态
第4节 对次样本的估计:特征与系数
第3章 多类别模型
第1节 简介
第2节 随机效用模型
第3节 logit模型的类别:多类别logit与条件logit
第4节 多类别1ogit模型
第5节 应用:职业获得
第6节 条件logit模型与不相关选项的独立性
第4章 STATA程序列表
第1节 简介
第2节 次序probit和logit程序
第3节 多类别logit程序
注释
参考文献
译名对照表
前言/序言
要使普通最小二乘法(OLS)产生最优线性无偏估计(BLUE),必须符合经典回归假设。这些假设中有些假设比其他假设更容易实现。此外,违反这些假设的实际后果因假设的不同而不同。其中一个假设难以实现,而且会对OLS的解释造成严重后果,那就是假设因变量是连续的。相反,如果因变量是离散的,即由两个或更多的结果类别构成,那么OLS就会产生严重的推论问题。在这种情况下,最大似然(maximum likelihood)技术(如logit或probit)通常更有效。
本书比较独特,因为它完全致力于分析因变量具多类别时的估计情况。在概论之后,作者关注了具离散和次序形式的因变量。比如,假设某位政治科学家有选举调查的数据,并希望解释政治兴趣这一因变量,其中受访者的得分:0-低,1一中等,2-高。这个变量是离散的,受访者处于这三种类别中的一种。此外,这个变量是从“低”到“高”排序的。在这种有序变量情况下,我们可以说某个得分为“高”的人比某个得分为“低”的人具有更多的政治兴趣,但我们不能确切地说多多少。所以,OLS回归看起来较不可取,而次序Iogit或次序probit更可取,因为它们适合这种较低的测量水平。布鲁雅(Borooah)教授详尽地阐释了这两种方法,试图解释社会剥夺(用三个类别测量,“没有被剥夺”“轻度被剥夺”“严重被剥夺”)在不同个体间的差异。一个经常出现的问题是logit是否比probit更优,或者反之。这两种方法根本上的理论差异涉及误差项的分布是逻辑分布还是正态分布。实际上,正如本书指出的,我们很难提供足够的理由说明为什么选择其中一种方法而非另外一种。
本书还把处理对象扩展到具两个以上结果的多类别或非次序因变量。比如,宗教的选择、住宅区的选择、购物中心的选择、工作的选择等。多类别logit的一个关键假设是无关选项独立性(HA)。正如布鲁雅教授所论述的,这个假设既是此技术的优点又是其缺点。他还对比数比(odds-ratios)和风险比(risk-ratios)做了重要但往往被忽视的区分。在二分类logit中,这两种比率之间没有差异,但是,在多类别logit中,结果是以风险比的方式显示的。
本书结尾给出了非常有用的计算机程序详情,用于说明书中的表格结果是如何产生的。这种逐步对计算机程序进行注释的方式让读者明白如何运行数据分析。讲解中具体使用的软件是STATA,但作者还指出了SAS、SPSS和I.IM-DEP中其他可用的程序。总体而言,这本书为估计和解释从更复杂的离散因变量模型中得到的结果提供了一个有用的指南。
《logit与probit:次序模型和多类别模型》 是一本深入探讨离散选择模型理论与应用的著作。本书聚焦于两种最常用的二元离散选择模型——Logit模型和Probit模型,并在此基础上,系统地拓展到更为复杂的多类别离散选择模型,包括多项Logit模型、有序Logit模型(Ordered Logit)和有序Probit模型(Ordered Probit)等。 本书旨在为读者提供一个全面而扎实的理论框架,帮助理解这些模型背后的统计学原理、假设条件以及模型识别的挑战。同时,它也强调模型的实际应用,通过详实的案例分析,展示如何在经济学、社会学、市场营销、医疗健康、交通运输等多个领域,利用这些模型来分析和预测个体的选择行为。 核心内容与结构: 第一部分:离散选择模型基础 引言:离散选择问题的出现与建模需求 生活中的离散选择现象:购买决策、出行方式选择、教育程度选择、疾病诊断等。 传统回归模型的局限性:因变量为连续变量的模型不适用于解释分类或定性结果。 离散选择模型的必要性:对无法被直接度量的“效用”或“倾向”进行建模。 区分二元、多类别和有序选择模型。 效用最大化理论与随机效用模型(Random Utility Model, RUM) 个体如何做出选择:基于效用最大化的假设。 效用的构成:确定性成分(可观测变量)与随机成分(不可观测变量)。 个体选择的概率:选择使得预期效用最大的那个选项。 引入随机变量的分布假设:这是区分Logit和Probit模型的核心。 Logit模型与Probit模型的推导与解释 Logit模型: 假设随机扰动项遵循逻辑斯蒂(Logistic)分布。 推导出选择某一个选项的概率表达式。 理解Log-Odds(Logit)的线性形式,即自变量与Logit值之间的线性关系。 解释Odds Ratio(优势比)的含义及其与自变量的关系。 探讨Logit模型的优缺点。 Probit模型: 假设随机扰动项遵循标准正态(Standard Normal)分布。 推导出选择某一个选项的概率表达式。 理解累积标准正态分布函数(CDF)的含义。 解释边际效应(Marginal Effects)的计算与解释,特别是在概率上的解释。 探讨Probit模型的优缺点。 Logit与Probit模型的比较: 理论上的相似性:都基于随机效用理论,都产生S形概率曲线。 数学上的差异:扰动项的分布不同。 实际应用中的区别:在大部分情况下,两种模型的结果非常相似,但在极端值处可能略有差异。选择哪种模型往往取决于研究的领域惯例或对扰动项分布的先验判断。 模型估计与推断 最大似然估计(Maximum Likelihood Estimation, MLE): 构建似然函数。 求解最优参数估计值的过程。 理解似然函数的解释性。 参数估计的性质: 一致性、渐近正态性、渐近有效性。 假设检验: 联合显著性检验(F检验或Wald检验)、t检验、Likelihood Ratio (LR) 检验。 模型拟合优度指标: Pseudo R-squared(如McFadden R-squared, Cox & Snell R-squared, Nagelkerke R-squared),混淆矩阵(Confusion Matrix)与分类准确率(Accuracy)。 模型诊断与选择 异方差性(Heteroskedasticity): 扰动项方差非恒定的问题及其对估计的影响。 多重共线性(Multicollinearity): 自变量之间高度相关的问题。 内生性(Endogeneity): 自变量与扰动项相关的处理方法(如工具变量法,但在线性回归中更常用,在离散选择模型中存在挑战)。 模型嵌套与模型选择准则: AIC(Akaike Information Criterion)、BIC(Bayesian Information Criterion)。 第二部分:进阶离散选择模型 多项Logit模型(Multinomial Logit Model, MNL) 基本概念: 当选择集包含三个或以上互斥且无序的选项时使用。 IIA(Independence of Irrelevant Alternatives)假设: 解释IIA假设的含义:选择某个选项的优势比不应受其他选项是否存在或移除的影响。 IIA假设的优点:简化模型,便于估计。 IIA假设的缺点:在很多实际场景下不成立(如“红牌效应”、“分割替代效应”)。 检测IIA假设的方法。 模型估计与解释: 选择一个基准类别(Reference Category)。 解释模型系数:相对于基准类别的Log-Odds变化。 计算边际效应:自变量变化对选择某个选项的概率的影响。 有序Logit模型(Ordered Logit Model) 基本概念: 当因变量为有序分类变量时使用(如低、中、高;非常满意、满意、不满意)。 模型假设: 潜在连续变量(latent continuous variable)的设定,以及扰动项的逻辑斯蒂分布。 阈值参数(Threshold Parameters): 解释模型中的截距项如何被分解成多个阈值,用来区分不同的类别。 模型估计与解释: 解释模型系数:自变量变化对“越过”某个阈值的概率的影响。 累积概率的计算与解释。 预测实际类别的概率。 有序Probit模型(Ordered Probit Model) 基本概念: 与有序Logit模型类似,但假设扰动项服从标准正态分布。 模型假设: 潜在连续变量和扰动项的正态分布。 阈值参数的解释。 模型估计与解释: 解释模型系数。 累积概率的计算与解释。 有序Logit与有序Probit的比较: 类似于二元Logit与Probit模型的比较,在实际应用中结果差异通常不大。 第三部分:模型应用与案例研究 实际应用领域举例: 经济学: 劳动参与决策、住房选择、金融产品选择、消费品购买。 社会学: 教育选择、职业选择、政治倾向。 市场营销: 品牌选择、广告响应、产品偏好。 医疗健康: 就医行为、疾病风险评估、治疗方案选择。 交通运输: 出行方式选择(汽车、公共交通、自行车)、拥堵状况下的选择。 案例研究(详细分析): 案例一: 使用二元Logit/Probit模型分析家庭的购房决策(例如,是否购买住房)。 数据收集与预处理。 变量选取(收入、年龄、家庭人口、地理位置等)。 模型估计与结果解读。 边际效应计算与政策含义。 案例二: 使用多项Logit模型分析消费者的出行方式选择(汽车、公交、地铁、自行车)。 数据收集与预处理。 选项的定义。 IIA假设的讨论与检验。 模型估计与系数解释。 计算和解释不同出行方式的概率变化。 案例三: 使用有序Logit/Probit模型分析客户对某项服务的满意度(非常不满意、不满意、一般、满意、非常满意)。 数据收集与预处理。 满意度等级的定义。 模型估计与系数解释(自变量如何影响跨越不同满意度等级的概率)。 预测不同满意度等级的概率。 第四部分:高级主题与扩展 样本选择偏误(Sample Selection Bias)及其处理 当样本并非随机抽取,而是因为某个选择过程而产生时。 Heckman两步法等处理方法。 混合离散选择模型(Mixed Logit Model, MLN) 放松IIA假设。 允许系数随机化,捕捉个体异质性。 在复杂选择结构中的应用。 嵌套Logit模型(Nested Logit Model) 处理具有层级结构的选择集。 例如,先选择出行模式(汽车、公共交通),再从公共交通中选择地铁或公交车。 模型在面板数据中的应用(Panel Data Models for Discrete Choice) 固定效应模型(Fixed Effects)和随机效应模型(Random Effects)的Logit/Probit。 处理同一实体在不同时间点的重复观测。 贝叶斯方法在离散选择模型中的应用 使用MCMC(Markov Chain Monte Carlo)方法进行参数估计。 本书特点: 理论严谨性与实践导向的结合: 既深入阐述模型背后的数学和统计原理,又通过大量实例展示如何在实际研究中应用这些模型。 循序渐进的学习路径: 从最基本的二元模型出发,逐步过渡到更为复杂的有序和多类别模型,以及更高级的主题。 丰富的案例分析: 涵盖了经济学、社会学、市场营销等多个学科领域的实际研究问题,使读者能够直观地理解模型的应用价值。 清晰的数学推导和统计解释: 确保读者能够理解模型系数的含义以及推断的逻辑。 对模型假设和局限性的深入讨论: 帮助读者批判性地使用模型,并了解在何种情况下需要选择更复杂的模型。 提供计算方法和软件应用指导(隐含): 虽然本书侧重理论,但其内容能够直接指导读者在Stata, R, Python等统计软件中实现模型估计和分析。 目标读者: 本书适合统计学、经济学、社会学、计量经济学、市场营销、公共卫生、交通规划等领域的本科生、研究生、研究人员和实践者。它对于希望深入理解并掌握离散选择模型,以分析和预测个体决策行为的读者来说,是一本不可或缺的参考书。通过阅读本书,读者将能够构建、估计、解释和诊断各类离散选择模型,从而在各自的研究和实践领域取得更深入的洞见。