具体描述
基本信息
书名:统计学(第五版)(21世纪统计学系列教材)
定价:39.80元
售价:13.9元,便宜25.9元,折扣34
作者:贾俊平
出版社:中国人民大学出版社
出版日期:2012-06-01
ISBN:9787300153841
字数:545000
页码:406
版次:5
装帧:平装
开本:16开
商品重量:0.622kg
编辑推荐
本书是普通高等教育“十一五”*规划教材,讲述了统计学的主要内容,包括描述统计和推断统计。该书既可作为高等院校财经管理类各专业本科生教材,又可作为广大实际工作者的参考书。
内容提要
本书是普通高等教育“十一五”*规划教材,讲述了统计学的主要内容,包括描述统计和推断统计。该书既可作为高等院校财经管理类各专业本科生教材,又可作为广大实际工作者的参考书。
目录
章 导论 1.1 统计及其应用领域 1.2 统计数据的类型 1.3 统计中的几个基本概念 思考与练习第2章 数据的搜集 2.1 数据的来源 2.2 调查数据 2.3 实验数据 2.4 数据的误差 思考与练习第3章 数据的图表展示 3.1 数据的预处理 3.2 品质数据的整理与展示 3.3 数值型数据的整理与展示 3.4 合理使用图表 思考与练习第4章 数据的概括性度量 4.1 集中趋势的度量 4.2 离散程度的度量 4.3 偏态与峰态的度量 思考与练习第5章 概率与概率分布 5.1 事件及其概率 5.2 概率的性质与运算法则 5.3 离散型变量及其分布 5.4 连续型变量的概率分布 思考与练习第6章 统计量及其抽样分布 6.1 统计量 6.2 关于分布的几个概念 6.3 由正态分布导出的几个重要分布 6.4 样本均值的分布与中心极限定理 6.5 样本比例的抽样分布 6.6 两个样本平均值之差的分布 6.7 关于样本方差的分布 思考与练习第7章 参数估计 7.1 参数估计的基本原理 7.2 一个总体参数的区间估计 7.3 两个总体参数的区间估计 7.4 样本量的确定 思考与练习第8章 假设检验 8.1 假设检验的基本问题 8.2 一个总体参数的检验 8.3 两个总体参数的检验 8.4 检验问题的进一步说明 思考与练习第9章 分类数据分析 9.1 分类数据与x2统计量 9.2 拟合优度检验 9.3 列联分析:独立性检验 9.4 列联表中的相关测量 9.5 列联分析中应注意的问题 思考与练习0章 方差分析 10.1 方差分析引论 10.2 单因素方差分析 10.3 双因素方差分析 思考与练习1章 一元线性回归 11.1 变量间关系的度量 11.2 一元线性回归 11.3 利用回归方程进行预测 11.4 残差分析 思考与练习2章 多元线性回归 12.1 多元线性回归模型 12.2 回归方程的拟合优度 12.3 显著性检验 12.4 多重共线性 12.5 利用回归方程进行预测 12.6 变量选择与逐步回归 思考与练习3章 时间序列分析和预测 13.1 时间序列及其分解 13.2 时间序列的描述性分析 13.3 时间序列预测的程序 13.4 平稳序列的预测 13.5 趋势型序列的预测 13.6 季节型序列的预测 13.7 复合型序列的分解预测 思考与练习4章 指数 14.1 基本问题 14.2 总指数编制方法 14.3 指数体系 14.4 几种典型的指数 14.5 综合评价指数 思考与练习附录一 术语表附录二 用Excel生成概率分布表参考文献
作者介绍
文摘
序言
深度探索数据世界的奥秘:统计学原理与应用 统计学,作为一门研究如何科学地收集、整理、分析和解释数据的学科,早已渗透到我们生活的方方面面。从经济学、社会学到医学、工程学,乃至日常生活中的新闻报道和市场趋势分析,统计学的思维方式和方法论都扮演着至关重要的角色。本书并非旨在介绍某一特定版本的统计学教材,而是希望带领读者踏上一段深入理解统计学核心原理、掌握实用分析技巧、领略其在各领域广泛应用的精彩旅程。我们将一起揭开数据背后的秘密,学会用严谨的科学语言解读这个充满变数的世界。 第一部分:统计学的基石——认识数据与描述 在开始任何数据分析之前,我们首先需要理解什么是数据,以及如何有效地描述它们。本部分将奠定坚实的统计学基础。 1. 数据是什么?数据的类型与测量尺度 数据是统计学的原材料。它们可以是数字、文字、图像、声音,甚至是抽象的概念。理解不同类型的数据对于选择合适的统计方法至关重要。我们将探讨: 变量(Variable):描述个体或事件的特征,例如年龄、性别、收入、得分等。 数据类型: 分类变量(Categorical Variable):描述事物的类别,例如颜色(红、蓝、绿)、婚姻状况(已婚、未婚)。 名义变量(Nominal Variable):类别之间没有顺序关系,如血型(A、B、AB、O)。 有序变量(Ordinal Variable):类别之间存在自然顺序,但顺序的间隔不一定相等,如教育程度(小学、中学、大学)、满意度(非常不满意、不满意、一般、满意、非常满意)。 数值变量(Numerical Variable):用数字表示的变量,可以进行数学运算。 离散变量(Discrete Variable):取值只能是整数,通常是计数所得,如班级人数、考试题目数量。 连续变量(Continuous Variable):取值可以在一定范围内任意实数,通常是测量所得,如身高、体重、温度。 测量尺度(Scale of Measurement): 定比尺度(Ratio Scale):具有零点,且零点表示“没有”的意义,比率才有意义,如身高、体重、长度。 定距尺度(Interval Scale):零点是人为设定的,不表示“没有”,比率无意义,但间隔有意义,如摄氏温度、华氏温度、年份。 定序尺度(Ordinal Scale):只能表示顺序,不能衡量间隔和比率,如比赛名次(第一、第二、第三)。 定类尺度(Nominal Scale):只能区分类别,无顺序、间隔、比率意义,如性别(男、女)、职业。 2. 数据的收集与抽样 有效的统计分析离不开高质量的数据。本节将介绍数据的来源、收集方法以及抽样的基本原理。 数据来源:一手数据(自己收集)与二手数据(他人收集)。 数据收集方法:调查(问卷、访谈)、实验、观察、案例研究等。 总体(Population)与样本(Sample):理解总体和样本的概念,以及为什么我们经常需要通过样本来推断总体。 抽样方法: 概率抽样(Probability Sampling):每个个体都有已知的、非零的概率被抽到样本中。 简单随机抽样(Simple Random Sampling) 系统抽样(Systematic Sampling) 分层抽样(Stratified Sampling) 整群抽样(Cluster Sampling) 非概率抽样(Non-probability Sampling):抽样概率未知,具有一定主观性。 方便抽样(Convenience Sampling) 判断抽样(Judgmental Sampling) 配额抽样(Quota Sampling) 滚雪球抽样(Snowball Sampling) 抽样误差(Sampling Error):样本统计量与总体参数之间的差异。 3. 数据的整理与可视化 收集到的原始数据往往杂乱无章,需要进行整理和可视化,以便更好地理解其内在规律。 数据整理: 频数分布表(Frequency Distribution Table):统计各类别或数值区间出现的次数。 相对频数分布表(Relative Frequency Distribution Table):展示各类别或数值区间在总体中所占的比例。 累积频数分布表(Cumulative Frequency Distribution Table):展示小于或等于某个数值或类别的频数。 数据可视化: 图形表示: 柱状图(Bar Chart):用于展示分类变量的频数或比例。 饼图(Pie Chart):用于展示各部分占总体的比例,适用于分类变量。 直方图(Histogram):用于展示数值变量的频数分布,尤其适用于连续变量。 折线图(Line Chart):用于展示数据随时间变化的趋势。 散点图(Scatter Plot):用于展示两个数值变量之间的关系。 箱线图(Box Plot):用于展示数据的分布、离散程度和异常值。 可视化原则:清晰、准确、简洁、有意义。 4. 数据的描述性统计 描述性统计量是对数据的集中趋势、离散程度、偏态和峰度进行量化描述的工具。 集中趋势(Measures of Central Tendency): 均值(Mean):所有数值的总和除以数值的个数,是最常用的平均数。 中位数(Median):将数据排序后,位于中间位置的数值,不受极端值影响。 众数(Mode):出现次数最多的数值。 离散程度(Measures of Dispersion/Variability): 极差(Range):最大值与最小值之差,最简单的离散度量。 方差(Variance):衡量数据点与均值之间离散程度的平均平方差。 标准差(Standard Deviation):方差的平方根,与原始数据的单位相同,更易于解释。 四分位数(Quartiles):将数据分成四等份的数值,Q1(25%)、Q2(50%为中位数)、Q3(75%)。 四分位距(Interquartile Range, IQR):Q3 - Q1,反映了中间50%数据的离散程度。 偏态(Skewness):衡量数据分布的不对称性。 正偏态(Right Skewed):均值 > 中位数 > 众数,尾部向右延伸。 负偏态(Left Skewed):均值 < 中位数 < 众数,尾部向左延伸。 对称分布(Symmetrical Distribution):均值 = 中位数 = 众数。 峰度(Kurtosis):衡量数据分布的尖峭程度。 尖峰(Leptokurtic):比正态分布更尖峭,尾部更重。 平峰(Platykurtic):比正态分布更平缓,尾部更轻。 正态峰(Mesokurtic):与正态分布的峰度相似。 第二部分:统计推断的奥秘——从样本到总体 描述性统计让我们了解样本的特征,但统计学的核心价值在于推断。通过样本数据,我们可以对未知的总体做出合理的推断。 5. 概率论基础 概率论是统计推断的理论基石。理解概率的基本概念,有助于我们理解随机事件的可能性。 概率(Probability):某个事件发生的可能性大小,取值在0到1之间。 随机事件(Random Event):结果不确定的事件。 概率的性质:非负性、规范性、互斥性。 条件概率(Conditional Probability):在某个事件已经发生的前提下,另一个事件发生的概率。 独立事件(Independent Events):一个事件的发生不影响另一个事件发生的概率。 常见概率分布: 二项分布(Binomial Distribution):描述独立重复试验中成功次数的概率。 泊松分布(Poisson Distribution):描述在固定时间或空间内某个事件发生的次数。 正态分布(Normal Distribution):一种重要的连续概率分布,形状对称,钟形曲线。 t分布(t-Distribution):与正态分布相似,但在样本量较小时使用,尤其适用于小样本推断。 卡方分布(Chi-Square Distribution):常用于拟合优度检验和独立性检验。 F分布(F-Distribution):常用于方差分析,比较两个或多个总体的方差。 6. 抽样分布(Sampling Distribution) 抽样分布是连接样本与总体的桥梁。了解样本统计量(如样本均值)的抽样分布,是进行统计推断的关键。 中心极限定理(Central Limit Theorem):当样本量足够大时,无论总体分布如何,样本均值的抽样分布都近似服从正态分布。 样本均值的抽样分布:均值等于总体均值,标准差(称为标准误差,Standard Error)等于总体标准差除以样本量的平方根。 其他统计量的抽样分布:比例、方差等也有各自的抽样分布。 7. 参数估计(Estimation) 参数估计是指利用样本数据估计总体的未知参数(如总体均值、总体比例)。 点估计(Point Estimation):用一个具体的数值作为参数的估计值。 样本均值估计总体均值。 样本比例估计总体比例。 区间估计(Interval Estimation):给出参数可能落入的一个范围,并附带一定的置信水平。 置信区间(Confidence Interval):包含总体参数的概率很大的一个区间。 置信水平(Confidence Level):表示置信区间包含总体参数的概率,如95%的置信水平。 置信区间的构成:点估计 ± 边际误差(Margin of Error)。 影响置信区间宽度的因素:置信水平、样本量、总体方差。 8. 假设检验(Hypothesis Testing) 假设检验是利用样本数据来检验关于总体的某个论断(假设)是否成立的统计方法。 原假设(Null Hypothesis, H0):需要检验的、通常认为其成立的论断。 备择假设(Alternative Hypothesis, H1):与原假设相反的论断。 检验统计量(Test Statistic):根据样本数据计算出的用于检验原假设的统计量。 显著性水平(Significance Level, α):允许犯第一类错误的概率上限,通常取0.05或0.01。 P值(p-value):在原假设为真的前提下,得到当前样本结果或更极端结果的概率。 如果 P值 < α,则拒绝原假设,接受备择假设。 如果 P值 ≥ α,则不能拒绝原假设。 第一类错误(Type I Error):当原假设为真时,拒绝了原假设。 第二类错误(Type II Error):当原假设为假时,未能拒绝原假设。 检验的效力(Power of a Test):1 - 第二类错误的概率,即正确拒绝假的原假设的概率。 常见假设检验: t检验(t-test):用于检验单个总体均值、两个独立样本均值或配对样本均值。 z检验(z-test):用于检验单个总体均值、比例,当总体标准差已知或样本量很大时。 卡方检验(Chi-Square Test):用于拟合优度检验(检验样本分布是否符合理论分布)和独立性检验(检验两个分类变量之间是否存在关联)。 方差分析(Analysis of Variance, ANOVA):用于比较三个或三个以上独立样本的均值是否存在显著差异。 第三部分:统计学的应用——揭示现实世界的规律 统计学并非仅仅停留在理论层面,它为解决实际问题提供了强大的工具。本部分将探讨统计学在不同领域的应用。 9. 相关性与回归分析(Correlation and Regression Analysis) 相关性分析和回归分析是研究变量之间关系的重要方法。 相关性(Correlation):描述两个数值变量之间线性关系的强度和方向。 相关系数(Correlation Coefficient, r):取值在-1到1之间。 r > 0:正相关。 r < 0:负相关。 r = 0:不相关(线性)。 |r| 越接近1,相关性越强。 回归分析(Regression Analysis):建立因变量(Dependent Variable)与一个或多个自变量(Independent Variable)之间的数学模型,用于预测和解释。 简单线性回归(Simple Linear Regression):一个因变量,一个自变量,模型形式为 Y = β0 + β1X + ε。 多元线性回归(Multiple Linear Regression):一个因变量,多个自变量。 回归系数(Regression Coefficient):表示自变量变化一个单位时,因变量的平均变化量。 拟合优度(Goodness of Fit): 决定系数(Coefficient of Determination, R²):表示自变量解释了因变量变异的比例。 残差分析(Residual Analysis):检验回归模型的假设是否满足。 应用场景:经济预测、市场分析、风险评估、科学研究中的关系探索等。 10. 时间序列分析(Time Series Analysis) 时间序列数据是指按时间顺序排列的一系列观测值。时间序列分析旨在识别数据中的模式,并用于预测未来的趋势。 时间序列的组成部分:趋势(Trend)、季节性(Seasonality)、周期性(Cyclicity)、随机性(Irregularity)。 时间序列模型: 移动平均模型(Moving Average, MA) 自回归模型(Autoregressive Model, AR) 自回归移动平均模型(Autoregressive Moving Average, ARMA) 季节性自回归移动平均模型(Seasonal Autoregressive Moving Average, SARIMA) 应用场景:股票价格预测、销售预测、天气预报、经济指标预测等。 11. 非参数统计(Non-parametric Statistics) 非参数统计方法不要求数据服从特定的概率分布,因此适用于数据不满足参数检验前提的情况。 常见非参数检验: 符号检验(Sign Test) 秩和检验(Wilcoxon Rank-Sum Test/Mann-Whitney U Test):用于比较两个独立样本。 配对秩和检验(Wilcoxon Signed-Rank Test):用于比较配对样本。 Kruskal-Wallis H检验:用于比较三个或三个以上独立样本。 Friedman检验:用于比较三个或三个以上配对样本。 优势:对数据分布的要求低,适用范围广。 劣势:统计效力可能低于参数检验。 12. 贝叶斯统计(Bayesian Statistics) 贝叶斯统计是一种基于贝叶斯定理的统计推断方法,它将先验知识与观测数据结合,更新对参数的信念。 贝叶斯定理(Bayes' Theorem): P(A|B) = [P(B|A) P(A)] / P(B)。 先验分布(Prior Distribution):在观测数据之前,对参数的信念表示。 似然函数(Likelihood Function):观测数据给定参数的概率。 后验分布(Posterior Distribution):结合了先验分布和似然函数,更新后的参数信念。 与频率派统计的区别:贝叶斯统计将参数视为随机变量,具有概率分布,而频率派统计将参数视为固定但未知的常数。 应用场景:机器学习、信号处理、医学诊断、金融建模等。 13. 统计软件与计算 现代统计分析离不开强大的统计软件。掌握至少一种统计软件的使用,是进行实际数据分析的必备技能。 主流统计软件:R、Python (with SciPy, NumPy, Pandas, Scikit-learn)、SPSS、SAS、Stata、Excel(基础功能)等。 软件功能:数据管理、数据可视化、描述性统计、统计推断、回归分析、时间序列分析、机器学习等。 编程语言:R和Python因其开源、灵活和强大的生态系统而受到广泛欢迎。 结语 统计学是一门博大精深的学科,其应用范围之广、解决问题之深远,令人惊叹。本书旨在提供一个全面而深入的视角,带领读者从统计学的基本概念出发,逐步掌握推断的原理,最终领略其在各个领域的强大力量。通过对数据的深刻理解和科学的分析,我们能够更清晰地认识世界,做出更明智的决策。希望这段旅程能激发您对统计学更浓厚的兴趣,并成为您探索数据世界、洞察事物本质的有力工具。