中文版译者序 《分层线性模型——应用与数据分析方法》(第2版)的中文版终于与读者见面了。 分层线性模型是1990年代在国际上形成并正在迅速推广应用的新统计分析技术。由美国芝加哥大学的布里克教授和密歇根州立大学的劳登布什教授于1992年合著的《分层线性模型——应用与数据分析方法》是这一统计分析方法的代表作之一。 我是在1990年代后期才知道这种分析方法的。2000年,在美国执教的朋友王丰博士送给我此书。在研读过程中,我深为其方法论上的推进和其广泛的应用性所吸引。 此书既是一本专著,也可以作为教材,因为作者实际上是按教材体例写的。该书首先从方法论角度展开,指出研究实践中最常用的常规回归模型在处理多层次关系时的无效性。然后介绍了分层线性模型的原理,讨论了该模型在多种典型情况下的应用,并附以许多例题的分析示范,十分解渴。显然,此书的宗旨并不囿于证明一种新方法,而是考虑了能够为更多的研究人员和学生所理解,以促进该方法的普及应用。事实上,该书作者同时也是同名的专门统计软件HLM的研制者。 我于2001年开始组织一些教师和博士研究生一起分工翻译该书。2002年,劳登布什教授与布里克教授又出版了该书的第2版。其内容大大扩展,从原来的10章扩展为14章,从原来的260页扩展为480页,以充分反映10年来这一方法取得的新进展。我们随即决定中止第1版的翻译工作,改为翻译第2版。本来我们翻译此书的目的只是团结一批有志于量化研究方法的青年学者一起追踪国际学术前沿,但经过2年时间的反复校正与修改,最终我们形成了格式统一、译法一致、图表俱全的译稿。 北京大学社会学系马戎教授等同仁见到这个译本后,一致鼓励我们应当争取正式出版,并且还为此事多方联系。但是出于各种原因,正式出版之事一再受挫。最后,在社会科学文献出版社谢寿光社长的鼎力支持下,这本译著才得以正式出版。 本书的翻译采用团队工作形式,由郭志刚(第1、2、8、10、12章)、郑真真(第11章)、陈卫(第5章)、周皓(第6、7、14章)、李强(第3、4章)、葛建军(第13章)、张磊(第9章)共同承担,最后由郭志刚负责全书的统稿和校对工作。我的研究生巫锡炜、赵联飞、李睿、王军协助进行最后的清样校对工作。 感谢杨桂凤编辑高度认真负责的精神,她的辛勤努力使这一中文版增强了文本的一致性,并提高了语言上的易读性。 由于译者水平有限,对此学术前沿巨著的理解和翻译难免有不当之处,恳请读者指教。 郭志刚 于海淀蓝旗营 致谢(英文版第2版) 自本书第1版出版以来的十年中,分层模型的有关方法得到了长足的发展,并且在各领域中得到了广泛的运用。因此可以说,本书第2版一方面是原作者之间长期大量合作的成果,另一方面也是与更多的其他同事合作与讨论的成果。需要感谢太多的人,但在此处不能一一列出。无论如何,其中一些人是必须提到的。正是因为有了他们,本书才最终得以付梓。 与Darrell Bock、 Yuk Fai Cheong、 Sema Kalaian、 Rafa Kasim、 Xiaofeng Liu和Yasuo Miyazaki等人在方法论上的讨论,不断地挑战着我们的想法。Yeow Meng Thum的工作启发了本书第6章和第11章中有关多元分析的应用。Mike Seltzer对第13章的贝叶斯方法提出了极为重要且非常有用的批评,并慷慨地允许将其研究成果作为最后一个例子加入该章。Meng-Li Yang和Matheos Yosef在发展“分层一般化线性模型”(第10章)中所用的最大似然估计方法方面做了基础工作。Young-Yun Shin仔细阅读了本书的初稿,并提出了许多建设性意见。Guang-lei Hong对初稿提出的批评意见促使第12章交互分类模型的形成。作为应用程序员和长期的朋友,Richard Congdon的工作体现在本书的每一章中。Stuart Leppescu也为第2版的数据处理和新的分析工作提供了协助。 芝加哥社区人类发展项目(the Project on Human Development in Chicago Neighborhoods, PHDCN)中的同事,包括Felton Earls、 Rob Sampson和Christopher Johnson,都对本书第2版有着重要影响,这体现在第10章和第11章中关于社区效应的例子上。的确,我们还要感谢麦克阿瑟基金会(the MacArthur Foundation)、国家司法研究所(the National Institute of Justice)和国家精神卫生研究所(the National Institute of Mental Health)对芝加哥社区人类发展项目的资助,该项目也支持了本版新章节中关键性方法论方面的工作。 我们特别感谢Pamela Gardner,她帮助检查、编辑并录入了本书的全稿。她的高效率和幽默感是保证整个工作顺利进行的基础。 匿名评论者对这一版的新章节提出了许多有益的建议。作为Sage出版社的方法论编辑,C.Deborah Laughton对本书的出版给予了令人钦佩的耐心和精神上的支持;我们还要再次感谢系列丛书的主编Jan de Leeuw的鼓励。 丛书主编对分层线性模型的介绍 在社会科学中,数据结构经常在以下意义上是分层的:我们有描述个体的变量,但是个体又组成较大的群体,每一群体由一定数量的个体组成。对于较大群体还有一系列变量来描述。 首推的例子也许是教育。学生组成班级,既有变量描述学生,又有变量描述班级。班级变量也许是学生变量的汇总指标,诸如学生数量或社会经济状况的平均值。但是班级变量也可以是教师(如果本班只有一个教师),或者是本班的教室(如果本班总是聚会于同一教室)。此外,在这个例子中,层次结构还会相当自然地延伸。班级还会进一步组成学校,学校构成校区,等等。我们也可以有描述学校的变量和描述校区的变量(如教学方式、学校建筑、邻里状况等)。 一旦我们发现这个分层数据结构的例子,我们就会看到更多的例子。它们自然地发生于地理和(区域)经济中。在某种意义上,社会学的基本问题就是将个人属性与所寓于其中的群体和结构的属性联系起来。以同一种方式,经济学的问题是将微观层次与宏观层次联系起来。此外,许多重复测量也是分层的。如果我们不断追踪调查一些个体,那么对任一个体的观察构成一组测量,按照同一种方式,一个学校或班级也构成一组测量。当每个调查员调查一组对象时,调查员便处于较高层次。只要对这些分层结构多加思索便会不可避免地导致一个结论,即使不能说大多数,至少也能说很多社会科学数据都有这种嵌套的或分层的结构。 在意识到分层数据的重要意义之后,下一步是考虑如何在统计技术上体现对分层结构的分析。有两种做法已经遭到否定。第一种做法是将所有高层变量分解(disaggregate)到个体水平。比如将教师、班级和学校的特征全都赋予学生个人,然后在个体层次进行分析。这一方法的问题是,要是我们知道一些学生是同一班级的,那么我们也就知道他们在班级变量上取相同的值,于是,我们便不能采用经典统计技术的基本假定,即各观测之间相互独立。另一种做法是先将个体水平的变量汇总到较高层次,然后在较高层次进行分析。比如我们将学生特征汇总到班级,然后再对班级进行分析,分析时也许还需要按规模对班级加权。这种做法的主要问题是,我们抛弃了所有的组内信息,它也许占到最初分析时信息总量的80%或90%。其结果是,汇总变量之间的关系总是显得较为密切,然而这常常与直接分析未曾汇总的变量所反映的情况大相径庭。于是,我们不但浪费了信息,而且要是我们企图在个体层次解释汇总分析结果,还将导致对结果的曲解。所以,汇总方法和分解方法都不能令人满意。 如果仅限于用常规线性模型进行分析,我们知道其基本假定有线性、正态性、方差齐性、独立性。我们希望保留前两项,但需要对后两项(尤其是关于独立性的假定)加以修改。修改的主要原因在于:由于同组的个体之间比异组的个体之间更为接近或相似,所以一个学生与其他班级的学生可能是相独立的,而与同一班级的学生在许多变量上相同。那么,这些变量并不需要观察,这意味着它们从线性模型中消失,进入误差部分,并导致残差之间出现相关。这一思路可以用方差成分