第二代统计方法始现于1960年代,这一时期的研究者主要面对的是个体层次的调查数据,同时他们将注意力集中在具有线性结构关系(LISREL)的因果模型和事件史分析(event
history
analysis)上。第三代统计方法在1980年代晚期就已经初现端倪,研究者所处理的数据已经不能简单地归入上文所述的任何一个范畴。一方面是因为这些数据都具有与众不同的形式,比如文本和口述,另一方面是因为在与空间的和社会网的数据联系时,依赖性已经成为一个至关重要的方面。尽管有许多新的挑战,但用统计学方法研究这一领域的条件已经成熟,最近,几个主要的研究机构已经开始在统计学和社会科学领域展开新的探索。
1 引言
为了纪念千禧年的来临,美国统计学会月刊(Journal of the American Statistical
Association)刊登了一个由大约50篇短文组成的连载,每篇短文都着力概括统计学中的某一领域在即将过去的一个世纪所取得的进展。这一计划的初衷在于将统计学中一些最优秀的成果做一总结,并且突出未来研究中的具有潜力的领域。我写作了有关统计学在社会学中应用的那篇论文(Raftery,2000)。其他几篇相关的论文或许会对那些对社会学方法论感兴趣的读者有帮助,这些文章涵盖了列联表(contingency
table),对数线性模型(Fienberg,2000),因果推理在社会科学中的应用(Sobel,2000),人口学(Xie,2000),政治学方法论(Beck,2000),计量心理学(Browne,2000),经验方法在法律科学中的应用(Eisenberg,2000)等诸多领域。
在我这篇论文的初稿问世后,许多同事都对我的文章发表了评论,其中有许多评论正确地指出了我在文章中不慎遗漏的该领域的一些重要发展。然而,由于美国统计学会月刊给我的篇幅有限,我不可能将这些遗漏的部分全部补充进来。幸运的是,社会学方法论(Sociological
Methodology)编辑Michael Sobel和Mark
Becker请我撰写一篇在此基础上有所扩展的专题论文,或许这篇论文能够为这一不断发展的研究领域提供一个更为合适的概括。
社会学起源于十九世纪中期,孔德(他首先引进了“社会学”一词),马克思,韦伯和涂尔干围绕着工业革命后新出现的社会,写下了一系列具有奠基意义的著作。社会学从一开始就使用了定量的研究方法。孔德,这位学科的奠基人,清晰的意识到这门学科应该以统计数据为基础。而涂尔干的《自杀论》更是成为了广泛运用统计数据的典范。
然而,在二战以前,可供研究的数据都显得支离破碎,统计方法也比较简单,仅仅停留在描述性统计的层次上。经过仔细的考证Camic和Wilson(1994)认为,Franklin
H.
Giddings是美国定量社会学之父。Giddings于1894年在哥伦比亚获得社会学教授职务,1931年逝世,他将社会学界定为研究集体层面社会现象的一门学科。他认为在很大程度上社会学中的统计分析是将诸多的个体分成不同的类别,同时发现每一类别的平均特征。从现代统计学角度来看,缺乏对变化的考察是他著作的一个最为显著的特征。
从那以后,研究用的数据变得越来越复杂,同时统计方法也在不断发展,以适应数据分析的需要。这时期的统计学方法的发展,有许多是要归因于社会学家而非统计学家的努力。Clogg(1992)以及他文章的评论者们有力的论证并且记述了这一点。这种情况部分反映了一个事实,即致力于研究社会学问题的统计学家的数量相对较少。更多的统计学家倾向于关注药物学,工程技术以及生物科学方面的问题。这或许反映了在二十世纪后半期不同学科间研究资金分布的不平衡状况。然而,最近有迹象表明这一情况正在发生变化,我将在本文的结尾论述这个问题。
在过去的五十年中,社会学总的趋势是向更为严格、清晰的假设;更大更详细的数据集合发展;为了拟合数据,统计模型变得越来越复杂;主要社会学期刊所发表文献的统计分析水平也在不断提高。统计方法在社会学领域成功地走过了半个世纪,使得该学科研究的科学水平有了极大的提高。
社会学中广泛的使用了各种各样的统计学方法和统计模型。在这里,我将集中考察那些由社会学家发展的,直接由社会学问题所引致的,或者首先在社会学期刊上发表的那些统计学成就。许多其它的方法,比如逻辑斯蒂回归等适用于有限数量的因变量的方法,虽然也广泛的应用于社会学研究,但是他们是首先在其他的学科中为解决其学科自身的问题而发展出来的。有鉴于此,尽管这些方法很重要,但我们在这里也仅对他们做一简要介绍。
对于从计量经济学而不是从统计学中引入到社会学研究中的统计方法,本文省略了与其相关的讨论。这或许对从另一个角度来讨论这一问题有所帮助。计量经济学对社会学方法论产生了非常重要的影响,甚至有些人说这种影响比来自统计学本身的影响更为强大,但是在这里除了个别情况,我将不对这种重要的影响发表评论。
为了避免引起争论,我将根据社会学中不同的统计方法所针对的数据类型,而不是根据这些方法本身对他们加以分类。我将区分出战后统计学在社会学中应用的三个不同的阶段。每一阶段的划分都是根据他们通常所适用的数据类型做出的:交互表,单位水平的统计数据,以及种种新的数据形式。就像现实中的代际一样,这三代统计方法前后层叠,而且它们之间的界限也并非十分明晰。虽然这些方法代表着不同的成熟水平,甚至关于他们的起点也并没有一个统一的界定,但是今天这些方法都依然保持着活力。
在二战后开始的这一时期,社会学家们所使用的许多数据都是在调查和普查的基础上以交互表的形式呈现的。我在文中所要讨论的第一代统计方法就是以这种方式处理数据的。通常说来,这类交互表都只包含很少的变量,例如性别,年龄组以及职业分类。社会流动表可以称得上是这种方法中的经典之作。这一领域或许是社会学家对统计学贡献最大的地方。实际上,我们可以说是社会学家们主导了这一分支领域,他们发展出来的这些方法已经超出了社会学领域渗透到其他的学科的研究工作当中。Schuessler(1980)所作的调查在很大程度上反映了第一代方法所取得的成就。
1960年代早期,社会学家已经不必再依赖于计数的交互表了,来自含有多个变量调查的个体层次的数据越来越容易获得。计算能力也已经发展到能够轻而易举地处理这些数据的水平。第二代的统计方法正是针对处理这类数据而发展出来的。Blau和Duncan的有广泛影响力的著作美国的职业结构(The
American Occupational
Structure),为这一代的统计方法披上了金色的外衣,而1969年《社会学方法论》(Sociological
Methodology)以及1972年《社会学方法与研究》(Sociological Methods and
Research)等发表窗口的建立,更为这一方法增光添色。Edgar Borgatta一手创立了这两份刊物,当他创立第二份刊物时,《社会学方法论》已经远不能满足日益增多的投稿和发表的需要了。这些发展标志了社会学定量研究方法的新时代的到来。
1980年代晚期,社会学家们勾画了一个雄心勃勃的计划,就是对那些难以符合标准交互表和数据矩阵要求的数据类型进行统计分析(尽管在有些情况下,这些数据也可以被强行归入这些类别中)。这些数据包含了文本(text)或叙述(narrative),以及依赖性很强的数据,比如社会网的数据和具有空间参照特性的数据。这其中还包含了一些含有多类型变量的数据集,比如卫星图片,人种学的纪录和其他一些定量测量数据。第三代的统计方法正是为了处理诸如此类的数据而发展出来的。或许是每一个新事物的优点,迄今为止,这一代方法保持着它们的活力,包含了大量的令人激动的想法和进展,但是他们还未形成前两代统计方法所具有的成熟、完备的形式。
我对社会学中所应用的统计学方法的分类是根据不同方法所处理的数据类型做出的,而不是以方法本身的类型为标准,但这并不意味着目前研究生课程的编排有什么问题。或许为了训练的方便和有效,社会学的主要方法倾向于按照不同的类别组织在一起,比如回归模型(regression
model),有限因变量模型(limited dependent variable model),对数线性模型(log-linear
model),结构方程模型(structural equation
model),事件史分析等等。然而,我发现要分辨统计学方法以往的发展趋势以及构想未来的发展,从最初引致这些方法产生的数据的类型入手或许是一条捷径。
过去的五十年间,我们已经走过了一条漫长的道路。今天,许多社会学研究都是以巨大的高质量的调查样本为基础进行再分析的。他们较多的利用在公共基金资助下收集的或者是对研究者公开的数据库,这些数据库通常都有着5000到20000,甚至更大的样本规模。这为复证结果提供了一条简便的道路,同时也有助于社会学建立起可以与自然科学或医药科学相媲美甚至高于这些学科的科学标准。或许受以上因素的影响,社会统计学在最近成为了一个迅速扩展的研究领域,许多重要的研究机构也都在最近几年开始了他们对这一领域的探索。
|