《科学的灾难?》

下载本书

添加书签

科学的灾难?- 第7部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
    


第三章   分类的圈套性状的随机选择

    分类的圈套    
    我们所感知的周围的现实,是由一些不协调的独一无二的特殊物体组成的一个集合,有时必须作出极为抽象的努力来根据它们的特性将之分类。我们在夜空中看到的每个光点都真实存在,可以认出它们每天晚上都是一样的。那么,把这些光点视为一类物体,即星星,是再自然不过的事了。这时,我们就必须非常努力地想像,才能将太阳这个表面形象截然不同的发光体看作星星,并且还需要更大的努力才能将行星这些看似相同的物体排除在星星这个类别之外。    
    为了使我们的认识领域更加广阔,并且鉴于我们智力的局限性,用数量非常有限的类别、等级来替换无限多变的现实是必然的。为了进行分类,我们不得已只好研究我们能够分辨出来的物体的一部分特性——我们必须缩小我们的视野。但是,以此为代价,我们能够建立某种秩序,能够阐明物体之间的某些关系。    
    不过,这种秩序,我们不是把它放在事物自身,而是用于我们对它们的看法,更准确地说,是我们用来描绘这些事物的方法。我们试图理解现实中物体的相互作用并逐渐地写出一篇“科学”研究文章,而我们所提及的“现实”只是一种由我们的思想根据感官捕捉到的“现实”所创作的一幅漫画。    
    为了使这幅漫画尽可能地忠实于所研究的事物的自然属性,我们有必要采取一些预防措施。我们思想的本能活动根本无法保证这些谨慎措施得以施行;我们也几乎无法把那些非我们自己所为但却是我们在自始至终的教育中,特别是在学会说话的过程中就承认的分类放下来,因为任何语言都意味着一种类别。    
    我们已经逐渐地屈服于一条严格的纪律,这个纪律是我们与他人交往的条件:先说后写,用词语来指代事物。这些约定俗成的词语包括一小部分的“专有”名词,它们只用来指称唯一的对象,以及占绝大多数的“普通”名词,这些普通名词用来表达一些由混杂在一起、未加区分的数不胜数的物体所构成的类别。    
    “科学”进程沿着同样的方向向前发展,科学不就是努力地确定一些有效的类别,逐渐用专有名词取代普通名词吗?用变化频繁、无法预料、影响着我们的日常生活的火红的太阳来代替一个普普通通的和许多同类一样有着完全相同的基本核反应的星球。    
    我们已经习惯于这种机制,它的确帮我们扩展了我们的理解范围,甚至确保了我们作用于它的力量,但是它以同样的运动压制了现实,用一种类别的共性取代了每个事物的独特性。    
    脑力舒适在其中占了上风,然而却付出了沉重的代价。最糟糕的是我们意识不到这个过程的危险性,还冒险使用那些距有效适用领域甚远的类别定义所检验的方法。因此,明确这种机制、阐明它所依据的假设以及找出概念的局限至关重要。那么,我们所赖以划分类别的智力进程是什么呢?它具有怎样的随机性?即使我们只能用若干事实来回答问题,关注这一活动的细节也并非徒劳无益。    
    我们首先注意到“分类”一词既指划分类别的过程本身,也指这个过程所得的结果。而且在这种分类中必须区分下面两个词:    
    第一个词用于给各种不同的类别下定义,即分类学;    
    第二个词用于将一个物体归入一种类别,即个体识别法。    
    曾经有人专门研究过这些活动,尤其是有关生物分类的活动,我们在这里将仅仅举出以下这个特例。    
    性状的随机选择    
    一个对象, 我研究它的整体性(借用我们的比利时朋友的准确说辞,研究它的“完整性”)时,它是无法被分类的。它在我面前,它不可征服,它不属于我的类别,它完全避开了我。为了驯服它,将其编入我所定义或将要定义的井然有序的类别中,我必须忘记它,用一个我事先选定的特性的集合来代替它。我得忘记我的忠实伙伴瓦利,而仅限于观察它的皮毛颜色、体重、口鼻的形状、吠叫或奔跑的方式。通过这些特性,我可以确定这是一种动物,一种狗,一种德国牧羊犬,就这样把它归入一个类别。    
    为了进行这种分类,我将依据自己的目的来选择这个或那个性状集合。因此,我无法真正地给物体分类,而只能根据对这些物体的测量来将一些特性集合分类。    
    长久以来,我们所考虑的属性就是那些直接被我们的感官所感知的特性,如颜色、形状、重量、行为……因此,我们的已知数据只限于对象的表型。所以我们能够在生物集合中分离    
    出那些体内有骨骼的生物,列为“脊椎动物”门;脊椎动物中,哺乳幼兽的动物属“哺乳动物”纲;哺乳动物中,大脑特别发达的动物为“灵长动物”目;最后,灵长类动物中与我们可以繁殖出后代的个体总和就是“人”种。每个分类阶段所使用的标准都与一种或几种容易觉察到的特性相关。    
    此外,我们知道物种常常汇聚了数目可观的个体,分类学家们常常冲动地不遵循物种的等级,以亚种、“宗”和“(比宗更小的)群”(注意,此处的“亚”不含有任何价值判断,而只意味着延伸到下一个层次的分类)来分析这些物种。再者,他们所用的是一些诸如肤色、身高、头发的组织结构等表型标准,就是这些标准确定了3个传统“人种”:黄种人、白种人和黑种人。    
    然而生物学的进步表明了有些非直观的性状可能在描述一个生物并把它归类方面具有更大的重要性。兰德斯坦纳兰德斯坦纳(Landsteiner,1868~1943),奥地利裔美籍生物学家。1930年诺贝尔医学及生理学奖获得者。——译注在1901年发现了第一个血型系统,即ABO血型系统,这个发现把所有人类分属于4个类别(还可以再细分,但是我们在此坚持这一精确程度):A、B、AB和O。这些截然不同的类别,可以使我们毫不含糊地完成分类。科学家们又逐渐地发现许多其他多种多样的系统,如免疫球蛋白(即Gm系统)或组织亲和性(即人体白细胞抗原系统)系统。    
    我们对这些特性的认识已经达到了非常精确的程度,所以即使各个系统的多种形态之间可能存在组合的数量很多,我们也能根据这些特性完全识别其中的每个个体。     
    另外,这些特性与个体自身起始于孕育初期的经历互不相关。个体自父母亲那里接收到基因,并且受这些基因支配,个体的这种特性终其一生保持不变。所用的数据不再与那些或多或少受环境的影响和支配的表型有关,而是与处于绝对稳定状态的基因型相关。    
    这种稳定性,这种与个体接收到的生物基因型之间的直接联系促使我们优先考虑基因型的特性来创建分类学,并把所研究的对象分成各种不同的类别。可惜的是,我们的可用数据常常只有那些直观的表型特性。我们必须确定表型与基因型之间具有毫不含糊的一致性,才能实现从一方过渡到另一方,可是这种情形很少见。即使在特别简单的ABO血型系统中,这种一致性:    
    基因型(AA)(AO)(BB)(BO)    
    (AB)(OO)    
    表型[A][A][B][B][AB][O]    
    也不可能通过表型来了解基因型,一个个体[A]既可以是(AO)也可能是(AA)。    
    对与量性性状而言,困难就更大了,因为我们不了解基因如何影响表面性状的生物机制,只能够建立一些数学模式。因而,人体的肤色被遗传,“正如”色素沉着度受四五对加性基因的支配一样。事实上,与此相关的决定论极可能更复杂得多,并与数目更多得多的基因有关,但是迄今为止,我们对此尚一无所知。    
    这些模式补足了我们的无知,强调了某些如“遗传性”等概念的有效操作性,从而建立了表型和基因型的总体联系。因此,特性是分类学和个体识别法的根基,科学家们不再进行直接测量,而是通过概率的分布来了解这些特性。    
    另一方面,当研究对象不是一些个体,而是一些个体集合、群体时,我们有必要借助概率。    
    我们只能通过一些多少具有代表性的样本来了解这些群体,并且估算它们各自特性的概率。    
        
    总之,分类的出发点是一份研究对象的清单(例如我们已知的个体生物的集合,或者个体组成的群体的集合),根据这些对象,我们列一份特性清单,这些特性或许是一些测量数据,也可能是一些已知的概率法则的参数。    
    很显然,根据认识的状况,根据我们的研究能力,以及我们生来就对各种标准感兴趣的特点,这些特性清单可以有很多变化。    
    


第三章   分类的圈套对象间“距离”的随机选择

    当我们用唯一的标准描述“对象”的特性时,很容易就能将同类对象汇聚在一起:按照身高或者按照体重来分类都不成问题。然而,一旦同时考虑两个或多个标准,比如,同时根据体重和身高来分类,一切就都起了变化。不过,为了尽量忠实地描述研究对象,我们显然必须尽可能多地考虑各种标准。    
    对象i和j是两个个体或群体,比较这两个对象就是比较两个数字序列集合:    
    Xi〓{X1i; X2i; 。。。 ; Xni},Xj〓{X1j;X2j; 。。。;Xnj}    
    其中,X1i是对象i的性状 1的测定值。于是我们发现自己的头脑连单单回答下面的基本问题都不行:“对象i更像对象j,还是更像对象k呢?”也可以换一种问法:“i与j,还是与k更相近呢?”    
    引入“相近”一词促使我们谈到“距离”。任何分类最终都是在确定一个距离,在设想一个空间,在这个空间中,我们所研究的对象以点的形式出现,性质相近的对象与距离相近的点保持一致。这个空间对于数学家来说只是一个多维空间,一个由与我们的研究对象的特性的数量相等的坐标轴所建立的多维空间。我们要确立一个距离,也就是说,根据集合Xi和Xj的元素,采用一种计算方法,得出一个数dij,即i与j之间的距离。    
    缺乏想像力的数学家们发明了许多计算距离dij的方法,这些方法全都经过论证,但是有时候却得出极为不同的结论。    
    最著名的方法就是经典的“欧几里得欧几里得(Euclid,生活于约公元前300年),古希腊数学家,以其所著的《几何原本》闻名于世。——译注    
    距离”,即它的平方等于测定值i和j的间距的平方之和;这就是我们上学时运用著名的毕达哥拉斯定理时所使用的距离。    
    有时“曼哈顿距离”在曼哈顿(Manhattan),从A地点到达B地点没有直线道路,必须绕道经过C地点;ABC三点构成了一个直角三角形,AB是斜边,AC和CB是直角边,用AC和CB可以表达AB的长度。因此,所谓的“曼哈顿距离”是指在不考虑障碍的条件下,两个地点之间的最短距离。——译注    
    也十分有用,其中,dij就是这些间距偏差的绝对值之和(这正好与纽约城的两点间距离相符:两条绿阴大道的间距再加上两条街道的间距)。    
    比较复杂的是“马哈拉诺比斯距离”由印度著名统计学家马哈拉诺比斯提出的马哈拉诺比斯(Mahalanobis)距离,又叫“马氏距离”,表示数据的协方差距离。——译注,它考虑到各种特性之间的联系(一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)。这种计算方法确立于1936年,需要进行测定值之间的方差——协方差的矩阵反演。因此,一直到研究人员们开始使用运算速度快的计算机时,才得以迅速普及。    
    最受群体遗传学家们赏识的是“余弦距离”(i和j之间的距离就是一个角,这个角的余弦等于各种等位基因的频率的平方根的乘积之和),它为按照基因型进行的群体比较提供了很多方便。    
    与这些“距离”计算方法并驾齐驱的就是起类似作用但又有不同优缺点的相似系数或不相似系数(卡尔·珀森卡尔·珀森(Karl Pearson,1857~1936),英国统计学家。——译注的著名的人种相似系数就属此类)得到了确定。    
    列举这些事实只有一个目的,就是为了证明确定距离的定义不是一件普通事。根据所使用的不同公式来计算对象间的距离,同样的数据可能会在某些极端情况下导致“相似性”或完全对立的“不同性”。老实说,在不正常的情况下,这种危险性看起来理论大于现实:使用不同的方法常常得出相近的结论。    
    选择这样或那样的距离经常受研究者研究习惯或者计算程序的支配,后者比对各个优势的理论分析更臻完善。为了使某些争论更加相对化,记得这一点是有益的。    
    大多数计算距离的方法在一开始就需要回答一个新问题:应该保持相关的各种不同性状间的平衡吗?怎么做?因为在总体距离的计算中,或者是由于它们的度量更精确,或者是因为它们的离散差更小,也或者它们与预计的更重要的特性相符,某些标准似乎应该比其他标准的影响更大。关于这个问题的争论没完没了。我们似乎无法客观地确定一个性状的“重要性”(请参看索卡尔和斯尼思以索卡尔(Sokal)和斯尼思(Sneath)为代表的数量分类学(又称表型系统学)是当今三大分类学派之一。——译注的作品),以至于许多专家认为宁可让各种参数具有同等的分量,无论它们是什么参数。    
    这次的问题不是什么刻板的问题;按照所采用的统计学加权,爱斯基摩人可能会比尼洛特人更接近俾格米人(根据身高),或者比俾格米人更接近尼洛特人(根据肤色)。    
小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架