经典好看的郑日昌心理测量学在线阅读-第7部分-破晓小说

从而能保证测验的可靠性。③可以通过改变错误答案的迷惑性来调整题目的难度。④阅卷方便迅速，并可用机器评分，被试多时比较经济。⑤保密性好，好的题目可存入题库重复使用。
多选题的缺点是：①有固定答案，测不出组织材料的能力和创造力。②题量大，并要为每个题目考虑几个似是而非的答案，因而编写困难费时，需要一定技巧。　　
编拟多选题的要领及原则如下，　　
1．根据测验的目的和内容来选择最适当的题型。例如，要考虑辨别，比较和评价能力，宜用最好理由式，要考察推理能力宜用类比法。
2．备选答案要简短，必要的叙述或相同的修饰语应全部置于题干中。　
例题：孔子最伟大的成就在于，
（A）学术教育方面　　（国防军事方面
（C）艺术建筑方面　　（D）内政外交方面
四个选项皆有“方面”两个字；可移置于题干中，将题目改为直接问句：“孔子最伟大的成就在哪一方面？”如此，可使选项更为简短。
3．每题只能环绕一个中心，并只有一个正确该答案在内容和形式上不可特别突出，但其正确性必须确凿无疑。
4．题干应当包括解题所必须的共同要素，并尽可能做到精炼、准确、清楚，不要把选项夹在题干中间。
例题：战国初期，魏继承
（A）秦　　（燕　（C）齐　（D）晋
的旧业，最为富强。
此题的题千被选项分隔为二部分，增加作答困难。应改为：战国初期，魏国继承何国旧业而最为富强？
5．错误答案对被试具有迷惑性，不要错得太明显。这种答案可以是人们经常出现的错误，也可以是一般性的误解和似是而非的内容。　
例题：美国的首都是：
（A）东京　　（华盛顿　　（C）太平洋　　（D）1776
此题中选项（C）非地名，（D）为美国建国年代　，（C）、（D）均与题干间缺乏逻辑联系　（A）错得过于明显。如改为（A）纽约　　（华盛顿　　（C）巴黎　（D）伦敦，则好些。
6．各个选项在形式上应该协调一致，或为数字，或为图形，或为人名，应取—律，文字长短也应大体相当，以免对正确回答提供线索。　　
7．选项之间不应相互重选，相互包括，相互依赖。
例题：9…3是多少？　　
（A）大于5　　（6　　　（C）小于7　　　（D）12
选项中除（D）外，其余三者相互重选，均为正确答案，故应修改。
8．几个选项最好按逻辑顺序（如按量值大小。时间先后等）排列或随机排列，正确答案在每个位置上出现的次数要大致相等，且不要形成固定的格式。
9．所有选项在逻辑上和语法上都能与题干相接，否则本来正确的答案，会因为逻辑上或语法上与题干不一致而放弃。反之，如果干扰答案在逻辑上或语法上与题干不吻合，被试就会根据常识，发觉它们之间的矛盾而加以排除。
10．题干要尽量创设新的情境，文字要自己拟定，避免重复书本上的现成实例或措词。
（二）是非题
是非题又叫正误题，是指出一个论点要被试判断是否正确，或从是非两个答案中做出选择，因此可把是非题看作是两个备选答案的选择题。此种格式出题容易，回答方便，适于考查学生对简单观念或知识的了解。其缺点是易受猜测因素的影响，重要的材料有时不能用对与错简单回答；缺乏教育诊断作用，故应用不如多选题广泛，主要用于年幼儿童以及需要快速而粗略地做出判断的情况。
例题：鲸是哺乳动物，是口非口
编拟是非题应注意下面几点：
1．内容应以有意义的事实、概念或原理为基础，避免无关重要的问题或琐碎的细节。
2．每题应只包含一个观念，避免两个以上的观念在同一题中出现，而造成题目。似是而非”或“半对半错”。如“纽约是美国的首都和第一大城市”。此题后一半是正确的，前一半是错误的。
3．论点要简明扼要，意义明确，不要有艰深难懂的词句或含糊不确定的文字叙述。
4．对论点的陈述要重新组织，不要照搬教科书上的词句或仅仅加上否定词就构成错误项目。　
5。避免使用具有暗示性的特殊字词，如“绝不”，“完全”等，通常带有“错”的暗示，而“有时”，“可能”等通常带有“对”的暗示。如：“所有智商高的学生学习成绩都很好。”受试者仅凭题中“所有……都”这种措词便可猜出此话是错的。
6．尽量采用正面肯定的叙述，避免反面陈述或双重否定的文句。如：“生物没有不是由细胞所构成的。”此题既难读又难理解，宜改为“生物是由细胞构成的。”
7．“是”与“非”的题数应大致相等，且随机排列。
8．题数不能太少。
（三）匹配题
此种试题包括并列的两行，—行为刺激项目，另一行为反应项目，被试的任务是由后者中选出与前者相适合的项目。可以是完全匹配（刺激项目与反应项目数量相等），也可以是不完全匹配（反应项目多于刺激项目）；
例题：
指导语：从右边所列的人名中找出左边所列的每本书的作者，每个人名可以用一次，也可用多次或全然不用，
　　（　　1、家　　　　　A、鲁迅
　　（　　2、子夜　　　　B、郭沫若
　　（　　3、阿Q正传　　C、矛盾
　　（　　4、骆驼样子　　D、老舍
E、巴金
匹配题是选择题的一种变式，一个匹配题实际上就是一套多选题，适用于测量概念或事实之间的关系。其优缺点与多选题相同。
编写匹配题的要领是，
1．一个题目的各个刺激项目及各个反应项目应在内容上同质，若涉及年代都为年代，涉及地点都为地点，涉及符号都为符号。　　
2．在指导语中要讲清匹配依据，告诉被试每个反应可用几次。
3。配对项目不可过多或过少，如在十对以下，最好应用不完全配合，使反应项目比刺激项目多出一两个，以增加其可靠性。
4．每个刺激项目应有一个而且只有一个反应项目相匹。
5．按一定逻辑次序（例如按字母顺序，数字大小，时间先后等）安排反应项目；同时要避免答案的固定格式。
6．同一组项目应印在同一页上，以免造成作答时的困难。其它原则与编多选题相同。　　
（四）填空题和简答题
上边几种形式均可归类为选择题，要求的是对正确答案的辨认。填空题与简答题要求的是对正确答案的回忆，即由被试自己写出答案。填空题是提出一个不完整的陈述，要求被试把缺少的字词填上，可以空一处，也可以空几处。
例题：第一个智力测验是由_____与_____编造的。
简答题是提出简单的问题，让被试回答，通常只要几个字或一两句话即可答完。　　
例题：一年有哪几个季节？
填空题、简答题与选择题适于同样类型的材料，但填空题和简答题比多选题容易编写写，而且被试无法猜，但评分不如选择题方便和客观。
填空题和简答题的编写原则如下，
1．填空题目所空出的应该是关键字句，并且要和上下文有密切联系，不要空出无关紧要的字词。
2．一句内不要有太多的空白，空白太多，不容易明了题意。
3．空白最好放在句子的尾部，免得空格数量为答案提供线索。
4．测题句子避免直接引用教科书的措词。
5．问题要具体，范围要确定，要使受测者知道答案的类型、长度和确切程度。
6．准备一个正确答案和可接受的变式的标准，如果部分正确也适当给分，则要做出更具体的规定。
（五）论文题．
简答题若流于空泛或对其范围不加限定就变为论文题。这两种题目的区别不仅在于长度，还在于它们所起的作用，简答题最适合于测验实际知识的记忆和理解，而论文题最适合测验组织能力、综合能力和文字表达能力，有时还可测量评价能力和创造能力。论文题目编写容易，不允许猜测和简单背诵，可以反映理解的深度。但题目少，取样缺乏代表性，特别是评分困难，即费时又易受无关因素（如文字风格、卷面整洁、个人成见等）的影响，从而使测验的可靠性和有效性降低。
编拟论文题目要注意以下几点，
1．要让被试知道答案的范围和方向，例如长度、举例的详细程度等，但不可规定得太具体，以免变成一系列简答题。
2。最好要求被试在新的情境下，应用知识去解决新伪问题。
3．题目不要过少或过大，数量要适当多些，内容要适当具体些。
4．要选用具有可接受的正确答案的题目　（并不是只有一个正确答案），不用那些仅测量意见和态度的问题。
5．在测验前，对每一个题目编制几个“理想”的答案。对部分正确的回答如何评分做出尽可能具体的规定。
6．一般不要有任选题，因为两个论文题目很难做到等值。
（六）应用题
在数学和自然科学中，常常以应用题作为测验题目。这种题目是叙述一个具体的情境并提出一些有关的数据，让被试解决所提出的问题。
应用题适合测验计算技能、数学和科学推理，以及运用知识到新情境中的能力。如果只要求正确答案，评分可以很客观。但如果对最后结果错误而方法正确或部分操作程序正确的题目给予一定分数的话，评分就不容易做到客观。
编写应用题要遵循以下原则：
1．题目的陈述要使被试明白让他干什么，答案应以什么形式出现，以及对单位和精确度的要求等。
2．题目中应包括对解题所需要的一切数据和信息，也可包含一些无关数据和信息。
3．采用新的情境和例子，不要重复过去己用过的。
4．应向被试指明是否要求写出解答步骤，以及对各个步骤详细到什么程度等。
5．对一个问题的答案不论正确与否，都不要影响另一个问题的解答。
6．文字要通俗易懂，不要变成阅读理解测验。
（七）操作题
在测验中有些项目是让被试实际操作，如画图，走迷津、拼配物体等。
制定操作项目的主要原则是，使被试明确知道要他们干什么和在什么条件下干，如使用什么工具以及时间限制等。
有些操作项目可以根据完成的数量和错误次数客观记分，有些项目的评分则较为困难。在后一种情况下，事先要向被试说明评分标准，最好把整个操作分解成许多部分技能，并分别定出给分标准。
（八）联想题
联想题是让被试把与某个事物有关的事物写出来，例如，“说出所有圆形的东西”，“举出砖头所有可能的用途”等。此种题召能够考察发散思维能力，其缺点是评分不易有客观标准。
（九）排列题　　
依据时间，大小或其他原则，把测题中所列的项目重新排列一下顺序。此种题目评分较为客观，但应用范围有限。
（十）改错题　　
改正错误的字词，内容或逻辑错误等。
上述几种题目形式不是彼此对立，而是相互补充的，不同的内容可以采用同一种题目形式。同一个内容，根据需要也可以用不同形式的题目来表达。譬如对美国的首都这一内容就可以用下边几种形式来测量：
美国的首都在哪？　（简答题）
美国的首都是　　　　　。（填空题）
美国的首都是纽约。是口非口（是非题）
美国的首都是：　（A）纽约　　（华盛顿　　（C）伦敦　　（D）巴黎　（多选题）。
还可以编成匹配题：
（　　　1、美国　　A、巴黎
（　　　2、英国　　B、纽约
（　　　3、法国　　C、柏林
（　　　4、德国　　D、伦敦
E、华盛顿
题目的种类远不止这些，根据测量的目的和内容还可以设计出各种形式的题目。
不同形式的题目各有利弊。迄今为止，还没有一种题目能全面考察能力，学绩和人格的所有方面，这就要设计者根据不同情况，将各种形式互相配合，灵活掌握。运用之妙，存乎一心。如果墨守成规，就要事倍功半。题目形式是人创造出来的，只有敢于创新，才能使科学不断发展。　

第四章　心理测量的误差
前面我们已经讨论了什么是测验，以及如何编制测验，现在转入研究什么是一个好的测验。
无论何种测量工具，我们对它起码的要求是稳定，准确。用心理测量学的术语来说，就是要可信和有效。所谓可信是指多次测量的结果是一致的，所谓有效是指正确地测量了所要测的东西。信度是测量一致性程度的估计，效度是测量准确性程度的估计。
关于测量的信度和效度问题，下边有专章分别讨论。为了考察测量的信度和效度，首先要了解测量的误差。
第一节　什么是误差
一、误差的定义和种类
误差是在测量中与目的无关的变因所产生的不准确或不一致的效应。　　
这个定义包含两层意思，1）误差是由与测量目的无关的变因引起的，2）误差是不准确或不一致的测量结果。
定义的后一部分又从准确性和一致性两方面对误差做了区分。准确性与一致性的关系可以用射击靶环来说明。假设有A、B、C三支枪，对准靶面中心固定位置后各放9枪，所得结果如图4—1。

A枪弹着点十分分散，说明准确性和一致性都不好，B枪弹着点虽然比较集中，但偏离靶心，说明一致性好，准确性差：枪弹着点全部集中在靶心，说明一致性和准确性都好。
图4—1的A和B显示了两种主要的误差形式。　一种是随机误差，又叫可变误差，这是由与测量目的无关的偶然因素引起而又不易控制的误差，它使多次测量产生了不一致的结果。此种误差的方向和大小的变化完全是随机的，无规律可循。例如几个人用同杆秤称同一件东西，由于秤杆高低掌握的不同，所产生的不一致即属随机误差。另一种是系统误差，又叫常定误差，这是由与测量目的无关的变因引起的一种恒定而有规律的效应，稳定地存在于每一次测量中，此时测值虽然一致，但不正确。如有的奸商在秤盘或秤砣上搞鬼，一斤多（或少）一两，二斤多（或少）二两，这就是系统误差。可见，系统误差只影响测值的准确性，而随机误差既影响准确性又影响一致性。这就是说，系统误差只与效度有关，而随机误差与效度、信度都有关。
二、真分数
在测量理论中，真分数是个重要概念。所谓真分数就是一个测量工具在测量没有误差时，　所得到的纯正值。这实际上是个循环定义，因为一个量具若测得真值，便没有误差。真分数的操作定义是，经过无数次测量所得的平均值

《郑日昌心理测量学》

下载本书

郑日昌心理测量学- 第7部分