loading...
arrow_01

文东茅 鲍旭明 傅攸:等级赋分对高考区分度的影响

        —对浙江“九校联考”数据的模拟分析

(原文刊载:《中国高教研究》2015年第6期第17-21+72页)

作者简介:

文东茅:北京大学教育学院/教育经济研究所教授

鲍旭明:浙江省慈溪中学校长、中学高级教师

傅 攸:杭州新步伐教育科技有限公司CEO、博士

摘要:浙江、上海高考改革的重要内容之一是选考科目实行等级 赋分制,不少人担心这种计分方式将导致大量同分现象,影响高考招生的区分度。利用浙江省九所高中联考的数据,模拟出自选科目和等级赋分之后浙江和上海可能 出现的自选科目满分人数,并对等级赋分可能出现的问题和对策进行了讨论。

关键词:高考改革;等级赋分;区分度;政策模拟

一、问题的提出

2014年9月4日国务院颁布《关于深化招生考试制度改革的实施意见》之后,上海、浙江分别颁布了 本地的高考综合改革试点方案。两地试点方案的重要内容之一是高考科目由语文、数学、外语3门必考科目和另外3门选考科目构成,其中选考科目实行等级赋分 制。在上海方案中,选考科目为“6选3”,即在物理、化学、生物、政治、历史、地理6门课程中选择3门,每科成绩从40分开始赋分,3分一个等级,共11 个等级,满分70分。在浙江方案中,选考科目是“7选3”,比上海增加了技术科目,考试内容在学业水平考试之外设有加试题。2014年11月,浙江公布了 《浙江省普通高校招生选考科目考试实施办法》,规定各个等级赋分分值和分数比例,从40分至100分共21个等级,每个等级相差 3分,其中100、97、94、91、88分等几个高分等级的比例分别为1%、2%、3%、4%、5%。

对于选考科目等级赋分制,浙江省教育考试院在《试点方案解读》中给出的理由主要是:由于不同科目考 试内容和难度不同,不同科目的卷面得分缺乏可比性;按事先规定的比例和分值,相同等级分数相同,从而使不同科目实行等级分相对可比。对于“等级赋分是否会 导致同分人数过多”这一问题,《试点方案解读》中的回答是:“我省方案不会发生这个问题。试点方案考生成绩总分与现行高考‘3加综合’相同……选考科目分 值所占比例为高考总成绩的40%,且每科均设有加试题,并将等级细化赋分,提升了选考科目的区分度。”

尽管有官方的解释,但不少人还是对等级赋分表示出担忧,原因是高中学业水平考试本质上是水平性考 试,只具备部分选拔性功能,而且获得最高等级的群体比例过高,其区分度十分有限。不少考生和家长通过简单估算,认为在选考科目可以参加两次考试的情况下, 单科100分者将占考生数的约2%,如果某科目有20万人参加考试,满分者将接近4000人,3门选考科目都是满分的人也可能达到数千人。在此情况下,如 果仍然以分数作为招生录取的唯一依据,大学将不得不选择只按照语、数、外3门高考科目成绩来录取;由于不能有效区分学生理科或文科成绩,最终可能导致一些 重点高校减少在浙江的招生比例。这种观点影响广泛,也在一定程度上引起了考生和中学的恐慌。

那么,等级赋分制对高考成绩的区分度到底有何影响?比较有说服力的方式就是利用适当的数据进行模拟分析。本研究目的即在于此。

二、数据来源和模拟分析方法

(一)数据来源

本研究利用的是分布于浙江省九个地市的九所重点高中组成的“九校联盟”于2015年3月进行的一次 统一测试数据。参加本次考试的是各校2014年入学的所有高一学生,考试科目包括语文、数学、外语3门高考科目和物理、化学、政治、历史、地理等5门选考 课程(由于生物和技术课在部分中学的高一还没有开课,所以没有组织考试)。考试试卷由每所中学负责一门课程,由一到二位特级教师负责出卷,另请一位“九校 联盟”之外的有经验的特级教师进修审查、修改。判卷采用网上、密封、流水阅卷的方式完成。本次统考考生总人数为7350人,剔除缺考科目较多者之后,实际 用于统计分析的考生数为7298人。

(二)模拟分析过程和方法

1. 通过“5选3”为每位考生确定选考科目。利用计算机统计软件Excel和SPSS,对所有考生各科成绩进行排名,并对每位考生五科成绩的相对名次进行比 较,选出相对名次靠前的三科作为该考生的选考科目。“5选3”的具体办法如下:①给各科成绩排队,给出每一位同学每一科的成绩排名。②通过比较决定某一科 是否作为选考科目,以物理为例,用物理名次-化学名次,如果为负数则意味着物理名次更靠前,记为1;如果为正数则意味着名次较低,均记为0;当二者名次相 同(名次之差为0)时需要人工比较五科的相对位置,决定这两科是否同时入选或都不入选,或者随机选择一科入选。再用同样方法比较物理-政治、物理-历史、 物理-地理。将四次比较的结果加总,如果和大于等于2,则说明该同学的物理学科的排名至少要高于其他四科中的两科,应该在5选3中入选。③同样的道理,对 化学、政治、历史、地理进行比较,最终选出排名靠前的3科。

2.为每一位考生的选考科目进行等级赋分。具体过程如下:①通过各校网站找到2014年九所中学上 一本线的人数,再除以九所中学2014级学生数,由此计算出九所中学一本上线率平均为70.5%。②浙江2014年一本上线率为15.1%,同时浙江高考 改革方案规定选考科目前15%的学生被划为5等,比例分别为1%、2%、3%、4%、5%,赋分分别为100、97、94、91、88分。按此比例,将九 所中学学生中的前70%分为5个等级,每个等级的人数比例分别为4.67%、9.33%、14.0%、18.67%、23.33%,赋分分别为100、 97、94、91、88分,其他30%的学生在本次分析中都按照85分计算(由于本次模拟主要关注高分段同分情况,所以这部分学生的赋分误差不影响模拟的 准确性)。③计算出各科成绩的累计百分比,按照“最接近的累计比例”划分等级的原则划定各个分值对应的累计比例和原始分值。④根据原始分与等级分的转换关 系对每一位考生的每一科成绩进行等级赋分。

3. 统计第一轮考试之后学生的成绩状况。假设本次考试即为考生第一次参加选考科目的成绩,对各位考生三门选考科目成绩进行加总,统计300分、297分、294分等各个分数段的学生人数比例;同时统计“5选3”构成的10种科目组合的人数比例和高分段学生人数。

4.通过统计概率对考生第二次考试满分状况进行模拟。假定第一次考试获得满分者不参加第二次考试, 第二次考试的考生中每一科都将又有4.67%(在全省将是1%)的学生获得满分。理论上看,第一次考试中各个分数段的学生都有可能在第二次考试中得到 100分。如果100分者都由97分者中产生,则97分变为100分的概率为1/2;如果100分都由94分者产生,则94分变为100分的概率为1 /2*1/3=1/6,但100分的人数是确定不变的,因此不同分值变为100分的人数之间存在相互挤占关系。为分析简便,本研究的模拟分析中,只假设第 二轮考试的100分都由97分者中产生。从经验上看,在一所1000人的重点中学,学生等级分从94分及以下变为100分,意味着从280名之后直接跳到 47名之前,这种概率是比较小的。在本研究的模拟中,两科满分、单科97分者变为100分的概率为1/2;一科满分、两科97分者变为三科满分的概率为1 /2*1/2=1/4;三科都是97分者变为三科都为100分的概率为1/8。根据这种概率,估算第二次考试后选考科目获得300分的人数比例。

三、模拟结果

(一)学科选择及学科组合情况

根据排名优先原则为每位同学“5选3”之后,发现选择物理、化学、政治、历史、地理的学生人数分别 为4300~4400人左右,各科目的人数比例比较接近。当然,由于受考生兴趣爱好以及高校对选考科目要求的影响,实际上考生选择不同科目的人数比例并不 会如此整齐。某一科目选择的人数越少,该科目获得满分的人数就越少,相应地,与该科目有关的科目组合获得满分的人也更少。

通过“5选3”,可以形成10种科目组合,这些科目组合及其选择人数比例如下:①物理化学政治 12.4%;②物理化学历史9.4%;③物理化学地理12.7%;④物理政治历史7.9%;⑤物理政治地理7.2%;⑥物理历史地理9.3%;⑦化学政治 历史10.1%;⑧化学政治地理6.8%;⑨化学历史地理8.3%;⑩政治历史地理15.9%。可见,按照“排名优先”的逻辑,各个科目组合都有一定比例 的学生,但不同组合人数比例有一定的差别,传统上偏文科的政治历史地理组合的人数比例最高(不过也只占15.9%),其次是物理化学政治的组合比例,物理 政治地理的组合人数最少。如果生物列入选考科目,估计物理化学生物组合的考生比例也会相对较高。

(二)等级赋分情况

按照前面介绍的等级赋分方法,在本次模拟中,100、97、94、91、88、85及以下这几个分 值考生的累计百分比分别为4.67%、14.0%、28.0%、46.67%、70.0%、100%。不过在进行等级划分的模拟时,在几乎每一科目的每个 等级上都遇到了“归整困难”,即很少有一个分数正好处于某个累计百分比的位置上,有时甚至离规定的百分比还比较远。如地理100分的人数比例应该是 4.67%,而划到95分时累计百分比是3.4%,划到94分时的累计百分比又变为5.8%,按照“最接近的累计比例”原则,将线划为94分,即前 5.8%的人将被赋分为100分;在某些情况下,只有精确到小数点后若干位才能确定划线分数,如物理94分的累计百分比规定是28%,划到78分时,累计 百分比是26.515%,划到77分时累计百分比为29.486%,二者与28%的差距分别为1.485和1.486个百分点,最终选择划到78分。从表 1可以看出,几乎所有等级都需要按照“最接近”的原则取值,偏离预定值的幅度有时可以超过两个百分点,如化学和历史的94分段,累计百分比的取值分别为 25.6%和30.5%,与预定值28%分别差2.4和2.5个百分点。这将是等级赋分需要面对的常见问题。

表1 各科等级赋分比例及对应的原始分

(三)第一轮考试之后各科成绩统计

在完成“5选3”之后,假设考生选定的三科成绩即为选考科目第一次考试成绩。表2提供了不同学科获 得高分的人数统计,从中可以看出,各个学科100分的人数差别较大,从181人到256人不等。其原因在于各个学科赋予100分的比例不同,且选择各学科 的考生人数也不同。各科总计有1106个100分,1982个97分,分别占考试总门次(7298*3)的5.05%和9.05%,而不是预定的 4.67%和9.33%,这种差别也是由于按“最接近累计百分比”划线的误差造成的。

表2 第一次考试各科各分值人数统计

为考生的选考科目赋分之后,通过将三门科目成绩加总可以获得考生第一轮考试之后的总成绩。在此次模 拟中,三门选考科目总分最高为300分(即三科均为100分),最低为255分(即三科均为85分),在此之间每3分为一个分值,由此分出16个分值(在 浙江省的实际考试中,将会在120至300分之间分出61个分值)。表3列出了其中最高的4个分值的人数分布。从中可以看出,如果以此次统考作为第一轮学 考成绩,则仅有38人三科均为满分。另外有75人为297分(100+100+97),125人为294分,193人为291分。由此可见,如果只参加一 次考试,三科均为满分的人数比例很低,只占九所高中考生人数的0.5%。以此估算,在全省学生中第一次考试三科满分的只有约0.1%,按30万考生计算, 仅有约300人。

表3 不同科目组合人数及高分数人数分布

 

(四)对第二轮考试高分状况模拟

按照前文所述,假设第一轮考试之后,所有已经获得满分者均不参加该科目的第二轮考试,而且假设只有 97分者才可能考到100分。由此模拟第二轮考试之后获得满分的情况如下:①第一轮考试获得三科满分的38人。②第一轮获得297分者为75人,其中的 1/2变为三科满分,为38人。③第一轮294分者共125人,经统计,其中100+97+97组合者81人,两科97分均变为100分的概率为1/4, 则有20人变为300分。另外有44人为200+94组合,在本研究的模拟中暂不考虑其变为300分的情况。④第一轮291分者共173人,其中 97+97+97组合38人,三科都变为100分的概率为1/2*1/2*1/2=1/8,则38人中约有5人三科都变为100分。另外有13人为 200+91组合,122人为100+97+94组合,在本研究中不考虑其中三科都变为100分的可能性。⑤288分及以下者,至少有一科在94分以下, 所以在本此模拟中将忽略其中三科都变为100分的可能性。

根据上述统计,通过第二轮考试,两轮考试总分变为300分者为38+38+20+5=101人,占 考生总数(7298人)的1.38%。这就意味着在一所有1000名毕业生规模的九校联盟层次的重点中学,将只有14人可以获得三门选考科目满分;在 600名毕业生规模的联盟中学只有8人为满分。按照九校学生中满分比例是全省的4.67倍计算,则全省三科满分的比例为0.297%,以全省30万考生计 算,大约有889人可以获得三科满分。由此可见,在等级赋分之后,三科满分的人数比凭简单估算得出的“数千人”要少很多。

(五)对上海等级赋分方案的模拟

在本次高考综合改革试点中,上海方案选考科目也采用等级赋分制,不过与浙江方案有三方面的不同:① 只分11个等级,最低为40分,最高为70分;②除最高分和最低分的人数比例为5%,其他等级的人数比例均为10%;③选考科目只能参加一次考试。 2014年上海有约5.2万考生,“一本”上线率为21.92%。根据以上数据,利用本研究的方法模拟后发现,在“九校联盟”中选考科目获得满分210分 的将有278人,占全体考生的3.81%。“九校”一本上线率(约70%)是上海平均值(21.92%)的3.19倍,以此估算,上海考生中获得满分的比 例为1.19%,5.2万考生中获得满分人数约为620人。获得满分的人数比例也比凭简单估算所得出的“数千人”少很多。

四、对等级赋分相关问题的讨论

等级赋分是一种简化的标准分,它不仅可以有效解决两门及以上学科考试因为试题难度不一而导致的原始分不可比问题,在大规模考试中也可以有效解决同一科目多次考试成绩之间的可比性问题。然而,凡事总会利弊并存,对于等级赋分,也有不少问题需要进一步关注和讨论。

(一)关于同分人数过多问题

通过本研究的模拟,浙江选考科目有大约900人可获得三科满分;上海大约为600人。这些人的高考 成绩差距只能体现在语数外三科中。进一步的模拟发现,在“九校联盟”获得选考科目300分的101位同学(第二轮满分者在前文所述有可能获得三科满分者中 按相应概率选取)中,语数外三科成绩从239分到335分不等,其中分出了55个不同的分值,平均每个分值上同分的人数不到2人;总分前10名的学生分布 在8个分值上。按照上海方案模拟,在选考科目满分的278人中,语数外成绩从236~337分不等,共分为77个不同的分值。可见,在选考科目都是满分的 情况下,仍可通过语数外三科成绩体现考生成绩差异。

尽管选考科目满分者比估计的少,通过语数外成绩也有足够的区分度,但这并不能完全打消人们的质疑, 因为在此情况下各个专业(如物理学)招收的不是相关科目上有优势、有潜力的学生,而仅仅是语数外基础较好者。以对上海方案的模拟结果为例,“九校”学生在 模拟之后语数外和选考科目总分前15名的选考科目均为满分(210分),前50名中选考科目210、207、204分的人数分别为29、18、3。可见, 高分学生的成绩差异主要由语数外决定的现象确实存在。为此,笔者建议,可以在高考考完语数外之后进行一场加试,允许考生在选考科目获得满分(或放宽到97 分甚至94分)的科目中选择最多一门科目参加考试。该科成绩不计入总分,而是作为高校对考生进行综合素质评价的参考,或者部分替代高校自主招生的笔试,其 好处在于:①增加考分相同或相近时录取的依据;②避免高校各自为自主招生命题时可能出现的试卷质量参差不齐问题;③减轻学生负担,避免高考后为参加多所高 校自主招生笔试而疲于奔命;④可以提高学生学习的连贯性,避免某门课程考完之后长时间搁置而难以与大学学习衔接。如果没有增加加试,笔者也建议同时向高校 提供等级分和原始分(但不向学生提供原始分,原因随后分析),以增加分数的区分度和招生的依据。

(二)关于在等级赋分情况下是否要参加第二次考试问题

本研究的模拟,是假定第一次考试满分者将不参加第二次考试,而其他所有没有获得满分者都将参加第二 次考试。在实地调研访谈过程中,被访问的师生也都表示,只要第一次考试没有得到满分,第二次考试一定会选择参加,甚至已经获得满分者也有可能为了“占位” 也选择参加第二次考试。但实际上,应该清楚地意识到考生完全可以有另外的选择,即放弃某些科目的第二次考试,而集中精力学习语数外,通过提高语数外成绩来 弥补选考科目成绩的差距。语数外成绩的提高靠的是绝对分(原始分),可以做到“一份辛劳一份收获”;而选考科目分数的提高靠的是相对分(相对排名),在大 家都努力的情况下,完全有可能“劳而无获”。如果能够理性地认识到这一点,将会有大量考生、尤其是认为自己在第一次考试中已经发挥了水平的考生将会放弃第 二次考试(由此也会一定程度上减少选考科目满分者的比例)。而对于第一次考试已经是满分者,完全可以制定政策,禁止他们再参加第二次考试,以引导良好的竞 争文化。尤其需要进一步提醒考生的是,在综合评价录取(如浙江“三位一体”招生)模式中,考试成绩只是影响录取的依据之一,综合素质评价甚至可以成为影响 录取的决定性因素。因此,一定要进一步淡化对考分的追求,强化素质教育。

(三)关于等级赋分与原始分对不同考生的影响

长期以来,学生习惯于参考原始分来评判自己的学习状况和相对位次,等级赋分则可能在以下情况下导致 习惯于原始分的考生们“苦乐不均”:①等级赋分将会给予不同原始分相同的分值。例如,根据本研究的模拟数据,物理、政治、历史原始分90、91、92分及 以上者都将被赋分为100分,如果甲考生这三科考试原始分分别为90、91、92分,乙考生这三科原始分都为100分,等级赋分后两人的选考科目总分都是 300分,即通过等级赋分,乙同学原始分中27分的“优势”将消失。也就是说,等级赋分在一定程度上会影响学科特别拔尖者的相对优势。如果采用笔者前文提 出的加试一科的建议,则可以在一定程度上消除这种影响。②等级赋分将扩大或缩小同一科目原始分之间的差距。从表1可以看出,在物理科目中,每个等级之间的 原始分大约为5~7分;而在化学学科中,则为2~3分。在原始分的区分度(标准差)较大的情况下,等级赋分有可能缩小原始分的差距(如物理),原始分的区 分度较小的情况下,等级赋分则会扩大原始分的差距(如化学)。如何控制选考和学考科目的区分度,将会是考试机构必须面临的挑战。③在等级赋分体系下,对偏 科程度不同的考生影响不同。例如,甲同学物理、政治、地理原始分分别为100、91、89,则其等级分分别为100、100、94,三科原始分和等级分总 分分别为280和294;乙同学这三科成绩分别为90、88、94,则其等级分分别为100、97、100,二者原始分和等级分总分分别为272和 297,原始分更高的甲同学的等级分还更低了,其原因就在于该同学更偏科。鉴于以上情况,笔者认为,应该及早引导考生正确认识这种赋分方式不同带来的变 化;为避免对考生产生不必要的心理影响,建议不向考生公布选考科目的原始分。

最后需要说明的是,本研究的模拟可能有一定的局限性,其原因在于:①所利用的数据来源于九所特定高 中,尽管在各个等级的人数比例上根据经验数据进行了调整,但这种调整办法、尤其是各个分数等级的人数比例划定是否合理还有待进一步的检验;②本次模拟的数 据只是一次普通的统一测试数据,考试内容并没有体现选考科目70%学考模块加30%选考模块的要求,因而其区分度不一定能体现选考科目考试的要求;③本次 统考只考了物理等五门选考科目,缺少对生物和技术两门课程的测试,这对于考生的科目选择以及最后的模拟结果可能会有一定的影响;④本研究对第二次考试成绩 的模拟只是根据特定假设进行简单估算,这种估计与实际结果相比不免会有一定的出入。但即使如此,在极其缺乏数据模拟分析、考生和社会心存疑虑的情况下,笔 者仍然希望本研究能为未来考试结果的估计及相关决策提供一定的参考。