《國務院關于深化考試招生制度改革的實施意見》指出,啟動考試招生制度改革試點,2017年全面推進。2017年已至,對于新一輪高考改革,萬眾囑目。高考的重要性無論怎么說都不過分,所以國家、社會、學校、家庭和個人始終高度重視高考,對高考中的一些重要問題也倍加關注。比如,高考中通常把各學科原始分數簡單相加作為高考成績,如果在選考科目中采用標準分數制度,是否有助于實現擇優錄取的目的?筆者對此提出自己的看法,供大家討論。
高考原始計分的邏輯基礎
高考原始計分是將各學科原始分數直接相加所得結果,即通常意義上的高考成績,是我國現行高考制度最主要的一種計分方式。一般是各學科分別依據評分標準,判定每份試卷的原始分數。然后將每位考生各門學科的原始分數直接相加作為高考成績,是高校從高分到低分依次錄取學生的依據。
或許很少有人懷疑,把上述所得高考成績作為高校錄取依據的科學性、公正性與合理性。其實原始分數不僅意義不明確,比如,無法判斷96分是“好”還是“差”,它可能是考生團體的第一名,也可能是倒數第一,所以無法判斷它在團體中所處的位置是高還是低。而且,由于不同學科試題難度存在差異,會造成不同學科的單位分值不相等,甚至同一學科的每一分值一般也不相等。因而,將各學科原始分數簡單相加作為高考成績,如同把3個蘋果與4只梨相加,問等于多少?難以解釋。以這樣獲得的高考原始計分作為高校錄取依據的科學性令人質疑,擇優錄取的可能性也值得推敲。故有必要理清怎樣才算“優”,怎樣才能把真正的好學生選拔出來。
高考作為選拔性考試,具有鑒別功能。簡單說來,原始分數是把每位考生的答題情況與評分標準進行比較的結果,兩者越符合得分越高,否則越低。這樣各學科原始分數只代表每位考生答題情況與評分標準的符合程度。而高考作為選拔性考試,其擇優錄取的依據是建立在考生之間差異比較的基礎上的,所謂“優”實質上是指考生群體中排名靠前的那些學生。因而高考作為選拔性考試,特別強調考生之間差異的判別,這與新課程強調過程性評價、倡導發展性評價的理念并不矛盾。高考鑒別不同能力傾向、區別不同程度學生的功能,不僅依然存在,或許有必要進一步加強,以便最大限度地為每一個人提供最適合發展的機會,真正體現教育的公平與公正性。
高考標準計分的邏輯基礎
為滿足選拔性考試對考生比較的目的,在關注個別考生成績的同時,有必要進一步考查每門學科考生成績的排序或分布情況。不過由于原始分數不等值,直接把各門原始分數相加后,按總原始分數從高到低進行排序(如通常所做的那樣),也顯然不具備科學基礎。
高考成績的正態分布性質研究表明,人的能力包括記憶能力、推理能力、語言表達能力等,常常遵從正態分布。就是說,能力超強和極低的人都很少,能力中等的人最多。一般而言,當某個變量受許多個微小、相互獨立的因素影響時,往往表現為正態分布。比如,學生的品德或學習能力就受許多因素影響,如學生的智力水平、家庭狀況、個人努力程度、社會環境、班級風氣、校園文化風格、教師教學水平、教學方式方法等,都會影響學生的品德或學習能力。然而在這諸多因素中,沒有哪一個因素能對學生品德或學習能力起決定性作用,甚至每一個因素的影響可能都微不足道,但又不可缺少。這時學生的品德或學習能力就一般服從正態分布規律。自然,當試題能真實反映學生的實際狀況時,考試成績的分布也呈正態分布。這時分數極高和極低的都很少,中間的占據絕大多數。
高考分數呈正態或接近正態分布,對錄取工作的科學化、公平性至關重要。比如若題目太難,各種程度的考生都不會做,成績集中在低分端;或題目太簡單,考試成績集中在高分端。分布偏離正態、成績扎堆,使考生的實際水平難以被區分開來,錄取的公正性難以保證。
為了滿足高考這類選拔性考試對考生進行區分的要求,參閱《教育統計分析方法》,人們依據考生成績呈正態或接近正態分布的特點,將原始分數(用X表示)轉換為標準分(記為Z),兩者之間的關系為:Z=(X-μ)/σ。其中μ是某一學科的平均分,即通常意義上所說的平均成績;σ是標準差,代表該學科成績分布范圍的大小,越大成績分布范圍越廣,越小成績分布范圍越窄。根據《教育統計分析方法》所附的正態分布表,每一個標準Z分數與它在團體中所占的位置或比率具有一一對應關系。當成績分布呈正態時,在Z=-3(比平均分低3個標準差)到Z=3(比平均分高3個標準差)之間就包含了全部考生的99.73%。這意味著,成績正態分布時,無論是比平均分低3個標準差還是高3個標準差,都很少見。
考慮到標準分Z不僅有正有負,而且不符合人們計分習慣,于是在標準分數Z的基礎上,利用Z'=αZ+β(α、β均為常數)的線性變換,演化出多種形式的標準分數。最早使用較多的標準T分數,定義為:T=10Z+50。這樣不僅能避免負分數情況,也能大致符合人們百分制的計分習慣。我國現行標準分制度規定:T=100Z+500,T的取值范圍為100?900,超出者分別以100和900計。分析標準分的特點,當Z=1時,代表成績高于平均分1個標準差;Z=2,則代表成績高于平均分2個標準差……說明標準分具有等距性質,而且各門學科都有相等的含義,能直接相加(或者依照不同學科在高考中的權重做加權平均)作為高考總成績,從而在根本上解決了原始分數不能直接相加減的問題。同時標準分還能準確刻畫成績在團體中的位次,比如Z=2,表明比該考生成績高的人數不足全體考生的2.3%,這顯然是一個排名很靠前、很好的成績。可見,基于各門學科考生成績的排序或分布狀況,將原始分轉化為標準分,消除了原有各個學科的量綱,體現了學生在群體中的相對位置,標準分數均以標準差為單位,將不同學科的分數統一到一個單位上來,從而實現可以直接相加的功能,而且每一個考生的標準分都能準確表征該考生成績在團體中的位次,即能準確反映成績的好與差,從而為擇優錄取提供了科學、公正的依據。
高考原始分數與標準分數的比較
綜上所述,按照標準分錄取時,能真正達到擇優錄取、分類錄取的目的,充分實現高考錄取工作科學、公平、公正的要求。實踐表明,按照原始分和標準分兩種方式進行錄取,確實會產生不同結果。
例如,甲、乙兩名考生在某選拔性考試中,各學科成績如圖表所示。若以原始分數作為錄取依據,當錄取分數線是300分或者兩名考生中只能有一人被錄取時,應錄取甲生(306分),而乙生(297分)落選。但將甲乙兩名考生各科考試的原始分數轉化成標準分以后,則錄取結果恰好相反。
這其實不難理解。第一,原始分數的每一單位,不僅不同學科不相等,甚至同一學科的每一分值也并不相等。因此,直接將原始分數相加缺乏科學的依據。第二,原始分數不能體現它在考分總體中的位次,但標準分恰好能反映這一點。如,甲生英語成績的標準分為0.40,意味著比甲生的英語成績高的考生占34.46%;而乙生英語成績的標準分為2.20,說明比這一分數高的考生僅占1.39%。可見,標準分正是通過每個考分在全體考分中的位次來表征優劣,故又稱為相對分數。
早在1994年,國家教委辦公廳針對各科命題難度不同,導致各科原始分數之間不能直接比較,造成分數解釋上的困難等問題,發布了《普通高等學校招生全國統一考試建立標準分數制度實施方案》,到1997年陸續推廣到海南、河南、陜西、廣東、山東、福建等省。2001年只有海南和廣東兩省堅持使用標準分。2002年教育部不再支持標準分試點。使用標準分,一方面對命題提出嚴峻挑戰,不僅題目偏難或偏易,都會出現偏離正態分布的情況,甚至標準差過大(成績分布范圍過大)或過小(成績分布范圍過小),也都可能使成績的分布偏離正態特性,使原始分數轉換為標準分數難以實現。另一方面,當人們不能準確理解標準分的含義時,也會對標準分的實施產生抵觸情緒。
我們在近期一項調查中發現,接受以往高中會考“要符合正態分布”的教師占到33.3%;認為標準分數與原始分數相比“沒有本質差別”的教師也有16.7%。這意味著,使人們深刻理解并廣泛接受標準分,可能還要經歷一個較長時期。