Tvorba a hodnocení kvality multiple-choice testů

Obsah

1. Úvod
2. Testování
3. Praktické rady a postupy
   3.1. Ostatní druhy testů
   3.2. Multiple-choice testy
       3.2.1. Doporučení pro psaní otázek
       3.2.2. Doporučení pro psaní distraktorů
4. Analýza testových položek
5. Hodnocení
6. Srovnání se zahraničím
7. Použitá literatura

Přednášku, kterou jsem na toto téma přednášel na XXXV. konferenci studentských prací na LF UP, si můžete sthnout ve formátu PowerPoint tady (ppt, 87 kB).

1. Úvod

Nejdříve pár slov o tom, proč jsme se rozhodli vytvořit tento dokument a co si od toho slibujeme.

Mezi studenty naší fakulty, a obzvláště mezi studenty vyšších ročníků, panuje obecně sdílená pochybnost o kvalitě multiple choice testů, pomocí kterých jsou měřeny naše znalosti. Situace se stala obzvláště demotivující poté, co se jedna z našich zkoušek stala celá multiple-choice testem. Protože by bylo příliš jednoduché jen tak něco kritizovat bez toho, že bychom měli aspoň základní vhled do problematiky, vznikl tento dokument a přednáška na konferenci studentských prací.
Účelem této práce není duplikovat materiál, kterého bylo na toto téma publikováno velké množství, pan profesor Komenda se problematice podrobně věnuje. Účelem bylo upozornit na tento problém (přednáška) a zkusit podat určitý laický pohled na základní metody. Upozornit na to, že testováním se zabývá celý obor statistiky, že udělat dobrý a fungující test není tak triviální, jak by se mohlo zdát, a konečně, že na naší fakultě máme odborníka na slovo vzatého (již zmíněný prof. Komenda).

Má práce má několik hlavních částí - nejdříve je stručný úvod do testování, který opět přibližuje naši motivaci a cíle. Následuje část podávající přehled praktických rad a metod, které je dobré dodržovat při tvorbě otázek a odpovědí pro multiple choice testy. Poté se budu snažit podat stručný a jednoduchý přehled těch nejjednodušších a nejsnazších metod, které může každý použít na ověření aspoň základní funkčnosti testu, který vytvořil. Závěrem je velice stručný přehled a srovnání s universitami v zahraničí.

Tento dokument vznikl v rámci práce Sekce pro medicínské vzdělávání při Spolku mediků LF UP.

2. Testování

Testování znalostí studentů, stejně jako každé jiné měření, by mělo splňovat aspoň základní požadavky na

objektivitu - nezávislost výsledků měření na osobě měřícího;
spolehlivost - reprodukovatelnost a konzistence výsledků;
validitu - protože měření znalostí studenta musí být vždy indukční (z části usuzujeme na celek), měli bychom si být co nejvíce jisti, že test opravdu měří to, co chceme měřit (tedy odborné znalosti a nikoliv schopnost porozumět složitému souvětí).

Celou situaci lze hezky demonstrovat na následujícím schématu (obr. 1). Plné šipky reprezentují vzájemný vztah, přerušované zpětnou vazbu. Pokud existuje vztah, kde student je vyučován pedagogem, vstupuje do něj test jako nástroj měření úspěšnosti tohoto vztahu. Test dává zpětnou vazbu jak studentovi (kolik se toho naučil), tak pedagogovi (kolik toho studenta naučil a jak dobře ho motivoval). V našem případě pak často učitel vystupuje v této situaci ještě v jednom vztah, a sice jako autor použitého testu. Proto by ani v této souvislosti neměla chybět zpětná vazba.
Zpetne vazby - obr. 1

Nyní mi dovolte malé přirovnání. Představte si na schématu místo studenta pacienta a místo učitele lékaře. Místo zkouškového testu si pak můžeme představit jakýkoliv diagnostický test. Pokud by i zde lékař (učitel) vystupoval jako autor testu, jistě by cítil nutnost mít onu zpětnou vazbu. U diagnostické metody je možné srovnání se nějakým zlatným standardem, řekněme s CT. Lékař si vymyslí novou metodu, zkontroluje ji proti výsledkům z CT, zjistí, že funguje a může ji bez obav používat. Jenže u zkouškového testu žádná takto snadná možnost ověření není. CT ani MRI nám bohužel (bohudík) znalosti studenta nezobrazí. Přesto nelze na zpětnou vazbu rezignovat. Zde nastupují metody edukometrie, speciálního statistického oboru, který se zabývá testováním testů. Rád bych na tomto místě citoval pana profesora Komendu, který ve své publikaci Pravděpodobností rozdělení entropie (1), pokládá otázku, která celý problém pěkně vystihuje. A sice: "Umíme změřit, jak umíme změřit, co umíme?" Na první pohled snad hraní se slovíčky, ve skutečnosti krásné shrnutí celého problému.

Jeden z kořenů problémů může být v tom, že u nás na rozdíl od zemí na západ od nás nemá písemné objektivní testování tradici, jak mi bylo vysvětleno, snad i z ideologických důvodů. Měl jsem to štěstí, že jsem měl možnost studovat na třech zahraničních školách, a všude, kde jsem zmínil, že u nás je větší část zkoušky orální test, setkal jsem se s nevěřícným úžasem. Nikdo mi nechtěl věřit, že přednosta ústavu opravdu vyzkouší sto padesát lidí.
Abych opět citoval prof. Komendu: "Hlavním důvodem, proč se učitel vyhýbá objektivním testům, je ovšem nezvyk, vliv tradice, v níž byl vzděláván, a požadavek na osvojení si nových metod a postupů." (2)

3. Praktické rady a postupy

3.1. Ostatní druhy testů

Ačkoliv existuje několik základních typů psaných objektivních testů, budu se z větší části věnovat multiple-choice (MP) testům. MP testy mají oproti jiným některé výhody, především však tvoří drtivou většinu testů, jimiž jsme na této škole testováni.

K ostatním tedy jen krátce:

krátké odpovědi či eseje - umožňují testovat znalosti a pochopení problematiky, schopnost vytvořit odpověď je vyšší než pouhé rozeznání správné odpovědi. Nevýhodou je náročnost na opravování, nejednoznačnost správnosti odpovědi, test navíc musí opravovat odborník.

Další základní typy testů jsou testy s možností volby, německy "Test mit gebundener Aufgabeantwortung", finsky "monivalintakoe".

testy Ano/Ne - položky testu Ano/Ne je snadné tvořit, nicméně mají tendenci testovat spíše detaily, triviality a holé fakty. Při kvalitní tvorbě otázek je však přesto možné vytvořit test testující i hlubší znalosti a pochopení, který se kvalitou vyrovná multiple-choice testům.
přiřazování - způsob, kdy se termínům z jedné skupiny přiřazují odpovídající termíny z druhé skupiny umožňuje s relativně malým množstvím nabízených položek vytvořit velké množství možných kombinací a tak snížit riziko uhodnutí odpovědi. Může se však stát příliš nepřehledným.
multiple-choice testy - těmto testům bude věnována celá další část

3.2. Multiple-choice testy

Multiple choice testy jsou výhodné v tom, že při kvalitní formulaci položek testu dokáží i při poměrně malém počtu otázek kvalitně, objektivně a standardně měřit znalosti studentů.

Nejdříve něco k terminologii: otázkou se v následujícím textu rozumí položka testu (i když to gramaticky vzato nemusí být otázka). Otázka se skládá z kmene (stem), což je buď tázací věta, neúplné tvrzení nebo úloha. Za ní následují nabízené odpovědi, z nichž jedna je správná a ostatní jsou nesprávné (distraktory). Testy s více možnými správnými odpověďmi jsou ve skutečnosti formou Ano/Ne testu (zatímco pokud by taková otázka byla zadána opravdu jako Ano/Ne, byla by hodnocena každá položka zvlášť, při takovéto "falešné" multiple-choice otázce je hodnocení 1 bod za všechny správné a jinak 0 bodů).

Všechny testy s výběrem odpovědi vnášejí do testování možnost uhádnout správnou odpověď i bez znalosti daného tématu. Tu je nutno mít na paměti při tvorbě a vyhodnocování testů.

Při tvorbě testu je třeba se rozhodnout o

počtu otázek - tady neexistuje jednoznačná odpověď. Záleží na počtu nabízených odpovědí (čím více, tím méně stačí otázek), ale hlavně na kvalitě testu. Jak mi bylo řečeno, opravdu kvalitní test s 25 otázkami by stačil jako celá zkouška. Nekontrolovaný test s 25 otázkami naproti tomu dává takřka náhodné výsledky. Při rozumné kvalitě testů se jeví 100 otázek jako rozumná hodnota.
délka otázek a distraktorů - pravidlem je spíše volit formulaci tak, aby otázka byla delší a distraktory stručné. Zmenšuje se tím riziko, že otázka bude místo znalostí testovat schopnost studenta rozluštit čtyři dlouhá složená souvětí. Slova, která by se opakovala v každé odpovědi je dobré zařadit do otázky.
pozitivní či negativní formulace položek - opět je zde nebezpečí, že otázka nebude testovat to co má. "Chytáky" založené na gramatice nemají význam. Není účelem testovat, jestli je student dostatečně pozorný, aby odhalil, že otázka je ve skutečnosti negativní. Pokud je otázka negativní, mělo by to být dostatečně zdůrazněno a měla by být věnována pozornost tomu, aby dvojité a trojité zápory neznemožnily možnost správné odpovědi.
vše z nabízených / nic z nabízených - používat s rozvahou (viz níže).

3.2.1. Doporučení pro psaní otázek:

stručnost a jasnost: otázka má být jasná, nejasná, dvojznačná otázka mate dobrého studenta, ale špatného, který hádá, nepoškozuje. Otázka nemá být hádanka ani slovní hříčka.
používat jednoznačné termíny - slova jako "obvykle", "často", "skoro nikdy", "velký", "malý", … znehodnocují otázku.
uvést všechny relevantní údaje a pouze relevantní údaje
nevnášet falešné zdroje obtížnosti - test má testovat znalosti a porozumění tématu, nikoliv to, jestli si student všimne, že tlak krve je zadán v mm sádla a ne rtuti.
nechat položky ověřit expertízou - položky by měli být psané tak, aby se na nich odborníci bez pochybností a váhání shodli. Student nemá možnost řešit preference zkoušecího pro teorii B před teorií A.

3.2.2. Doporučení pro psaní distraktorů

co nejkratší - gramaticky jednoduché
jednoznačné - vyhýbat se neurčitým pojmům, dvojznačným formulacím
funkční - všechny položky by měly být pro studenta, který látku neovládá, stejně "lákavé"
počet distraktorů - čím více funkčních distraktorů, tím menší šance uhádnutí správné odpovědi. Nicméně funkčnost je nutná. Distraktor, který je zřetelně nesprávný je zbytečný. Není nutné mít v testu u všech otázek stejný počet nabízených odpovědí. Snaha přijít za každou cenu s dalším distraktorem je škodlivá, vytváří falešný pocit větší kvality testu (srovnání testů s různým počtem nabízených odpovědí viz níže).
nabízené odpovědi se nesmí překrývat nebo dokonce jedna obsahovat druhou.

Dále se vyhnout běžným chybám, které "test-wise" studentovi umožní napsat test i bez znalosti tématu, především

gramatická a stylistická jednota - správná odpověď je většinou formulována jako první a distraktory se vymýšlí až později. To může vést k tomu, že nesouhlasí v rodě, čísle…
používání "klíčových slov" - stejný pojem zopakovaný v otázce a jedné z odpovědí může prozradit správnou odpověď
délka - tak jako v autoškole bývá často nejdelší odpověď správná
chyby a překlepy - správná odpověď většinou neobsahuje chyby

4. Analýza testových položek

Výše uvedené rady a návody sice mohou pomoci tomu, že test bude kvalitnější, ale zpětnou vazbu poskytnout nedokáží. K tomu je potřeba mít výsledky testu od vzorku studentů a ty použít k analýze funkčnosti jednotlivých položek. Je to až překvapivě jednoduché.
Tři základní věci, které je možné sledovat u testových položek, jsou

procento správných odpovědí na otázku - na otázku by mělo správně odpovědět mezi 20 % a 80 % studentů. Jinak je otázka příliš lehká nebo obtížná. Test by měl obsahovat spektrum obtížností, aby i slabší student byl během testu motivovaný.
rozložení odpovědí mezi jednotlivé nabízené možnosti - pokud některá položka "získá" příliš málo hlasů, pravděpodobně je příliš "průhledná" a nefunguje.
korelace mezi vybráním dané možnosti a celkovým skóre v testu - udává pravděpodobnost, že student, který si vybral danou možnost si vedl dobře v testu. Mezi správnou odpovědí a skóre testu by tedy měla být pozitivní korelace a mezi distraktory a testem korelace negativní.

Dva příklady:

Otázka, bla bla blabla?	body	korelace
1) první distraktor	22 (11 %)		-	0,5
2) správná odpověď	90 (45 %)		+	0,7
3) druhý distraktor	40 (20 %)		-	0,5
4) třetí distraktor	38 (19 %)		-	0,4

U této otázky je vidět, že správnou odpověď vybralo 45 % studentů, je to tedy středně těžká otázka. Ti, kteří odpověděli špatně, se rozdělili relativně rovným dílem mezi nabízené distraktory. Ty tedy fungují. Navíc při výpočtu korelací je vidět, že studenti, kteří odpověděli na tuto otázku dobře, si vedli v testu dobře, zatímco ti, kteří na této otázce selhali, si vedli v testu hůř. Otázka tedy rozlišuje dobré a špatné studenty.

Druhý příklad:

Otázka, bla bla blabla?	body		korelace
1) první distraktor	54	(27 %)		+	0,3
2) správná odpověď	90	(45 %)		-	0,1
3) druhý distraktor	6	(3 %)		-	0,8
4) třetí distraktor	50	(25 %)		-	0,4

Na první pohled je tento případ podobný, jen tentokrát si druhý distraktor vybrala jen 3 % studentů. Je tedy zřejmé, že je příliš snadno rozpoznatelný (tomu odpovídá i vysoká záporná korelace), a proto nefunguje. Otázka tak má jen tři nabízené funkční možnosti a to snižuje její kvalitu. Co je horší, když se podíváme na korelace, zjistíme, že studenti, kteří odpověděli na tuto otázku dobře, si vedli špatně v testu a naopak. Je zřejmé, že otázka je špatně formulovaná nebo jiným způsobem zavádějící a jde proti smyslu testu. Dobří studenti na ní selhávají a ti špatní odpoví dobře.

Z toho je jednoznačně vidět užitečnost korelačních koeficientů. Nejedná se o žádná kouzla, vzorec pro základní bodový biseriální korelační koeficient je velice jednoduchý:

x jsou průměry skóre studentů, kteří si možnost vybrali/nevybrali, velká N jsou jejich počty a s je směrodatná odchylka skóre. Nic složitého.

Důležitost funkčnosti všech distraktorů pro změnu ilustruje následující graf (3):

Je vynesena účinnost testu (osa Y, čím méně, tím lépe) proti počtu otázek (osa X). Je vidět, že aby byl test s dvěma nabízenými odpověďmi stejně účinný jako test s pěti, musí mít místo nějakých 15 celých 45 otázek. Pokud by byl test s pěti nabízenými možnostmi, ale u každé otázky jeden distraktor nefungoval, může (hlavně při nízkém počtu otázek) účinnost testu klesnout třeba dvakrát.

5. Hodnocení

Maličko k hodnocení testů. Kromě absolutního skóre testu (třeba 50 bodů ze 60) je možné udávat výsledky studentů jako z-skóre. Je to vlastně skóre přepočítané jako vzdálenost od průměru vyjádřená v počtu standardních odchylek. Lépe vyjadřuje, jak si student vedl v porovnání s ostatními. Nicméně u testů zkouškových, takzvaných "criterion referenced" testů, je absolutní skóre dostatečné, protože se hodnotí zvládnutí látky, nikoliv porovnání s populací.

6. Srovnání se zahraničím

Na závěr bych si dovolil využít svých zkušeností a kontaktů ze zahraničí a podal bych stručný nástin toho, jak se věci mají jinde.

Anglie (Ardingly College a Stafforshire University) - ústní testování prakticky neexistuje. Většina velkých zkoušek je forma s volnou tvorbou odpovědí, často eseje. Otázky jsou strukturované tak, aby jedna otázka pokryla širší oblast problematiky. Například na Stafforshire University se zkouška skládala ze tří až pěti otázek, na vypracování bylo v průměru 90 - 120 minut. Zkoušku hodnotí vyučující, dva examinátoři ze školy a jeden externí. Výsledná známka je průměrem všech čtyř hodnocení.
Finsko (University of Turku) - stejně jako v Anglii ani Finové mi nevěřili, že se u nás zkouší ústně. Testy jsou buď multiple choice nebo eseje podobně jako v Anglii. Zkouška z interny, například, se skládá ze šesti esejí, každá z jednoho oboru. Otázky jsou opět pečlivě navrženy a strukturovány tak, aby měly co největší vypovídací hodnotu.
Holandsko - Holanďané používají takzvané "progress testing" jedná se o systém, kdy studenti medicíny píší každý rok všichni stejný test, nezávisle na ročníku. Ročníky se liší jen limitem, který musí splnit, zatímco prvnímu ročníku stačí 20 %, čím výše, tím vyšší skóre nutno dosáhnout. Absolvováním všech testů student získává titul. Test je tvořen 250 otázkami typu Ano/Ne, ty se vybírají z "poolu" 15 tisíc otázek. Každý ústav navrhne otázky ze svého oboru, ty projdou schválením komisí odborníku a potom jsou zařazeny do databáze. Otázka, která byla použita, se na 6 let vyřadí z cirkulace. Před vyhodnocením skóre testu se statisticky hodnotí všechny použité otázky, pokud některá nefunguje, není započítána do konečných výsledků.
Španělsko - velké využití multiple-choice testů, otázek je několik tisíc a jsou studentům předem k dispozici. Argument je, že i kdyby se je někdo naučil nazpaměť, naučil by se tak velkou část oboru.
Ve Francii je situace podobná, ale je tam i značný podíl ústního zkoušení, hlavně u vyšších ročníků.

Toto srovnání nemá ukázat na to, že se v Evropě nepoužívá ústní zkoušení. Školy tam převážně mají úplně jiný systém výuky, který umožňuje hodnocení studenta z mnoha různých "úhlů". Co by ukázat měl, je že tam, kde se testy používají, se jedná o testy profesionálně připravené a hodnocené. U nás bohužel není kvalita testu vždy ověřována. To není možná tak nezbytné u testů, které tvoří jen část zkoušky a jsou doplněny praktickou a ústní zkouškou. Ale pokud je zde viditelný posun posílení váhy testu pro výslednou známku, je nutné požadovat podobný posun i v kvalitě přípravy a hodnocení těchto testů. Test který nerozlišuje dobré a špatné studenty a jehož výsledek záleží více na náhodě než na studijním úsilí, je pro studenty extrémně demotivující a frustrující. Ostatně i já píšu tento text místo toho, abych se na jeden takový připravoval.

7. Použitá literatura

citace:
[1] S. Komenda, J. Mazuchová, Pravděpodobnostní rozdělení entropie, strana 6, Olomouc, 1995
[2] S. Komenda, J. Mazuchová, Pravděpodobnostní rozdělení entropie, strana 15, Olomouc, 1995
[3] S. Komenda, graf je překreslen pro větší názornost v barvě

zdroje:
[1] Purdue University, Statistical analysis of multiple choice exams, chemed.chem.purdue.edu, online, 1999
[2] S. Komenda, J. Zapletalová, Analýza didaktického testu, Olomouc, 1996,
[3] Stephen N. Elliott, Creating Meaningful Performance Assessments, ERIC Digest E531., online, 1995
[4] University of Tennessee at Chattanooga, Designing Test Questions, online, 2000
[5] Multiple choice questions, Knowledge design, Auburn University, online, 1999
[6] Writing Multiple Choice Items which Require Comprehension, Russell A. Dewey, PhD, online, 2000
[7] Konzultace
prof. RNDr. S. Komenda, DrSc. LF UP, Olomouc
prof. RNDr. J. Zvárová, DrSc. MFF UK, Praha

Zpět stránku přednášek

Jan Strojil, 22.2.2004