Hvordan kan vi lage gode eksamener?
Stefan Schauber
Centre for Educational Measurement (CEMO) &
Helsevitenskapelig utdanningssenter
1 / 33
«Nøyaktighet og presisjon»
Presisjon
«Presisjon, i vitenskapen betegnelse for i hvilken grad en serie gjentatte målinger av det samme forholdet samler seg rundt samme verdi. Målingen har stor presisjonnår man gang etter gang treffer samme verdi. Det er viktig å merke seg at dette ikke betyr at man treffer den sanne verdien.»
(https://sml.snl.no/presisjon)
3 / 33
Nøyaktighet
«Nøyaktighet, i hvilken grad en måling eller en serie målinger gir uttrykk for den egentlig sanne verdien av det fenomenet man ønsker å vite noe om.
Målingen har stor nøyaktighet når man er i stand tilå treffe nær den sanne verdien» (https://sml.snl.no/nøyaktighet)
Presisjon uten nøyaktighet
5 / 33
Nøyaktig, ikke presis
Presis og nøyaktig
7 / 33
Måling av overvekt/fedme, midjemål
Relativ risiko for diabetes type 2, høyt blodtrykk og hjerte- og karsykdom i forhold til måling av KMI og livvidde:
♂ ♂
KMI midjemål<102 midjemål≥102
Undervekt 18,5 Ikke økt Ikke økt
Normalvekt 18,5-24,9 Ikke økt Noe økt
Overvekt 25,0-29,9 Noe økt Høyt
Fedme grad I 30,0-34,9 Høyt Veldig høyt
Fedme grad II 35,0-39,9 Veldig høyt Ekstremt høyt Fedme grad III ≥40 Ekstremt høyt Ekstremt høyt
(Siteret frahttps://sml.snl.no/overvekt)
Eksempel: KMI 24,9 og midjemål 101,9 cm
Relativ risiko for diabetes type 2, høyt blodtrykk og hjerte- og karsykdom i forhold til måling av KMI og livvidde:
♂ ♂
KMI midjemål<102 midjemål≥102
Undervekt 18,5 Ikke økt Ikke økt
Normalvekt 18,5-24,9 Ikke økt Noe økt
Overvekt 25,0-29,9 Noe økt Høyt
Fedme grad I 30,0-34,9 Høyt Veldig høyt
Fedme grad II 35,0-39,9 Veldig høyt Ekstremt høyt Fedme grad III ≥40 Ekstremt høyt Ekstremt høyt
(Siteret frahttps://sml.snl.no/overvekt)
Måling i en medisinske kontekst.
9 / 33
Eksempel: KMI 25,1 og midjemål 102,1 cm
Relativ risiko for diabetes type 2, høyt blodtrykk og hjerte- og karsykdom i forhold til måling av KMI og livvidde:
♂ ♂
KMI midjemål<102 midjemål≥102
Undervekt 18,5 Ikke økt Ikke økt
Normalvekt 18,5-24,9 Ikke økt Noe økt
Overvekt 25,0-29,9 Noe økt Høyt
Fedme grad I 30,0-34,9 Høyt Veldig høyt
Fedme grad II 35,0-39,9 Veldig høyt Ekstremt høyt Fedme grad III ≥40 Ekstremt høyt Ekstremt høyt
(Siteret frahttps://sml.snl.no/overvekt)
Ikke økt Høyt
KMI: 20; Midjemål: 90
KMI: 28; Midjemål: 110
KMI: 24,9 Midjemål: 101
KMI: 25 Midjemål: 102
KMI * midjemål
Relativ Risiko
Måling i en medisinske kontekst.
11 / 33
Ikke økt Høyt
KMI: 20; Midjemål: 90
KMI: 28; Midjemål: 110
KMI: 24,9 Midjemål: 101
KMI: 25 Midjemål: 102
KMI * midjemål
Relativ Risiko
Presisjon av en eksamen:
Hvor sikker er pass/fail avgjørelser?
Presisjon eller «Reliabilitet»
13 / 33
Fire resultater, pass score er 65%
FAIL PASS
pass score (65%)
clear fail
clear pass
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Percentage Correct Score
Hvor sikker er vi at de strøk/bestod virkelig?
FAIL PASS
fail?
pass?
pass score (65%)
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Percentage Correct Score
Presisjon eller «Reliabilitet»
15 / 33
Usikkerheten ved «pass score»
FAIL PASS
fail?
pass?
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Percentage Correct Score
Hvor stor er (u)sikkerheten? En simulasjon med 50 spørsmål
20% correct;
100% confidence
62% correct;
25% confidence
68% correct;
47% confidence
98% correct;
100% confidence
95 % 90 % 80 % 0 %
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 Percentage Correct Score
Confidence for Dichotomous Decision
Presisjon eller «Reliabilitet»
17 / 33
Eksempel: MED4400 EKSAMEN
hele eksamen
60.2% − 70.1%
(90 % sikkerhet)
95 % 90 % 80 % 0 %
10 20 30 40 50 60 70 80 90
Percentage Correct Score
Confidence for Dichotomous Decision
Eksempel: MED4400 EKSAMEN
'Benefit of the doubt':
Alle består, som stryker ikke med en 90% sikkerhet hele
eksamen
95 % 90 % 80 % 0 %
10 20 30 40 50 60 70 80 90
Percentage Correct Score
Confidence for Dichotomous Decision
Presisjon eller «Reliabilitet»
19 / 33
Eksempel: MED4400 EKSAMEN
'Patient safety first':
Alle stryker som består ikke med en 90% sikkerhet hele
eksamen
95 % 90 % 80 % 0 %
10 20 30 40 50 60 70 80 90
Percentage Correct Score
Confidence for Dichotomous Decision
Eksempel: MED4400 EKSAMEN
'Kontinuasjon':
Vi trenger mer informasjon om disse studentene hele
eksamen
95 % 90 % 80 % 0 %
10 20 30 40 50 60 70 80 90
Percentage Correct Score
Confidence for Dichotomous Decision
Presisjon eller «Reliabilitet»
21 / 33
Presisjon og «indre skranker»
hele eksamen
60.2% − 70.1%
(90 % sikkerhet)
nevrologi
55.2% − 75%
(90 % sikkerhet)
ønh
54.6% − 77.8%
(90 % sikkerhet)
øye
56.9% − 74.1%
(90 % sikkerhet)
95 % 90 % 80 % 0 %
10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 Percentage Correct Score
Confidence for Dichotomous Decision
Presisjon og «indre skranker»
hele eksamen
nevrologi ønh øye
95 % 90 % 80 % 0 %
10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 Percentage Correct Score
Confidence for Dichotomous Decision
Klarte hele eksamen men stryker i (minst) et delfag
Presisjon eller «Reliabilitet»
23 / 33
Presisjon og «indre skranker»
90.7% correct 100% confidence
hele eksamen
83.3% correct 100% confidence
nevrologi
64.8% correct 11% confidence
ønh
94.3% correct 100% confidence
øye
95 % 90 % 80 % 0 %
10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 Percentage Correct Score
Confidence for Dichotomous Decision
Beste som klarte hele eksamen og stryker i (minst) et delfag
Presisjon og «indre skranker»
70.4% correct 93% confidence
hele eksamen
90.6% correct 100% confidence
nevrologi
56.5% correct 83% confidence
ønh
75.9% correct 95% confidence
øye
95 % 90 % 80 % 0 %
10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 Percentage Correct Score
Confidence for Dichotomous Decision
Lavest score i et delfag
Presisjon eller «Reliabilitet»
25 / 33
Nøyaktighet og presisjon
av en gradert karakterskala
Presisjon: Samme problemet som før, men fem ganger...
Indifferensområde (50 spørsmål)
95 % 90 % 80 % 0 %
10 20 30 40 50 60 70 80 90
Percentage Correct Score
Confidence for Dichotomous Decision
Nøyaktighet 27 / 33
Jo flere spørsmål, jo høyre presisjon
Indifferensområde (100 spørsmål)
95 % 90 % 80 % 0 %
10 20 30 40 50 60 70 80 90
Percentage Correct Score
Confidence for Dichotomous Decision
Jo flere spørsmål, desto høyre presisjon
Indifferensområde (500 spørsmål)
95 % 90 % 80 % 0 %
10 20 30 40 50 60 70 80 90
Percentage Correct Score
Confidence for Dichotomous Decision
Nøyaktighet 29 / 33
Nøyaktigheit: «Blueprint» for (3 * 4 * 3 =) 36 spørsmål
...
...
...
...
Dia Nød
Ter Års ...
...
...
...
A
B
C n=3
n=3 n=3
n=3
«Kompetanse»
Sykdom
Informasjon fra forskjellige nivåer
(F. eks. basiskunnskap - viderekommende - fremragende)
Dia Nød
Ter Års ...
...
...
...
...
...
...
...
A ...
...
...
B ...
...
...
C ...
...
...
Bas ...
...
...
Vid ...
...
...
Fre
«Kompetanse»
Sykdom
Nivå
Nøyaktighet 31 / 33
Sammendrag
•
Presisjon: Hvordan skal man omgå med usikkerhet?
•
Nøyaktighet: Tilsvarer informasjoner man få til følgene man
trekker av målinger?
«Takk for oppmerksomheten»
Nøyaktighet 33 / 33