Wydrukuj tę stronę
26
marzec

Wskaźniki wykorzystywane w statystykach Państwowego Egzaminu Specjalizacyjnego.

Napisał: 
Dział: Specjalizacja

Od sesji wiosennej 2016 na stronach Centrum Egzaminów Medycznych w Łodzi wraz z wynikami zamieszczane są "statystyki egzaminu (przystępujący po raz pierwszy)". Poniżej przedstawię metodologię obliczania wskaźników wykorzystywanych do oceny trudności, mocy dyskryminacyjnej i rzetelności testu w danej sesji egzaminacyjnej oraz interpretacji ich wartości.

 

Wskaźnik  trudności  testu  jest  obliczany jako średnia wartość wskaźników trudności poszczególnych zadań. Wskaźnik trudności zadania jest obliczany wg wzoru:

Wskaźnik trudności zadania

gdzie n oznacza liczbę egzaminowanych w każdej ze skrajnych grup (skrajne  grupy  do 27% zdających z najlepszymi wynikami oraz 27% zdających z najgorszymi wynikami w całym  teście), Ns – liczba poprawnych odpowiedzi na analizowane  zadanie w grupie z najlepszymi wynikami, Ni – liczba poprawnych odpowiedzi na analizowane zadanie w grupie z najgorszymi wynikami.
Wskaźnik ten przyjmuje wartości od 0 (dla skrajnie trudnych zadań) do 1 (dla skrajnie łatwych zadań). Nie jest on tożsamy z procentem poprawnych odpowiedzi, gdyż nie uwzględnia odpowiedzi udzielonych przez zdających z przeciętnymi wynikami testu.

 

Wskaźnik mocy dyskryminacyjnej testu jest obliczany jako średnia wartość odpowiednich wskaźników dla poszczególnych zadań.  Wskaźnik mocy dyskryminacyjnej zadania natomiast jest obliczany wg wzoru:

Wskaźnik mocy dyskryminacyjnej zadania


gdzie n, Ns i Ni są zdefiniowane jak powyżej.
Wskaźnik ten przyjmuje wartości od -1 (dla skrajnie źle dyskryminujących zadań) do 1 (dla skrajnie dobrze dyskryminujących zadań). W praktyce ujemne wartości tego wskaźnika sugerują, że zadanie źle funkcjonowało w teście (np. gdy pogłębiona wiedza w danym przedmiocie paradoksalnie utrudnia wskazanie prawidłowej odpowiedzi).

 

Wskaźnik Kudera-Richardsona (KR20) jest obliczany wg wzoru:

Wskaźnik Kudera-Richardsona (KR20)


gdzie p  –  odsetek zdających, którzy odpowiedzieli poprawnie na dane zadanie, q – odsetek zdających, którzy odpowiedzieli niepoprawnie na dane zadanie (sumowanie przeprowadzane  jest  po  wszystkich  zadaniach  w  teście),
δ2  –  wariancja wyników całego testu,
– liczba zadań w teście.
Wskaźnik  KR20 oczywiście jest obliczany dla całego testu a nie poszczególnych zadań.
Jest on powszechnie stosowany jako miara rzetelności testu. Może być interpretowany jak współczynnik korelacji wskazujący na spójność w odpowiedziach na poszczególne zadania dla wszystkich egzaminowanych. W związku z tym jego wartość jest obniżana przez zadania o ujemnym wskaźniku mocy dyskryminacyjnej. 

Czytany 4411 razy
Oceń ten artykuł
(0 głosów)
Łukasz Dylewski

Dane kontaktowe

  • Miejscowość
    Warszawa

Profile społecznościowe

Zaloguj się, by skomentować