Тестові технології в освіті: Проблема якості тестів

 

Бахрушин В.Є., Горбань О.М.

Класичний приватний університет (м. Запоріжжя)

 

Вступ

Останнім часом тестові технології набувають все більшого розповсюдження в освіті. З 2008 р. в Україні запроваджено обов’язкове зовнішнє незалежне оцінювання знань випускників абітурієнтів вищих навчальних закладів. Багато університетів впроваджують у практику тестування як один з основних засобів проведення проміжного та підсумкового контролю знань студентів. З 2003 р. такі засоби активно впроваджує й Класичний приватний університет. На сьогодні тільки на тестовому порталі КПУ розміщено тести підсумкового контролю знань з понад 900 різних навчальних дисциплін. Велику кількість тестів підсумкового та проміжного контролю розміщено також на сайті підтримки навчальних програм КПУ.

Спочатку складалося враження, що тестові технології допоможуть вирішити якщо не всі, то принаймні значну частку проблем, пов’язаних з якістю освіти, об’єктивністю оцінювання, корупцією тощо. Але згодом стає зрозумілішим, що, як і будь-який інший інструмент, вони мають свою обмежену сферу застосування, мають як певні переваги перед іншими засобами контролю, так і істотні недоліки.

Метою цієї статті є аналіз деяких проблем, пов’язаних із застосуванням тестових технологій в освіті, насамперед проблем розробки й перевірки якості освітніх тестів.

 

1. Передумови застосування тестових технологій

Історія освітнього тестування налічує вже кілька тисяч років [1, 2]. Тестові технології контролю знань використовували ще у давніх Китаї, Вавилоні й Греції.  Родоначальником сучасного тестування вважають відомого англійського вченого Френсиса Гальтона, а відлік освітнього тестування здійснюють від праць Альфреда Біне й Теодора Симона, які на замовлення Міністерства освіти Франції розробили тести для відбору учнів із затримками розвитку до спеціалізованих шкіл.

Основи теорії педагогічного тестування докладно викладено у працях В.С. Авансова [3], Л.Я Ащепкової [4], В.С. Кіма [2], М.Б. Челишкової [5], а також у багатьох публікаціях в журналах Вісник "Тестування і моніторинг в освіті", "Інформаційні технології в освіті", "Інформаційні технології і засоби навчання", "Педагогічні вимірювання" (Російська Федерація) та інших.

Існують різні визначення педагогічних тестів. Зокрема згідно з визначенням В.С. Авансова "Педагогічний тест – це система паралельних завдань зростаючої складності, специфічної форми, що дає змогу якісно й ефективно оцінювати рівень та структуру підготовленості учнів" [6]. "За визначенням В.С. Кіма [2] "Педагогічний тест це система тестових завдань різної складності, яка дає змогу якісно й ефективно вимірювати рівень та структуру підготовленості випробуваних".

З цих та інших визначень випливає, що педагогічний тест є певною моделлю знань, доповненою засобами встановлення відповідності знань конкретного випробуваного цієї моделі. Але будь-яка модель є цільовим, приблизним, неповним відображенням оригінала [7]. У випадку тестування неточність відображення серед інших чинників зумовлена статистичною природою методик визначення його результатів. Звідси ми маємо зробити такі висновки:

1.Для досягнення різних цілей потрібні різні тести.

2.Якісний тест має розроблятися згідно з певними правилами, що забезпечують його якість, зокрема передбачають перевірку цієї якості.

3.Навіть хороший тест дає результати, придатні для певного усередненого учня, але результати тестування окремих учнів можуть виявитися істотно помилковими.

Для перевірки якості тесту зазвичай використовують такі показники, як надійність й валідність [25].

Надійність тесту визначають як корельованість результатів, отриманих при декількох спробах тестування або при проходженні еквівалентних (паралельних) форм тесту, а також як корельованість результатів виконання різних частин тесту (у цьому випадку складність завдань має бути рівномірною). Її вважають достатньою, якщо відповідний показник є не меншим, ніж 0,8.

Валідність тесту визначають як відповідність його результатів незалежним оцінкам знань учнів (чи інших контрольованих властивостей).

Крім цього при розробці тестів необхідно визначати якість окремих завдань. Серед показників їхньої якості важливе місце займають:

-  рівень складності (pi), який визначають як середнє арифметичне балів, отриманих всіма учнями за відповідне завдання);

-  коефіцієнт кореляції (Ri), що показує, наскільки корелюють між собою успішність виконання цього завдання й підсумкові бали учня за весь тест;

-  коефіцієнт (індекс) дискримінації (Ii), який вказує на спроможність за результатами виконання цього завдання вирізняти групи учнів, що успішно й невдало виконали тест у цілому (найчастіше для його розрахунку беруть 1/3 кращих та 1/3 гірших за підсумковими результатами учнів).

Після визначення цих характеристик необхідно видалити тестові завдання, що є занадто складними (pi < 0,2) або надто легкими (pi > 0,9), а також завдання з низькими коефіцієнтами кореляції (різні автори пропонують брати порогове значення у межах 0,15 – 0,30). На нашу думку порогове значення 0,3 є більш обґрунтованим, оскільки відповідає загальноприйнятому у прикладній статистиці порогу значущості коефіцієнта кореляції [7]. Нижчі порогові значення зумовлені не стільки можливою значущістю відповідних завдань, скільки складністю підготовки якісного тесту. Складні завдання можна не видаляти. Але у цьому випадку кількість балів, що отримує учень за правильне виконання певного завдання, слід встановлювати з урахуванням його складності.

Необхідно зазначити, що при розробці освітніх тестів як на загальнодержавному рівні (тести ЗНО), так і на рівні окремих навчальних закладів вказані критерії якості тестів або не перевіряються взагалі, або за результатами їх перевірки не приймаються заходи з вдосконалення тестів. Зазвичай це пояснюють необхідністю дотримання режиму таємності (стосовно тестів ЗНО), нестачею часу та інших ресурсів. Але у цьому випадку постає питання про можливість і доцільність практичного використання результатів такого тестування.

 

2. Аналіз показників якості тестів ЗНО

У цьому розділі будуть розглянуті деякі результати ЗНО 2009 та 2010 р. Вихідні дані взято із офіційних звітів, опублікованих на сайті УЦОЯО (http://www.testportal.gov.ua). Ці тести взято для аналізу, виходячи із наявності офіційної статистики; великих обсягів вибірок, що підвищує достовірність статистичних показників; а також враховуючи, що наявність спеціалізованого центру тестування мала б забезпечувати дотримання науково обґрунтованої процедури розробки тестів.

Із зрозумілих причин валідність тестів ЗНО не визначалася. Але наявні у печаті відомості про слабку (на рівні 0,3 – 0,5) кореляцію результатів ЗНО з оцінками першокурсників є непрямим свідченням недосконалості відповідних тестів. Надійність тестів ЗНО оцінюється за допомогою коефіцієнта α-Кронбаха [8]. Для тестів ЗНО-2010 він коливається у межах 0,80 – 0,96. Значення, менші за 0,9, були отримані для таких тестів: Географія – 0, 80; Біологія – 0,81; Історія України (1 сесія) – 0,83; Історія України (2 сесія) – 0,84; Фізика – 0,86. Згідно із загальними вимогами теорії тестування цей показник має бути не меншим, ніж 0,7 – 0,9 [3 – 5] (різні автори дають різні порогові значення). Втім, слід зазначити, що згідно з результатами моделювання впливу розподілу відповідей на значення коефіцієнта α-Кронбаха, за певних умов воно може бути досить високим (0,95 – 0,98) навіть при високому рівні випадковості відповідей. Тому його високі значення не можуть вважатися достатньою умовою для висновку про якісність аналізованих тестів без врахування інших показників надійності. Але для тестів ЗНО такі дані відсутні.

Частка дуже складних і дуже легких завдань у тестах ЗНО-2010 коливається в межах від 7 до 23  %. При цьому найменшою (7 %) вона є для тесту з Історії України (1 сесія), а найбільшою (23 %) – для тесту з фізики. Найбільш складними є завдання з відкритою відповіддю з фізики й математики.

Слід зазначити, що висока частка "оптимальних" за складністю (з погляду авторів звіту) тестових завдань значною мірою зумовлена високою часткою завдань з вибором відповіді. Тому навіть у випадках, коли наведені дані свідчать про випадковий характер вибору відповіді на певне питання (частоти вибору є приблизно однаковими для всіх відповідей), це питання зазвичай потрапляє до "оптимальних". Така помилка зумовлена тим, що автори тестів та звіту не здійснюють передбаченого теорією тестування корегування результатів і оцінок на імовірність вгадування.

Як приклад можна навести частки вибору окремих варіантів при виконанні завдання 45 тесту з Історії України: Ліквідація раднаргоспів у другій половині 1960-х років призвела до: А) Розширення господарських прав республік – 30,33 %; Б) Посилення централізованості планування – 21,78 %; В) Ліквідації директивного планування – 20,22 %; Г) Утворення вільних економічних зон – 27,45 %. Тобто частка вибору тієї чи іншої відповіді коливається поблизу 25 %. Це свідчить про те, що частка абітурієнтів, які знали правильну відповідь на це питання, насправді є близькою до нуля. Частіше спостерігається дещо інша ситуація, коли частка абітурієнтів, що обирає правильну відповідь, є дещо більшою. Наприклад розподіл вибору відповідей на завдання 39 цього самого тесту є таким: 17,65; 11,45; 14,12 та 56,63 % (правильною є четверта відповідь). Але ми бачимо, що відсоток тих, хто обирає відповідь шляхом вгадування дорівнює близько 15 %. Тому насправді кількість тих, хто знав правильну відповідь у цьому завданні є істотно меншою, ніж 56,63 %, і знаходиться приблизно в межах 40 – 45 %.

Ще одним з важливих показників якості тестових завдань, як зазначалося вище, є коефіцієнт кореляції. Аналіз звітів показує, що серед завдань ЗНО 2009 та 2010 р. частка завдань з низькими (чи навіть від'ємними) значеннями коефіцієнта кореляції є досить високою.

 

Таблиця 1

Частка завдань, що мають коефіцієнт кореляції ri ≤ 0,3

 

Дисципліна

ЗНО-2009

ЗНО-2010

Українська мова та література

0,45

0,28

Математика

0,03

0,11

Історія України

0,59

0,77

Фізика

0,43

0,24

Хімія

0,25

0,27

Біологія

0,63

0,67

Географія

0,47

0,78

Англійська мова

0,38

0,37

Іспанська мова

0,22

0,12

Німецька мова

0,16

0,17

Французька мова

0,38

0,28

 

Дані табл. 1 дають вагомі підстави для сумнівів в адекватності результатів ЗНО 2009 та 2010 р., бо важко зрозуміти, що саме характеризує підсумковий бал тесту, який для деяких тестів (Історія України, Біологія, Географія-2010) не корелює з результатами виконання переважної більшості його окремих завдань.

Непрямим показником якості тесту також можна вважати характер розподілу підсумкових балів. Аналіз звітів про підсумки ЗНО, а також результати, наведені в [9, 10] свідчать, що розподіл первинних балів за різними дисциплінами є досить різнотипним. На рис. 1 наведено приклади гістограм розподілу підсумкових балів за деякими тестами ЗНО-2010.

 

а) Географія (98690)

б) Математика-1 (110759)

в) Англійська мова (86678)

г) Французька мова (1129)

Рис. 1. Приклади гістограм розподілу первинних балів тестів ЗНО-2010 (в дужках вказано кількість тестованих)

 

Характер розподілу залежить не тільки від якості самого тесту але й від об’єктивного розкиду рівня знань учнів. Але спосіб обробки результатів тестування має його враховувати. Крім того, методи оцінювання якості тестів у багатьох випадках базуються на певних припущеннях про вид розподілу (як правило вони передбачають нормальність, чи принаймні однорідність розподілу) і мають бути скореговані у випадках, коли ці припущення не виконуються.

На закінчення цього розділу хотілося б зазначити, що вказані недоліки властиві не тільки тестам ЗНО. Російський Єдиний державний екзамен випускників шкіл, багато українських вузів, що почали впроваджувати тестові технології контролю знань стикаються з тими самими проблемами [9 – 11]. Це, на нашу думку, є наслідком певної "хвороби зростання", яка полягає у переоцінці ролі тестових технологій та недооцінці необхідності дотримання існуючих вимог до розробки тестів.

 

3. Які проблеми вирішує тестування

До переваг тестування зазвичай зараховують таке [2 – 5]:

-         більша об'єктивність порівняно з іншими формами контролю;

-         більша справедливість;

-         більш повне охоплення всього навчального матеріалу;

-         більша точність оцінювання;

-         економічна ефективність;

-         порівняно малі витрати часу на контроль.

Втім, слід зазначити, що ці переваги існують лише при дотриманні технології розробки тестів.

Зокрема говорити про більшу об’єктивність і справедливість тестування можна лише за умови, якщо тест є валідним. Інакше ми можемо отримати заміну суб’єктивності оцінювання суб’єктивністю відбору тестових завдань і призначення балів за відповіді на них. Більш повне охоплення навчального матеріалу може виявитися підвищенням частки другорядних питань, які не відображають загальний рівень підготовки тестованих. На прикладі ЗНО це ілюструється великою кількістю питань, правильність відповідей на які не корелює з результатами виконання тесту у цілому.

Підвищення економічної ефективності та зниження витрат часу порівняно з іншими формами контролю відбуватиметься, якщо тест використовується для контролю великих за обсягом груп учнів. Бажано, щоб його можна було використовувати багаторазово, але для цього потрібно створювати еквівалентні за складністю варіанти завдань, а також використовувати більш різноманітні форми тестових завдань.

При обговоренні проблем ЗНО часто роблять акцент на тому, що воно дає змогу підвищити якість відбору абітурієнтів. Насправді це не так, що ілюструє табл. 2, з якої видно, що прохідний бал (124 за шкалою від 100 до 200 балів) не відповідає навіть оцінці FX за шкалою ECTS. Крім того, для окремих тестів є велика імовірність вгадування необхідної для отримання прохідного балу кількості відповідей. Втім, слід зазначити, що з цього погляду тести ЗНО-2010 є кращими, ніж у 2009 р.

 

Таблиця 2

Характеристика прохідних балів ЗНО

 

 

Дисципліна

Мінімальний прохідний бал (% від максимально можливого)

Імовірність вгадування, %

2009

2010

2009

2010

1

Українська мова та література-1

23

25

0

0

2

Математика-1

7

13

59

22

3

Історія України-1

22

23

9

3

4

Хімія

19

21

0

0

5

Фізика

12

13

62

44

6

Географія

24

26

0

0

7

Біологія

24

25

2

1

8

Англійська мова

20

12

0

0

9

Німецька мова

18

10

0

0

10

Французька мова

18

14

15

1

11

Іспанська мова

18

13

0

0

 

Крім переваг, тестування як форма контролю має також і певні недоліки. До них зазвичай [2 – 5] зараховують таке:

-         тривалість, трудомісткість, висока собівартість розробки;

-         звичайний тест не виявляє причин незадовільних відповідей студентів;

-         тестування не дає змоги перевіряти рівні знань, що пов'язані із творчістю, глибоким аналізом проблем тощо;

-         результати тестування містять випадкову складову.

Слід зазначити, що деякі з недоліків і проблем можуть бути усунені шляхом застосування нетрадиційних форм тестових завдань і вдосконалення методик обробки результатів тестування.

Зокрема автори [12] пропонують додати до традиційних такі форми тестів:

-        Завдання з числовою відповіддю, де бали призначають з урахуванням відхилення від правильної відповіді. Їх перевагою є те, що кількість однотипних варіантів завдань однакової складності у цьому випадку може бути досить великою (іноді нескінченно великою). При цьому перевіряється не спроможність учня запам’ятовувати правильні відповіді, а його спроможність користуватися алгоритмами розв’язування певних типів задач;

-        Завдання з двоїстою відповіддю, що видаються послідовно, й обмеженим часом на кожну відповідь (різновид завдань з вибором).

-        Завдання із словесною відповіддю, які оцінюють за коефіцієнтом кореляції з правильною відповіддю (різновид відкритої форми завдань).

-        Завдання з вибором, де всі відповіді є правильними але мають різний ступень повноти (відповідно, за різні відповіді призначається різна кількість балів).

Іншим напрямом вдосконалення тестових технологій є вдосконалення методів обробки результатів тестування. Зокрема в [13] розглянуто окремі алгоритми, що дають змогу автоматично встановлювати підсумкові результати тестування на основі аналізу емпіричних функцій їх розподілу, або за результатами порівняння відповідей випробуваних з певними "еталонними" відповідями, а також методи автоматизованого призначення балів за виконання окремих завдань з урахуванням відсотка випробуваних, що впоралися з ними.

 

Висновки

Тестові технології мають певні переваги перед традиційними методами контролю знань. Але вони також мають певні недоліки й потребують обережності при практичному застосуванні. До основних проблем застосування тестових технологій належить необхідність виконання існуючих вимог до розробки тестів, зокрема:

-        врахування впливу цільового призначення тесту на вибір його структури та змісту, а також алгоритму обробки результатів;

-        дотримання процедур визначення показників якості тесту у цілому й окремих тестових завдань, зокрема використання контрольних груп й корегування тестів з урахуванням показників якості;

-        вибір методів призначення балів за правильні відповіді тощо.

Іншою проблемою є обґрунтування коректності перенесення результатів тестування, що є правильними "у середньому", на кожного конкретного випробуваного, визначення довірчих інтервалів одержуваних результатів, імовірностей похибок тощо.

Особливої уваги потребують тести ЗНО, які є обличчям системи освітнього тестування у цілому, а їх якість істотно впливає на якість відбору студентів українських університетів та долю кожного абітурієнта.

 

Перелік джерел

1. Кадневский В.М. История тестов. – М.: Народное образование, 2004. – 464 с.

2. Ким В.С. Тестирование учебных достижений. – Уссурийск:
Издательство УГПИ, 2007. – 214 с.

3. Аванесов В.С. Композиция тестовых заданий. – М.: Центр тестирования, 2002. – 240 с.

4. Ащепкова Л.Я. Конструирование тестовых заданий и обработка результатов тестирования. – Владивосток: ДГУ, 2003. – 50 с.

5. Челышкова М.Б. Теория и практика конструирования педагогических тестов: Учебное пособие. – М.: Логос, 2002. – 432 с.

6. Аванесов В.С. Форма тестовых заданий. – М.: Центр тестирования, 2005. – 156 с.

7. Бахрушин В.Є. Математичні основи моделювання систем. – Запоріжжя: КПУ, 2009. – 224 с.

8. Дубина И.Н. Математические основы эмпирических социально-экономических исследований. – Барнаул: Изд-во Алт. ун-та, 2006. – 263 с.

9. Бахрушин В.Е., Журавель С.В., Игнахина М.А. Эмпирические функции распределения результатов тестирования выпускников школ // Управляющие системы и машины. – 2009. – № 2. – С. 8284.

10. Бахрушин В.Е., Игнахина М.А., Шумада Р.Я. Эмпирические функции распределения результатов тестирования // Збірник праць III Міжнародної конференції "Нові інформаційні технології в освіті для всіх: система електронної освіти" / Ред. В. Гриценко. – К.: МННЦ ІТС, 2008. – С. 79 - 84.

11. Петрів В.Ф., Рикалюк Р.Є. Візуалізація критеріїв якості тестових завдань // Матеріали XVI Всеукраїнської наукової конференції "Сучасні проблеми прикладної математики та інформатики". 8 – 9 жовтня 2009 р. – Львів: ЛНУ, 2009. – С. 166 – 169.

12. Оганесян А.Г., Дещинский Ю.Л., Бирюлев К.Ю. Тестирование или экзамен на компьютере? // Образовательные технологии и общество. – 2010. – Т. 13, № 1. – С. 1 – 17. http://ifets.ieee.org/russian/depository/v13_i1/html/1.htm

13. Бахрушин В.Е., Журавель С.В., Игнахина М.А. Автоматизация определения результатов тестирования // Управляющие системы и машины. – 2010. – № 2. – С. 10 – 12.