П’ятниця, 18 Липня

ChatGPT та інші моделі ШІ не змогли скласти українське ЗНО: результати дослідження

Підписуйтеся на наш канал в Telegram та сторінку в Instagram

Українські дослідники протестували найпопулярніші моделі штучного інтелекту (ШІ) за завданнями ЗНО, але набрати понад 70% правильних відповідей не змогла жодна з них. Про це повідомляє медіа dev.ua з посиланням на дослідження, пише ZAXID.NET.

Розробники представили ZNOVision – це перший багатоформатний тест, який перевіряє можливості штучного інтелекту працювати з українською мовою, освітнім контентом і національною культурою.

ZNOVision складається з понад 4300 завдань, поділених на 13 категорій: від фізики та математики до історії й літератури. Понад половина завдань містить візуальний компонент – схеми, діаграми, карти, малюнки.

До тестування залучили шість основних моделей ШІ:

  • GPT4o;
  • Claude 3.5 Sonnet;
  • Gemini 1.5 Pro;
  • Qwen2VL72B;
  • Paligemma3B;
  • Версію PaligemmaFT.

Для обробки запитань та розгортання моделей команда використала хмарну інфраструктуру De Novo, яка надала доступ до GPU кластерів у приватній хмарі, сертифікованій за державними вимогами КСЗІ.

Жодна з моделей не набрала 70 % правильних відповідей.

Найкращий результат:

  • Gemini Pro – 67,5%;
  • Claude 3.5 – 64,3%;
  • Qwen2VL – 51,2%;
  • GPT4o – 47 %.

Для порівняння, випадковий вибір дав би 22%. Помилки найчастіше траплялись у складних візуально-текстових завданнях: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання.

У наборі VQAUA (візуальні запитання) моделі показали такі результати: Claude – 26,7%, GPT4o – 29%, Qwen2VL – 34,4%. Це значно нижче англомовних результатів (> 60 %) й свідчить про відсутність підтримки української мови на рівні мультимодальних представлень.