7.3 C
Cherkasy
П’ятниця, 13 Березня, 2026

Вчені створили найскладніший тест для ШІ – результати вражають

Популярне

Коли системи штучного інтелекту почали досягати надзвичайно високих результатів на давно використовуваних академічних тестах, дослідники помітили серйозну проблему: колись складні випробування перестали бути викликом для сучасних моделей. Відомі тести, такі як Massive Multitask Language Understanding (MMLU), які раніше вважалися вимогливими, більше не здатні адекватно оцінити можливості передових ШІ.

Щоб вирішити цю проблему, міжнародна група з майже тисячі вчених, серед яких професор з Texas A&M University, розробила новий тип випробування. Мета полягала у створенні екзамену, що поєднує широту знань, складність та глибину, засновану на експертних людських знаннях, з якими сучасні ШІ все ще справляються важко.

Результатом став “Останній екзамен людства” (Humanity’s Last Exam, HLE) — тест із 2500 питань, який охоплює математику, гуманітарні науки, природничі науки, давні мови та широкий спектр спеціалізованих академічних дисциплін. Деталі проєкту опубліковані у Nature, а додаткова інформація доступна на сайті lastexam.ai.

Серед багатьох учасників проєкту — доктор Тунг Нгуєн, асоційований професор кафедри комп’ютерних наук та інженерії Texas A&M, який допомагав створювати та вдосконалювати питання для екзамену.

“Коли ШІ починають показувати високі результати на людських тестах, може здатися, що вони наближаються до людського рівня розуміння. Але HLE нагадує: інтелект — це не лише впізнавання шаблонів, а глибина, контекст і спеціалізовані знання,” — пояснює Нгуєн.

Мета тесту не в тому, щоб “перехитрити” людину, а у визначенні сфер, де ШІ все ще відстає. Питання для HLE розробляли й перевіряли експерти з усього світу. Кожне завдання має чітку перевірювану відповідь і створене так, щоб його не можна було швидко вирішити через простий пошук в Інтернеті. Серед тем — переклад давніх написів Палміри, ідентифікація дрібних анатомічних структур у птахів та аналіз нюансів вимови біблійної давньоєврейської мови.

Всі питання перевіряли на провідних ШІ-моделях. Ті завдання, які могли правильно вирішити сучасні системи, вилучалися з фінальної версії. Раннє тестування показало ефективність такого підходу: навіть потужні моделі справлялися зі складними завданнями слабо. GPT-4o набрав лише 2,7%, Claude 3.5 Sonnet — 4,1%, OpenAI o1 — близько 8%. Найсильніші моделі, Gemini 3.1 Pro і Claude Opus 4.6, досягли точності 40–50%.

Нгуєн підкреслює, що відсутність точних оцінювальних інструментів може призвести до неправильного розуміння справжніх можливостей ШІ.

“Високі бали на тестах, розроблених для людей, не обов’язково відображають справжній інтелект. Вони вимірюють здатність виконувати завдання, створені для людського навчання, а не глибоке розуміння,” — каже він.

Попри драматичну назву, HLE не натякає на заміну людей машинами. Навпаки, тест показує, скільки знань і експертизи залишаються унікально людськими.

“Це не гонитва проти ШІ. Це спосіб зрозуміти сильні та слабкі сторони систем, щоб будувати безпечніші та надійніші технології,” — додає Нгуєн.

HLE створений як довготривалий, прозорий бенчмарк для майбутніх моделей ШІ. Деякі питання вже опубліковані, інші залишаються прихованими, щоб ШІ не могли просто запам’ятати відповіді.

“На даний момент HLE є одним із найчіткіших способів оцінити розрив між ШІ та людським інтелектом. І попри швидкий технологічний прогрес, цей розрив досі значний,” — підсумовує Нгуєн.

Проєкт демонструє силу міжнародної колаборації: до нього долучилися не лише комп’ютерні науковці, а й історики, фізики, лінгвісти та медичні дослідники. Така різноманітність дисциплін дозволила виявити прогалини у сучасних ШІ-системах — іронічно, але саме людська співпраця показала межі машинного розуміння.

Джерело: portaltele.com.ua

ТОП новини

0 0 голоси
Рейтинг статті
Підписатися
Сповістити про
guest
0 Коментарі
Найстаріші
Найновіше Найбільше голосів
Зворотній зв'язок в режимі реального часу
Переглянути всі коментарі

Останні новини