Вчені створили найскладніший тест для ШІ – результати вражають

Коли системи штучного інтелекту почали досягати надзвичайно високих результатів на давно використовуваних академічних тестах, дослідники помітили серйозну проблему: колись складні випробування перестали бути викликом для сучасних моделей. Відомі тести, такі як Massive Multitask Language Understanding (MMLU), які раніше вважалися вимогливими, більше не здатні адекватно оцінити можливості передових ШІ.

Щоб вирішити цю проблему, міжнародна група з майже тисячі вчених, серед яких професор з Texas A&M University, розробила новий тип випробування. Мета полягала у створенні екзамену, що поєднує широту знань, складність та глибину, засновану на експертних людських знаннях, з якими сучасні ШІ все ще справляються важко.

Результатом став “Останній екзамен людства” (Humanity’s Last Exam, HLE) — тест із 2500 питань, який охоплює математику, гуманітарні науки, природничі науки, давні мови та широкий спектр спеціалізованих академічних дисциплін. Деталі проєкту опубліковані у Nature, а додаткова інформація доступна на сайті lastexam.ai.

Серед багатьох учасників проєкту — доктор Тунг Нгуєн, асоційований професор кафедри комп’ютерних наук та інженерії Texas A&M, який допомагав створювати та вдосконалювати питання для екзамену.

“Коли ШІ починають показувати високі результати на людських тестах, може здатися, що вони наближаються до людського рівня розуміння. Але HLE нагадує: інтелект — це не лише впізнавання шаблонів, а глибина, контекст і спеціалізовані знання,” — пояснює Нгуєн.

Мета тесту не в тому, щоб “перехитрити” людину, а у визначенні сфер, де ШІ все ще відстає. Питання для HLE розробляли й перевіряли експерти з усього світу. Кожне завдання має чітку перевірювану відповідь і створене так, щоб його не можна було швидко вирішити через простий пошук в Інтернеті. Серед тем — переклад давніх написів Палміри, ідентифікація дрібних анатомічних структур у птахів та аналіз нюансів вимови біблійної давньоєврейської мови.

Всі питання перевіряли на провідних ШІ-моделях. Ті завдання, які могли правильно вирішити сучасні системи, вилучалися з фінальної версії. Раннє тестування показало ефективність такого підходу: навіть потужні моделі справлялися зі складними завданнями слабо. GPT-4o набрав лише 2,7%, Claude 3.5 Sonnet — 4,1%, OpenAI o1 — близько 8%. Найсильніші моделі, Gemini 3.1 Pro і Claude Opus 4.6, досягли точності 40–50%.

Нгуєн підкреслює, що відсутність точних оцінювальних інструментів може призвести до неправильного розуміння справжніх можливостей ШІ.

“Високі бали на тестах, розроблених для людей, не обов’язково відображають справжній інтелект. Вони вимірюють здатність виконувати завдання, створені для людського навчання, а не глибоке розуміння,” — каже він.

Попри драматичну назву, HLE не натякає на заміну людей машинами. Навпаки, тест показує, скільки знань і експертизи залишаються унікально людськими.

“Це не гонитва проти ШІ. Це спосіб зрозуміти сильні та слабкі сторони систем, щоб будувати безпечніші та надійніші технології,” — додає Нгуєн.

HLE створений як довготривалий, прозорий бенчмарк для майбутніх моделей ШІ. Деякі питання вже опубліковані, інші залишаються прихованими, щоб ШІ не могли просто запам’ятати відповіді.

“На даний момент HLE є одним із найчіткіших способів оцінити розрив між ШІ та людським інтелектом. І попри швидкий технологічний прогрес, цей розрив досі значний,” — підсумовує Нгуєн.

Проєкт демонструє силу міжнародної колаборації: до нього долучилися не лише комп’ютерні науковці, а й історики, фізики, лінгвісти та медичні дослідники. Така різноманітність дисциплін дозволила виявити прогалини у сучасних ШІ-системах — іронічно, але саме людська співпраця показала межі машинного розуміння.

Джерело: portaltele.com.ua

Вчені створили найскладніший тест для ШІ – результати вражають

Популярне

Ворожі атаки знеструмили частину жителів у шести областях, поранено енергетика, увечері – графіки

Україна першою протестує новий купол ППО Michelangelo від Leonardo

NASA знову відправляє людей до Місяця

Несподівана знахідка в Бермудському трикутнику: експедиція натрапила на уламок «Челленджера»

ТОП новини

Останні новини

Генпрокурор Кравченко: ідентифіковано 13 колаборантів, які перетворили окупований Ізюм на місце терору

рф закликає до перемир’я на Близькому Сході, але вже рік відмовляється дотримуватися перемир’я в Україні – Макрон

Вчені розкрили механізм створення золота у Всесвіті

320 "прильотів" – Шмигаль назвав кількість ударів рф ракетами і дронами по Кременчуцькому НПЗ

Ferrari презентувала відкриту версію моделі Amalfi Spider