Вчені показали, як існуючі ШІ-моделі впоралися з нестандартним тестом (ІНФОГРАФІКА)

60 математиків розробили тест для штучного інтелекту (ШІ), мабуть, на заміну традиційному Тюрінгу — завданнями охоплюється низка спецдисциплін, включно з теорією чисел і алгебраїчною геометрією.

by Віталій Шульгін
9 months ago

Як повідомляє «НБН» із посиланням на матеріал Epoch AI, вищеописаний тест, що отримав назву FrontierMath, виявився непосильним для алгоритмів навіть найбільш інноваційних типів штучного інтелекту, навіть найбільш «просунутих».

Зокрема, FrontierMath сформовано з ускладнених математичних завдань, розв’язати які не змогли Claude 3.5 (Sonnet), GPT-4 (Orion), o1-preview/-mini та Gemini 1.5 Pro, всупереч відкритому доступу до обчислювального середовища Python.

Ключова відмінність цього тестування — завдання є абсолютно новими й раніше не публікувалися в Мережі, тобто нейромережі не змогли «підглянути» рішення.

Найкращий результат у моделі від Google — Gemini 1.5 Pro, а розхвалений LLM Grok 2 Beta від Ілона Маска взагалі не здолав жодного рівняння, з чим можна ознайомитися нижче: