Ученые показали, как существующие ИИ-модели справились с нестандартным тестом (ИНФОГРАФИКА)

60 математиков разработали тест для искусственного интеллекта (ИИ), видимо, на замену традиционному Тьюрингу — задачами охватывается ряд спецдисциплин, включая теорию чисел и алгебраическую геометрию.

Штучний інтелект.

Фото - t4.com.ua

Как сообщает «НБН» со ссылкой на материал Epoch AI, вышеописанный тест, получивший название FrontierMath, оказался непосильным для алгоритмов даже наиболее инновационных типов искусственного интеллекта, даже самых «продвинутых».

В частности, FrontierMath сформирован из усложненных математических задач, решить которые не смогли Claude 3.5 (Sonnet), GPT-4 (Orion), o1-preview/-mini и Gemini 1.5 Pro, вопреки открытому доступу к вычислительной среде Python.

Ключевое отличие данного тестирования — задачи являются абсолютно новыми и ранее не публиковавшимися в Сети, то есть нейросети не смогли «подсмотреть» решение.

Наилучший результат у модели от Google — Gemini 1.5 Pro, а расхваленный LLM Grok 2 Beta от Илона Маска вообще не одолел ни с одного уравнения, с чем можно ознакомиться ниже:

Фото — epoch.ai

Ранее мы писали о том, какие навыки получают дети на курсах разработки игр.

Exit mobile version