OpenAI презентувала найновішу ШІ-модель, що перевершує людей в 70% завдань

OpenAI презентувала найновішу ШІ-модель, що перевершує людей в 70% завдань

Компанія OpenAI офіційно оголосила про запуск GPT-5.2, своєї флагманської серії моделей штучного інтелекту. Розробники стверджують, що це оновлення є значним стрибком у розвитку "загального інтелекту" і пропонує суттєві покращення у написанні коду, розумінні великих обсягів контексту та агентних можливостях.Нові моделі виходять у варіантах Instant, Thinking та Pro та вже сьогодні стануть доступними для користувачів ChatGPT Plus, Enterprise та Business, а також розробникам через API.Ключовою особливістю релізу стали результати моделі у GDPval – новому бенчмарку, створеному для оцінки компетентності у чітко визначених робочих завданнях у 44 різних професіях.За даними OpenAI, модель GPT-5.2 Thinking стала першою, що працює на рівні або вище рівня людини-експерта. У сліпих порівняннях, які оцінювали професіонали галузі, GPT-5.2 Thinking перевершила або зрівнялася з провідними експертами у 70,9% завдань. Ці завдання включали створення складних електронних таблиць, розробку презентацій та підготовку технічної документації.В OpenAI зазначили, що модель виконувала ці завдання у понад 11 разів швидше та коштувала менш як 1% від вартості роботи фахівців-людей.Для інженерів-програмістів OpenAI повідомляє, що GPT-5.2 Thinking встановила нову планку якості. Вона досягла результату 55,6% у SWE-Bench Pro – тесті реальних навичок програмної інженерії, що охоплює кілька мов програмування та складні кодові бази.Модель також отримала покращені візуальні можливості. OpenAI стверджує, що частота помилок при аналізі графіків та технічних схем скоротилася майже вдвічі. Це дозволяє моделі краще інтерпретувати дашборди, скріншоти продуктів та просторові макети, наприклад, ідентифікувати компоненти на материнській платі. До того ж OpenAI заявляє, що нова модель Thinking галюцинує на 30% менше, ніж її попередниця.Як зазначають в OpenAI модель демонструє кращі "показники довгострокового міркування" (long-horizon reasoning). У внутрішніх тестах з використанням бенчмарку MRCRv2 модель досягла майже 100% точності в пошуку та синтезі інформації в документах обсягом до 256 000 токенів. Ця можливість орієнтована на юридичний, фінансовий та науковий сектори, в яких часто аналізуються масивні файли.