Первые впечатления специалиста о новой ИИ-модели ChatGPT-4o1

«Искусственный интеллект стремительно развивается, и OpenAI устанавливает новую, более серьезную планку с выпуском ChatGPT-4o1-preview. Эта модель представляет собой значительный шаг вперед в области сложного рассуждения и обещает преобразить подход к SEO и цифровому маркетингу». © ChatGPT-4o1-preview

Сразу после релиза SEO-команда «Вебпрактик» протестировала версию 4o1 и готова рассказать, что умеет новая модель, чем отличается от предыдущих и как она помогает SEO-специалисту.

За 1,5 часа тестов потратили все лимиты, но это того стоило. Такого прорыва мы не видели, наверное, с релиза ChatGPT-4. Команда Сэма Альтмана снова прыгнула выше головы и создала продукт, который сильно опережает конкурентов.

ChatGPT-4o1

На скриншоте: ChatGPT-4o1 рисует графический интерфейс для приложения, которого еще десять минут назад не существовало в природе

Ключевые особенности ChatGPT-4o1-preview

Это не просто обновление предыдущей модели, а качественный скачок в способности искусственного интеллекта к сложному рассуждению и адаптации.

Продвинутое сложное рассуждение

Главная фича новой модели – генерация длинных цепочек мыслей перед предоставлением ответа, что значительно повышает глубину и качество выводов.

ChatGPT-4o1

https://skr.sh/sRgIuHanpUz

Так выглядит тот самый продвинутый reasoning системы – то, чего мы раньше добивались сверхдлинными промптами и пошаговыми инструкциями

Разница ощутима и на повседневных SEO-задачах. К примеру, вот запрос по созданию метатегов для 4o1-mini:

ChatGPT-4o1

Простые задачи выполняются без огромных пояснений и промптов, буквально за секунды

Ничего волшебного нет, но модель не ошибается в мелочах. Мы пока не видели ни галлюцинаций, ни попыток уйти в сторону от задачи или в бесконечный цикл. И да, так и не получилось заставить полную версию 4o1 галлюцинировать (хотя мы очень старались).

ChatGPT-4o1

Ранние версии ChatGPT-4 буквально сходили с ума при вопросах по узким специализированным тематикам. Так, на этот вопрос «четверка» придумывала историю квеста про торжество ~~коммунизма~~ Талоса и восстание жрецов, хотя в самой игре ничего такого не было. 4o и 4o1 справляются с подобными задачами без проблем

Такой подход заметно увеличивает нагрузку на серверы, но позволяет выполнить задачу с поразительной точностью. По тестам OpenAI, на задачах олимпиадного уровня новая модель справляется в 6 раз лучше старой. Это колоссальная разница между 13% решения задач у предыдущей версии и 83% – у 4o1-preview.

Обучение с подкреплением и адаптивность

Используя масштабный алгоритм обучения с подкреплением, модель постоянно совершенствуется, улучшая свои результаты по мере взаимодействия с пользователем.

Адаптивность. С каждой новой задачей ChatGPT-4o1-preview становится точнее, подстраиваясь под специфические требования и стиль пользователя.
Эффективность. Быстрая обработка сложных запросов экономит время и ресурсы, повышая общую производительность.

И это ощущается: с каждым запросом нейросеть все точнее понимает, что тебе нужно.

ChatGPT-4o1

Такая структура ответа типична для новой версии: сначала простой ответ по условиям задачи, затем, если пользователь уточняет вопрос, модель также начинает усложнять ответ, собирая все больше данных и ответвлений

Из-за лимита запросов нам не удалось полноценно протестировать полную версию ChatGPT-4o1 на работу с цепочками промптов, но работающее приложение на Python на основе скрипта JS нейросеть написала буквально за два запроса, а на третьем предложила и реализовала ряд улучшений.

В целом, мы видим ряд автоматизаций для SEO-отдела, которые могут быть реализованы с новой версией:

Автопроверка текстов по ТЗ/заданным шаблонам. 4о был недостаточно хорош для этой задачи, 4о1 может хватить при качественных образцах и промпте.
Уход от использования Google App Script в сторону простых приложений на Python. Даже с 4о и MS Copilot программирование еще не было таким простым – больше не придется ставить задачи программистам для написания внутренних скриптов и работы с API.
Упрощение работы с внутренними документами. Как минимум, обновить все старые инструкции.
Первичная аналитика. Выгрузка массива сырых данных (например, копия CSV-файла с позициями), которая позволит быстро оценить закономерности и направления.
Улучшенные описания товаров, метатеги, SEO-текст. Постепенно заменив 4o-mini на 4o1-mini в объемных задачах, можно улучшить результаты на страницах, где применяется генерированный текст.

И это только то, что лежит на поверхности. После внедрения мультимодальности обязательно проверим выгрузку данных с BI-отчетов и метрик напрямую, через таблицы и скриншоты.

Сравнение ChatGPT-4o и ChatGPT-4o1-preview

Для наглядного понимания улучшений, представленных в новой модели, рассмотрим сравнение ее производительности с предыдущей версией через практические примеры.

Задача 1. Разработка маркетинговой стратегии для нового продукта

Запрос:

ChatGPT-4o1

Все четыре модели (включая две mini) справились с написанием таблицы. Но ChatGPT-4o1-preview чище смогла распределить время и задачи:

https://chatgpt.com/share/66e39ede-ea44-8008-90bc-dccb4590745e

ChatGPT-4o при раскрытии темы отработала заметно слабее.

https://chatgpt.com/share/66e3a262-b9ec-8008-9b86-227c0610ceb4

Задача 2. Конкурентный анализ

Запрос:

ChatGPT-4o1

Результат 4o1 ниже.

https://chatgpt.com/share/66e3a015-b944-8008-95fc-1fc972429671

А вот так выглядит решение 4o.

https://chatgpt.com/share/66e3a12d-33e8-8008-b4fd-51c460385013

Версия 4o1 глубже раскрывает задачу, а множественные итерации-размышления позволяют получить более интересный результат. На задачах в одно действие 4o1 может выдавать результат даже хуже 4o. Весь ее потенциал раскрывается на дистанции и в расплывчатых ТЗ.

Например, при тестах работы с кодом на запрос «улучши интерфейс» модель сама добавила прогресс-бар или функционал запуска через командную строку после запроса на «оптимизацию кода».

ChatGPT-4o1 более креативна по сравнению с предыдущими версиями, когда ставится задача без четких границ. И это, наверное, главное достижение OpenAI в сентябрьском обновлении: их модель сделала еще один шаг к человечности.

Подводные камни

Несмотря на очевидные плюсы очередного (хоть и ожидаемого) прорыва OpenAI, есть и неприятные моменты. Их немного:

4o1-preview лимитирована на 30 запросов в неделю. Доступ к тестам есть только у пользователей платных подписок Plus- и Enterprise-версий. В будущем ограничения обещают снять. Также в планах открыть доступ к o1-mini всем бесплатным пользователям ChatGPT, но когда – неизвестно.

Причина – цена на работу с новой моделью.

ChatGPT-4o1

Для сравнения - вот прайс для работы по API с GPT-4o

ChatGPT-4o1

Если сравнивать работу по API – цена на новую модель в 12 раз выше, чем в 4o. Пока цены на инференс не упадут, можно использовать новую нейросеть либо как редактора, проверяющего работу более низкоуровневых агентов, либо для экспериментов/работ на проектах с высоким бюджетом.

Нет мультимодальности. Нейросеть работает только с текстом, для работы, например, с изображениями или таблицами, придется запускать 4o. Это же останавливает эксперименты с аналитикой: большая часть интересующих меня данных находится в Excel-таблицах или скриншотах графиков.
Нет доступа в интернет. Что означает «база данных, ограниченная концом 2023 года». Есть вариант запрашивать информацию из интернета у 4o, а собранные данные передавать в окно с 4o1, но он, мягко говоря, не совсем удобен.
Плохо шутит. Один из моих любимых тестов на цензуру «придумай анекдот про три стереотипа в баре» 4o1 успешно провалил, начав рассказывать нечто в стиле «все люди братья, давайте жить дружно». В целом цензура не мешает, но тут нужно гораздо больше экспериментов.

Заключение

Новое обновление – прорыв уровня перехода с GPT-3,5 на 4. Улучшилось все: аналитика, работа с текстами, понимание запроса пользователя. И те, кто бездумно переписывает из статьи в статью «НОВЫЕ НЕЙРОСЕТИ НАУЧИЛИСЬ ДУМАТЬ!», не так уж далеки от истины.

4o1 все еще не делает идеальные тексты, не кластеризует большую семантику, не может по графику определить причины проблем с сайтом (да и в целом с графиками пока не работает). Ее конек – это создание новых инструментов и шаблонов для упрощения вашей работы.

Создавайте скрипты, придумывайте шаблоны ТЗ, организуйте таблицы Google Sheets со сложной системой функций. Новая модель заточена именно под это.