Автоматизация SEO через LLM: архитектура, стек и реальные цифры

Когда семантическое ядро разрастается до сотен тысяч запросов, наращивать темп вручную становится дорого и сложно. Логичное решение – не нанимать десяток дополнительных специалистов, а автоматизировать процессы.

Мы приложили это к SEO – так появился пайплайн автоматизации с LLM. Результат – экономия в 3–6 раз и ускорение в 10–15. Разбираем технические подробности и делимся впечатлениями.

Почему вообще решили автоматизировать

Мы выполняли задачу для клиента: за полгода собрать семантику для 500 000 кластеров. Требовалось выстроить структуру, прописать H1 и анкоры, типизировать страницы.

Команда из шести человек за три месяца обработала только 10% запланированного объема. Рентабельность проекта упала до минус 60%, все перерабатывали, качество страдало. Масштабирование классическим способом означало бы найм еще 12–15 человек – с теми же проблемами координации и контроля качества.

Классический SEO-процесс для крупного проекта включает семь этапов:

Выгрузка семантики из сервисов в Excel.
Ручная чистка от мусора.
Кластеризация.
Построение структуры.
Типизация страниц.
Написание метатегов.
Формирование анкоров для перелинковки.

Каждый этап упирается в технические или человеческие ограничения.

Keys.so по умолчанию не отдает всю семантику сразу по крупным проектам – приходится выгружать частями. Excel останавливается на миллионе строк, а буксовать начинает уже на 300–500 тысячах. Чистка семантического ядра съедает до 40% времени команды. Построение структуры требует опыта и внимания – делегировать джунам не получится. Типизация страниц, теги и анкоры – рутина, но объемная.

Что сделали: трехуровневая архитектура

Выстроили систему, где база данных хранит миллионы запросов, Python-парсер управляет процессом, а LLM обрабатывает данные. Рассказываем подробнее.

Уровень 1: SQL БД – хранилище и источник данных

База данных заменяет Excel. Она обеспечивает работу с миллионами строк без пробуксовок, принимает данные по API из Keys.so и JustMagic, сама мэтчит ключи (быстрее и надежнее) и отдает данные порциями для обработки.

В базе лежит все: сам запрос, частотность, позиции и URL конкурентов из выдачи, категории, номера кластеров, типы страниц, заголовки.

Уровень 2: Python Parser – оркестратор процесса

Парсер берет данные из базы, разбивает на фрагменты по 200–300 строк (это лимит LLM), отправляет по API к нейросети, объединяет результаты в общий список.

Интерфейс парсера позволяет выбрать шаблон задачи (чистка семантики, генерация H1, построение структуры, формирование анкоров), отредактировать промпт, выбирать из сотен доступных моделей, задать размер итерации и количество параллельных запусков.

Уровень 3: LLM через OpenRouter – обработчик данных

В OpenRouter можно переключаться между 300+ моделями, мониторить популярность и тренды, работать с единой биллинговой системой.

По данным платформы, для SEO и маркетинга чаще используют Claude 3.7 Sonnet, GPT-4o-mini, Gemini 2.0 Flash и Gemini 2.0 Flash Lite. Но мы убедились: модели показывают разную точность на конкретных этапах.

По нашему опыту, для чистки семантики оптимальна Gemini Flash 2, для построения структуры – DeepSeek V3.1, для генерации заголовков – Gemini 2.5 Flash.

Пайплайн: три блока обработки

1. Подготовка данных

Сбор и загрузка

Запускаем API-парсинг по фрагментам – результаты сразу объединяются в SQL-базе.

Классификация

Здесь определяем категорию каждого запроса. Например, «брюки мужские» относятся к одежде и обуви, «палатка 4 местная» – к спорту и отдыху, «кольцо с сапфиром» – к ювелирным украшениям. Это позволяет на старте отсечь нерелевантные категории и сосредоточиться на приоритетных или сезонных.

Подойдет модель Gemini Flash 2.

Пример промпта

«Определи категорию из списка доступных, верни только название без пояснений».

Чистка семантики

Задача – отделить коммерческие запросы от мусора. К нему относятся навигационные, информационные и нерелевантные запросы.

Для максимального качества (но со сниженной скоростью) подойдет DeepSeek V3. Для баланса «быстро/качественно» – Gemini Flash 2.

Важно: на этом этапе делаем «сверку с реальностью»: контролируем, что LLM не потеряла важное. Это не полностью ручная работа, а выборочный контроль 5–10% результата. Его стоит поручить миддлу или сеньору.

2. Структурирование запросов

Кластеризация

Сгруппировать запросы по интенту – задача, которая пока не под силу LLM. Поэтому берем проверенные инструменты: Key Collector, Rush Analytics, Топвизор, собственные алгоритмы.

Сцепка дублей

LLM находит и объединяет кластеры, которые идентичны по смыслу. С разным порядком слов как в «брюки мужские» и «мужские брюки», «куртка зимняя женская» и «зимняя женская куртка», или с однокоренными, как в «кольцо с сапфиром» и «сапфировое кольцо».

Здесь хороша модель Gemini 2.5 Flash – она быстрая, дает минимум потерь.

Типизация страниц

Теперь нужно определить тип страницы для каждого кластера – от этого зависят шаблон, структура URL и стратегия продвижения.

Используем DeepSeek V3.1, ведь тут важна точность.

3. Логика страниц

Формирование H1

Написать заголовок для каждой страницы – задача, где нужна естественность. Для этого важно учитывать ряд нюансов: язык написания бренда, регистр и порядок слов, число (единственное или множественное) как в запросе.

Модель Gemini 2.5 Flash на этом этапе быстро выдает приемлемое качество. Но может потребоваться итеративная доработка:

прогнали модель → сравнили результат с ручным эталоном → зафиксировали типовые ошибки → уточнили правила в промпте.

Повторяем, пока не останемся довольны уровнем.

Построение структуры

Теговые страницы нужно привязать к категориям и построить иерархию – тут логика важнее скорости.

Пример: тег «Колье из жемчуга» можно отправить к «украшениям из жемчуга» или к «ювелирным колье». Нам нужна вторая категория: товарный класс важнее материала.

DeepSeek V3.1 – самая точная модель для проработки структуры.

Что получили: цифры и сравнение

Проект, с которым мы работали – топ-10 e-commerce в России. Брали категорию «одежда и обувь». За три месяца с автоматизацией обработали 450 000 кластеров (без ИИ было бы 50 000). Создали 690 000 новых страниц, проработали 19 000 категорий. Общий объем семантики – 6 млн запросов.

Важно: автоматизация выгодна не всегда.

Настройка пайплайна съест около 100 ч и 200 000 ₽. Вложения начинают окупаться от 1000, а кратная экономия получается только от 10 000 кластеров. На масштабах 100 000+ вручную вообще нереально уложиться в разумный срок – здесь однозначно нужно автоматизировать.

Ограничения автоматизации

Использование LLM в SEO не отменяет работу специалистов. Их задача – управлять автоматизацией и включаться на этапах, где без ручного контроля и корректировок масштабирование не имеет смысла.

Вот почему без работы руками не обойтись.

LLM по умолчанию не погружены в бизнес

Они не учитывают колебания спроса, фактический ассортимент и ограничения брендов. Модели могут сгенерировать структуру под отсутствующие товары или «мимо сезона». Поэтому обязательно – проверка 5–10% результата и корректировка промптов под нишу.

API могут падать

В тестах GPT-4o показывал до 32% сбоев API, Qwen3 – порядка 20% потерь данных. Поэтому важно использовать устойчивые модели (Gemini, Claude, DeepSeek), иметь под рукой резервные варианты и логировать все запросы.

Кластеризация – слабое место LLM

Искусственный интеллект пока нестабильно справляется с кластеризацией запросов по интенту. Поэтому нужны проверенные сервисы (Topvisor, Rush Analytics, Key Collector) и грамотные специалисты, которые смогут с ними работать.

Модели не универсальны

Ошибка – использовать одну LLM для всего. Этапы требуют разных приоритетов: для чистки семантики это скорость и цена, для структуры и типизации – максимальная точность, для H1 – баланс качества и времени. Задача специалиста – подобрать модель под задачу.

Промпты тоже не универсальны

Логика группировки зависит от ниши. Для ювелирных сайтов «кольцо с сапфиром» – это категория «Кольца». В одежде цветовые признаки работают как теги. Решает поэтапное тестирование и доработка промптов.

Главный принцип автоматизации:

не заменять людей, а дать им инструменты для работы с нечеловеческими объемами.

Оригинал статьи на SEOnews