
Создание цифрового аватара: контент-машина в 5 шагов
Создание цифрового аватара давно перестало быть аттракционом для гиков и стало инструментом для экспертов, у которых нет ни минуты на съёмки контента. Я уже рассказывал, как провёл для себя 3-месячный эксперимент по созданию «контент-завода» на базе ИИ и какие результаты это принесло. В этой статье я расскажу, как устроена сама контент-машина и как собрать себе такую же с цифровым аватаром.
Коротко, в двух словах
- Система способна создавать по 30–120 роликов в месяц при временных затратах автора около 3 часов в месяц
- Голос лучше делать в ElevenLabs, а не во встроенном клоне HeyGen — на русском разница огромна
- Шаг создания аватара в HeyGen занимает 15–20 минут, главное — корректный референс на 2+ минуты и верификация образа
- Бюджет всей контент-машины около $81 в месяц (ChatGPT + ElevenLabs + HeyGen + Captions)
Контент-машина: 5 элементов системы
Создание любого вертикального ролика проходит через 5 этапов, которые нам и предстоит автоматизировать с помощью ИИ и цифрового аватара:
- Идея. Ответ на вопрос, а что мы, собственно, собираемся снимать. Тут мы настроим Custom GPTs, который выдаст список тем под нашу нишу.
- Сценарий. То, во что превращается идея. Для экспертов это, как правило, текст, который они будут говорить на камеру. Тут тоже будет Custom GPTs, но обученный писать сценарии нашим языком в нашем стиле.
- Голос. Озвучка сценария нашим голосом. Здесь мы возьмём ElevenLabs в режиме Professional Voice и создадим цифровой клон своего голоса.
- Цифровой Аватар. Видео с нашей цифровой копией, которая говорит ранее созданным голосом. Использовать будем HeyGen.
- Монтаж. Субтитры, переходы, динамика. Здесь будем использовать Captions.ai.

Вот такая контент-машина у нас должна получиться. А сейчас разберём подробно каждый шаг.
Шаг 1. Идеи для роликов: Custom GPTs от ChatGPT
Чтобы не сидеть каждый раз в чистом ChatGPT и не переписывать одну и ту же инструкцию по 20-му кругу, нам понадобится Custom GPTs. Это режим, в котором вы один раз настраиваете отдельного агента: даёте ему системный промт, прикладываете файлы с базой знаний, а дальше открываете его как обычный чат и работаете уже с готовым специалистом, заточенным под вашу задачу.
Минус всего один. Custom GPTs есть только в платной версии. ChatGPT Plus стоит $20 в месяц. Бесплатной альтернативы здесь нет.
Системный промт: из чего состоит и зачем
Системный промт — это инструкция, которую ИИ видит в самом начале каждого нового чата с этим агентом. Сюда мы загружаем всё, что должно быть «в голове» агента по умолчанию: кто он, на кого работает, как формулировать ответ. Без системного промта вы каждый раз будете заново объяснять контекст, и качество выдачи будет плавать от чата к чату.

В системный промт нужно положить 4 блока:
- Описание бизнеса. Чем занимаетесь, какие продукты продаёте, на чём специализируетесь. Без этого ИИ выдаст абстрактные и водянистые темы, которые подходят всем и никому одновременно.
- Описание целевой аудитории. Кто ваш зритель. Чем точнее описана ЦА и её боли, тем острее темы.
- Удачные темы. Список из 5–10 формулировок тем, которые вам реально нравятся. Это эталон, по которому агент калибрует выдачу.
- Плохие темы. Список того, что вы видеть не хотите: слишком общие темы, банальности, неудачные формулировки. Этот блок важнее всех остальных.
Свой системный промт для GPTs для генерации идей я положил в телеграм-бот @Bokorew_bot. Заходите, заберайте промт и правьте под себя. Кстати, остальные материалы для контент-машины лежат там же.
Шаг 2. Сценарий ролика: еще один GPTs
Темы есть. Дальше из темы нужно сделать текст на 30–60 секунд речи, который зачитает цифровой аватар. Для этого мы заводим ещё одного Custom GPTs, на этот раз сценариста.
Поверх системного промта в этот Custom GPTs обязательно нужно загрузить текстовый файл с 10–15 примерами сценариев в вашем стиле: ваши лучшие ролики, расшифровки, посты с желаемой подачей. Разница в качестве текстов колоссальная. Без базы знаний вы получите водянистый и беззубый ИИ-слоп, от которого все устали. С базой же есть шанс, что ИИ-агент начнёт писать в вашем стиле.

Если у вас нет 10 идеальных сценариев — садитесь и пишете их руками. 2–3 часа работы, зато дальше весь пайплайн работает на ваших данных, а не на случайных примерах из интернета.
Системный промт
В системном промте сценариста должны быть отдельные правила, по которым агент готовит текст под озвучку. Без них вы получите текст, который аватар не сможет нормально проговорить.
- Цифры — словами. «Два» вместо «2», «пятьдесят процентов» вместо «50%», «километров» вместо «км». Текст ведь дальше идёт на озвучку, и если оставить цифры цифрами — клон голоса в половине случаев прочитает их криво.
- Лимит по количеству слов. Хороший хронометраж рилса — 30–60 секунд. Это примерно 75–150 слов. Если лимит не прописать, агент будет писать простыню по 300 слов, которые в формат не влезут. Указываем верхнюю границу прямо в промте.
- Тон, обращение, тип хука. На «ты» или на «вы», с какой структурой заходим, чем заканчиваем. Чем конкретнее — тем лучше.
Пример готового промта для агента-сценариста лежит всё там же, в боте.
Шаг 3. Голос: ElevenLabs, а не встроенный клон HeyGen
Самый частый вопрос на этом шаге: «У HeyGen же есть собственный клон голоса, зачем платить дополнительные $22 за ElevenLabs?». В теории большой разницы между ними нет. Но вот на практике на русскоязычной речи разница огромная. Поэтому не скупимся и подключаем ElevenLabs.

Запись звукового референса для ElevenLabs
Вам понадобится 30 минут чистого звука (а я рекомендую сделать даже пару часов), записанного на хороший микрофон, чтобы создать цифровой клон голоса в режиме Professional Voice (именно он даёт такой крутой результат).

Все 30 минут референса нужно записывать в одной локации и на одном микрофоне. Если час пишете дома, а час в кафе с гарнитуры — клон выйдет, мягко говоря, непредсказуемый.
И важный момент. Elevenlabs нужна верификация для использования клона голоса. И эту верификацию можно пройти только на том микрофоне, на котором делалась запись референса. Так что, если вы записывали свой голос в студии, то прям там и нужно проходить проверку сервиса, что голос ваш. Дома, на другом микрофоне, эту верификацию вы не пройдёте.
Шаг 4. Создание цифрового аватара в HeyGen

Дошли до главного. Сам процесс создания цифрового аватара в HeyGen несложный, разберётся каждый, но дьявол сидит в деталях. Если запись референса кривая — аватар будет дёргаться, моргать невпопад и неестественно шевелить губами. Вот требования к видео-референсу:
| Параметр | Минимум | Идеал |
|---|---|---|
| Длина | 2 минуты | 3–5 минут |
| Образ в кадре | 1 | 1 (не меняем одежду, фон, причёску) |
| Камера | Телефон iPhone 12+ | Зеркалка или mirrorless |
| Освещение | Дневной свет с окна | Кольцевая лампа + softbox |
| Звук | Петличный микрофон | Студийный микрофон |
| Срезки и склейки | Никаких | Никаких |
| Паузы | Естественные | Естественные, особенно в начале и конце |
| Фон | Без движения и других людей | Однородный, спокойный |
Отдельно про паузы. Сценарий читайте так, как если бы говорили в живом эфире: с дыханием, с естественными остановками на полсекунды. Если протараторите без воздуха, HeyGen потом не сможет вставлять паузы в речь аватара, и каждый ролик будет звучать как пулемётная очередь. На записи обязательно должны быть кусочки в начале и в конце, где вы молчите. Чтобы ИИ понял, как вы начинаете речь и как заканчиваете.
Пошаговый процесс создания аватара
Когда референс записан, дальше всё быстро:
- Заходите в раздел Avatars → Create New Avatar
- Выбираете тип (Instant Avatar / Avatar IV / Avatar V — экспериментируйте)
- Загружаете видео-референс (mp4, до 1 ГБ)
- Проходите верификацию. HeyGen покажет на экране случайный набор слов, который нужно прочитать прямо сейчас на ту же камеру и микрофон. Это антидипфейк-защита, без неё аватар по чужому лицу создать нельзя
- Ждёте 10–30 минут. Платформа обучает модель на вашем референсе
- Получаете готового аватара в кабинете и подключаете к нему любые аудио-дорожки

Дальше всё просто: загружаете в аватар mp3 от ElevenLabs, выбираете фон, нажимаете Generate, через 3–5 минут забираете видеоролик.
Шаг 5. Монтаж в Captions.ai: AI-Edit с iPhone
Когда HeyGen выдал ролик с аватаром, остаётся последний шаг — нарезать его в формат рилса, добавить субтитры и динамику.
Откройте приложение Captions.ai на iPhone, загрузите ролик из HeyGen, выберите режим AI-Edit и один из встроенных стилей монтажа. Через 2–3 минуты вы получите готовый рилс с субтитрами и динамическими вставками. Вручную можно поправить то, что не понравится.

Стоимость подписки — около $10 в месяц на базовом тарифе, VPN не нужен. По времени один ролик занимает 5 минут активной работы.
Сколько стоит «бензин» для контент-машины
Складываем расходы на все сервисы по 5 этапам.
| Сервис | Тариф | Цена/мес |
|---|---|---|
| ChatGPT Plus | Plus | $20 |
| ElevenLabs | Creator | $22 |
| HeyGen | Creator | $29 |
| Captions | Pro | $10 |
| Итого | $81 (≈7 500 ₽) |
7 500 ₽ в месяц на «бензин» для машины, которая выдаёт от 30 до 120 роликов в месяц. Минус — все они зарубежные. ChatGPT, ElevenLabs, HeyGen — нужен VPN и валютная карта.
3 версии контент-машины
Есть 3 рабочих сценария, между которыми каждый выбирает по своему бюджету и возможностям.
Версия 1. Полный автопилот

Все 5 шагов делает ИИ. Вы один раз настраиваете промты, один раз записываете референс голоса и видео. Дальше оператор (или вы сами) только нажимает кнопки для генераций. Стоимость инструментов — $81/месяц + оплата работы оператора (тут как договоритесь). Вашего времени не тратится вовсе.
Версия 2. Гибрид с живым голосом

Идею и сценарий пишет ИИ. Голос ваш живой, записанный вручную. Дальше всё как в Версии 1.
Стоимость инструментов падает до $59/мес (выкидываем ElevenLabs). Времени автора уходит около 3 часов в месяц (если рутину нажимания кнопочек забирает на себя оператор).
Я сам быстро перешёл именно на эту версию, так ролики выходили живее.
Версия 3. Гибрид с голосом и парсингом тем

Темы для роликов вы не придумываете через GPT. Вместо этого тянете их из аналитики конкурентов через Лабораторию Виральности — сервис парсинга вирусных роликов у конкурентов с автогенерацией сценариев в вашем стиле.
Стоимость этой версии: $59/мес + до 5 000 ₽/мес за Лабораторию виральности. Времени уходит примерно столько же, что и в Версии 2. Но темы здесь те, что уже доказанно «набирают» в вашей нише.
Главный плюс этой схемы — идеи приходят из проверенных вирусных роликов, а не из придумок от ChatGPT.
Ссылку на Лабораторию Виральности найдёте в том же телеграм-боте.
С чего начать?
Не пытайтесь собрать всю контент-машину за раз. Действуйте постепенно.
- Купите подписку HeyGen на 1 месяц. Запишите референс по требованиям, создайте аватар, сгенерируйте 3–5 роликов на коротких текстах от руки. Поймите, как ощущается результат и подходит ли вам визуал.
- Если HeyGen зашёл — добавьте ElevenLabs. Запишите 2 часа референса голоса в один заход, сделайте Professional Voice. Сравните озвучку HeyGen и ElevenLabs на одном и том же тексте — вы услышите разницу.
- Дальше добавляйте ChatGPT и Captions. Чтобы достроить полный пайплайн создания контента.
И не забудьте забрать все собранные для вас материалы:
- Системный промт для агента-генератора идей
- Системый промт для агента-сценариста
- Доступ к Лаборатории Виральности для парсинга идей рилс
- Инструкцию по анти-ИИ-паттернам в текстах (это важно как раз для шага со сценарием)
Всё лежит в моём Telegram-боте по ссылке.
Важно запомнить
Сколько стоит создание цифрового аватара?+
Сама подписка HeyGen для создания аватара стоит $29/месяц на тарифе Creator. Полный стек контент-машины с озвучкой, идеями и монтажом обойдётся в $81/месяц. В эту сумму входят ChatGPT Plus, ElevenLabs, HeyGen и Captions. Разовых платежей за «создание аватара» нет: оплата подписочная.
Какая нейросеть лучше для цифрового аватара?+
Для русскоязычного сегмента — HeyGen с моделью Avatar IV или V. По критериям «русский язык + натуральность движений + скорость генерации» он выигрывает у всех аналогов на рынке.
Можно ли сделать цифрового аватара бесплатно?+
Полностью бесплатно — нет, все рабочие сервисы платные. У HeyGen есть бесплатный тариф с водяным знаком и ограничением по длине роликов: для теста хватит, для регулярного контента нет.
Сколько времени занимает создание цифрового аватара?+
Запись референса с подготовкой занимает 30–60 минут. Обучение модели в HeyGen уходит ещё на 10–30 минут. Верификация образа — 2 минуты. Итого первый аватар вы получаете за 1–2 часа. Каждый следующий ролик с готовым аватаром генерируется за 3–5 минут.
@bokorev
Анатолий Бокорев
В телеграм-канале пишу про маркетинг, бизнес и нейросети. Всеми новинками и находками делюсь именно там.