Обзор Seedance 2.0: что работает, а что ломается

Seedance 2.0 нас впечатлил, но вовсе не по той причине, на которую обычно делают упор в демо-роликах.

Самым интересным оказалась не чистая картинка как таковая, а контроль. В наших тестах Seedance 2.0 лучше следовал указаниям по шотам, увереннее работал с визуальными референсами и превращал простой сториборд в видео, которое выглядело скорее спланированным, чем случайным.

В этом смысле Seedance 2.0 ближе к нужному результату, чем многие модели, работающие только от промпта. Но у него есть и пределы, которые создателям не стоит игнорировать. Один тест показал, насколько впечатляющим может быть его контроль. Другой напомнил, что физика у модели все еще ощущается искусственной.

Ниже мы разберем, что у Seedance 2.0 получается хорошо, где он начинает срываться и насколько он вообще полезен реальным создателям видео.

Что такое Seedance 2.0?

Seedance 2.0 — это AI-модель для генерации видео от ByteDance Seed. Она помогает создавать ролики, которые легче контролировать, которые выглядят реалистичнее и в большей степени соответствуют реальным производственным задачам.

В отличие от базовой text-to-video модели, она умеет использовать текст, изображения, видеофрагменты и аудио как референсы, поэтому автор может точнее направлять персонажа, движение камеры, стиль, ритм и звук.

From Seedance 1.0 to Seedance 2.0

Версия	Что добавила	Как это помогло следующей версии
Seedance 1.0	Запустила линейку видеомоделей Seedance	Дала модели базовую способность создавать короткие AI-видеоклипы
Seedance 1.5	Улучшила синхронизацию звука и видео	Помогла звуку и изображению работать вместе более естественно
Seedance 1.5 Pro	Улучшила image-to-video и генерацию аудио	Создала более прочную основу для видео более высокого качества и большей стабильности
Seedance 2.0Текущая	Объединила текст, изображения, видео и аудио в один рабочий процесс	Собрала референсы, редактирование, продолжение видео, мультишотную генерацию и нативный звук в более цельный инструмент AI-видеопроизводства

Ключевые сильные стороны Seedance 2.0

Seedance 2.0 особенно хорошо показывает себя в сложных сценах: движение стало стабильнее, а физика — убедительнее. Модель заметно увереннее справляется с многофигурными взаимодействиями и сложной динамикой, поэтому выдает больше клипов, которые реально можно использовать.

Например, в полноценной парной программе по фигурному катанию модель способна сгенерировать синхронные прыжки, вращения в воздухе и точные приземления, сохраняя правдоподобие движения от начала до конца. Это помогает сократить многие физические ошибки, типичные для более ранних AI-видео.

Мультимодальный контроль через референсы. Пользователь может загрузить до 9 изображений, 3 видеофрагментов и 3 аудиоклипов, а также дать инструкции на естественном языке. Модель использует эти референсы для композиции, движения, языка камеры, визуальных эффектов и звука. В качестве творческой опоры можно использовать даже текстовый сториборд.
Больше контроля над финальным роликом. Модель лучше следует инструкциям, держит консистентность, стабильнее продолжает видео и позволяет точечное редактирование. Создатель может вносить изменения в конкретные клипы, персонажей, действия или сюжетные линии. Появилось и планирование камеры от промпта, благодаря чему проще получать шоты с более ясным движением камеры, кадрированием и визуальным ритмом.
Генерация стереозвука по двум каналам. Поддерживается одновременный вывод нескольких звуковых дорожек, включая фоновую музыку, атмосферные эффекты и реплики персонажей. Эти элементы можно лучше синхронизировать с визуальным ритмом сцены, поэтому итоговый клип выглядит более цельным, погружающим и профессионально собранным.
Высококачественный мультишот на 15 секунд. За один проход модель может создать до 15 секунд многокадрового видео со звуком, давая автору больше пространства для сборки законченного визуального эпизода, а не короткого теста движения.

Тест раскадровки и движения камеры

Мы начали с футбольного матча, потому что это хороший тест для многосубъектного взаимодействия. Сцена требует, чтобы синяя команда сделала пять связанных передач, прошла через оборону красной команды и в конце забила гол.

Хотя задача звучит сложно, действие можно разбить на понятные моменты. Один шот может держать первую передачу, следующий — сопровождать принимающего игрока, еще один — показывать реакцию защитников. Камера должна успевать и за мячом, и за игроками, и за сменой точки фокуса в эпизоде.

В первом тесте мы не давали модели подробный сториборд и конкретные указания по камере. Нам было важно увидеть, насколько хорошо она сама справится с последовательностью, прежде чем мы добавим более жесткий контроль.

Иллюстрация теста раскадровки и движения камеры.

Первый проход без подробных указаний по шотам

Промпт

Football match. Blue team faces strong red defenders, completes five precise passes, then scores.

Act 1: Blue 8 is pressed by Red 3 and calmly passes to Blue 6. Blue 6 instantly sends a diagonal long ball to sprinting right winger Blue 7.

Act 2: Near the baseline, Blue 7 stops, cuts back to avoid Red 9's sliding tackle, then pushes the ball toward the penalty arc. Red 1 and Red 2 close in. Blue 7 flicks the ball through Red 2's legs back to the advancing Blue 1.

Act 3: Before the ball lands, Blue 1 sends a through ball to striker Blue 10, splitting the final defense. Facing goalkeeper Red 11, Blue 10 turns, swings past the defender, and gently shoots. The ball skims the grass, hits the inside post with a bang, and bounces into the net.

Результат

В целом результат получился хорошим. Синий номер 10 действительно завершил атаку ударом, но вся цепочка передач не была воспроизведена полностью. Вместо пяти четко связанных передач видео показало примерно три.

В середине эпизода часть действий, которые по промпту должны были выполнять синий номер 7 и синий номер 1, в итоге выполнил синий номер 10. Противостояние синего номера 7 и красных защитников тоже не было ясно показано, поэтому этот отрезок выглядел менее детализированным, чем в исходном описании.

При этом важно подчеркнуть, что это была первая генерация. Мы не делали несколько вариантов и не выбирали лучший. Уже такой результат с первой попытки выглядит впечатляюще, даже с учетом недостатков.

Сама раскадровка и движение камеры не были ошибочными, но им не хватало выраженного стиля. Возможно, это способ модели перестраховаться в задаче с высокой плотностью информации.

Добавляем более подробный сториборд и язык камеры

Дальше мы проверили, что изменится, если добавить более детальные указания по раскадровке и движению камеры.

Промпт

In a football match, facing strong red-team players, the blue-team players complete five precise passes and finally score.
Act 1: Opening the Play - Passes 1-2
Shot 1 - Medium Shot: At the center of the frame, Blue No. 8 faces pressure from Red No. 3 and calmly passes the ball with the inside of his foot to Blue No. 6, who drops back to receive it.
Shot 2 - Wide Shot: After receiving the ball, Blue No. 6 does not hold onto it. He immediately sends a precise diagonal long pass. The ball draws a beautiful arc through the air and lands accurately at the feet of Blue No. 7, the right winger sprinting forward.
Act 2: Breaking Through the Defense - Passes 3-4
Shot 3 - Close-up / Tracking Shot: Near the baseline, Blue No. 7 suddenly stops and cuts the ball back, avoiding a sliding tackle from Red No. 9, then pushes the ball toward the top of the penalty arc.
Shot 4 - Low Angle: Two defenders, Red No. 1 and Red No. 2, move in to double-team him. Blue No. 7 lightly flicks the ball, sending it through Red No. 2's legs and back to Blue No. 1, who is rushing forward to complete the combination.

Результат

На этот раз модель почти идеально последовала промпту и действительно показала способность к мультишотной сборке. Общий план для длинной передачи сработал хорошо, потому что сделал траекторию мяча более читаемой. Крупный план с трекингом тоже помог показать синего номера 7 у лицевой линии и давление со стороны защитника.

Но идеальным результат не был. Номера игроков местами сбивались, а часть действий выполняли не те персонажи. Двойная опека со стороны красных номеров 1 и 2 тоже не выглядела достаточно ясно.

И все же для промпта с несколькими игроками, множеством передач и разными типами шотов результат сильный. Он показывает, что модель понимает базовую многокадровую последовательность, даже если часть деталей теряется.

Сцена с перекрестным монтажом

Дальше мы протестировали последовательность с перекрестным монтажом. Такой тип раскадровки хорошо подходит для сильного эмоционального или сюжетного контраста. Классический пример — сцена крещения в The Godfather, где участие Майкла в церемонии перемежается кадрами убийств глав пяти семей.

Для этого теста мы взяли более комедийную ситуацию: мышь выступает на сцене и отвлекает публику музыкой, а ее сообщники в это время обкрадывают зрителей. Перекрестный монтаж естественно подчеркивает такой контраст.

Результат

В целом результат оказался довольно хорошим. Модель действительно использовала перекрестную структуру и успешно создала чувство контраста. Последовательность могла бы сработать еще лучше, если бы в ней было больше реакций публики.

Однако при высокой информационной нагрузке количество ошибок и пропущенных деталей растет, поэтому создателям по-прежнему приходится осторожно расставлять приоритеты. Оценочная пригодность этого видео — около 85%.

Сцена одним кадром

Следующим был тест одной непрерывной сцены. Мы сделали паркур-эпизод в Марокко, где молодой человек пробегает по крышам, улицам, переулкам, домам и внутренним дворикам.

Это полезный стресс-тест, потому что видео одним кадром не может прятать ошибки за монтажными склейками. Модель должна удерживать персонажа, движение камеры и пространство сцены связанными от начала до конца. При этом движение должно оставаться быстрым и захватывающим, а марокканский город — легко считываться.

Результат

В целом видео хорошо удержало стиль одной непрерывной сцены от начала до конца. Марокканский городской сеттинг тоже был показан удачно: крыши, узкие улицы, переулки и традиционные здания делали локацию понятной.

Главная проблема была в самом беге. В некоторые моменты паркурщик двигался не как реальный человек. Его шаги не всегда ощущались опирающимися на землю, а приземлениям не хватало веса, которого ждешь от настоящего бега и прыжков. Иногда казалось, будто его стопы слегка парят над поверхностью — скорее как у игрового персонажа, чем у живого человека.

Тем не менее для быстрой сцены одним кадром с таким количеством сменяющихся пространств результат сильный. Действие осталось связным, а атмосфера марокканских улиц передалась хорошо.

Оценка пригодности

Если посмотреть на пригодность четырех роликов вместе, то первый был почти на 100% пригодным, с ошибками только в номерах на форме. Второй был близок к 90%, с ошибками камеры поверх ошибок в номерах. Третий — около 70%. Четвертый — почти 95%. Вскоре после релиза Seedance 2.0 звучало утверждение, что его показатель пригодности может доходить до 90%. По этим тестам такая оценка не выглядит сильным преувеличением.

Тест следования инструкциям

Следующий блок — тест на следование инструкциям. Для него пришлось заранее написать очень подробные сценарии с помощью Gemini и подготовить полный набор изображений-референсов.

Поскольку сцена включала Сунь Укуна и Красного Мальчика из Black Myth и работала только с одной IP-вселенной, требования к референсам и слиянию образов были не особенно высокими. Основной фокус был именно на следовании инструкциям.

Сюжет в целом был довольно прямолинейным: Сунь Укун и Красный Мальчик сражаются на Огненной горе. Бой идет с переменным успехом, пока Красный Мальчик не использует грязный прием и не сбивает Сунь Укуна с ног.

Раскадровка и референсы для теста следования инструкциям.

Результат

Весь ролик выглядел впечатляюще. Рывок Красного Мальчика, взмах золотым посохом у Сунь Укуна, поток огня и магическая защита от удара ощущались почти как кадры из официальной анимационной постановки.

Больше всего удивили экшен и визуальное качество. Модель очень хорошо справилась со всплесками магической силы, огненными эффектами, масштабными атаками и столкновениями энергий. Она также довольно точно передала визуальный стиль исходной IP. При более детализированных промптах результат, вероятно, можно было бы дожать еще сильнее.

Но у этой сцены были и серьезные требования к повествованию. Модель уверенно работает с крупным действием и эффектами, но хуже справляется с тонкими эмоциональными деталями. Например, ей трудно было показать явный переход от высокомерия к страху. Это стало одним из главных ограничений финального видео.

Тест мультимодальных референсов

Дальше шел тест мультимодальных референсов. Сначала мы проверили, насколько Seedance 2.0 умеет опираться на аудио.

Первым аудиофайлом для теста был припев Blue Bird. Мы дали модели этот отрывок вместе с изображением концертной площадки с огромной аудиторией.

Самым неожиданным оказалось то, что модель смогла сама достроить контент. Например, три секунды до начала пения мы ей не давали. Она продолжила этот фрагмент самостоятельно. Мелодия совпадала с оригиналом, но была подана в атмосфере живого выступления.

Еще сильнее впечатлило то, что движения губ певицы почти идеально совпадали с песней. Единственное сожаление в том, что предоставленный файл уже был почти 15 секунд. После того как модель добавила еще три секунды, времени на финале не хватило, и одна строка в конце была пропущена.

Затем мы проверили видео-референсы. Вероятно, именно здесь лучше всего видно, чем Seedance 2.0 отличается от других. Генерация видео по звуковым эффектам или музыке сама по себе не нова. Например, модель MoCha от Meta уже исследовала похожие идеи.

В этом тесте мы пошли по более творческому пути: заменили Леви на Дзэницу Агацуму из Demon Slayer и заставили его сражаться с Звероподобным Титаном. Поскольку стили боя у этих двух персонажей очень разные, мы не пытались воспроизвести каждый сложный кадр буквально. Вместо этого сосредоточились на одном узнаваемом приеме: Thunder Breathing, First Form: Thunderclap and Flash.

Результат оказался на удивление сильным. Модель передала ощущение маленького, очень быстрого героя, который в воздухе сражается с гигантским противником, при этом показав сильные порывы ветра, золотые молнии, скоростной рывок и мощные удары грозового типа. Она даже использовала крупные планы лица Титана, чтобы показать шок и страх, и сохранила логику исходного действия, заставив Дзэницу нестись по руке Титана к его голове.

В тесте с видео-референсами мы заметили, что видео направляет модель лучше, чем статичные изображения. Она не просто копирует визуальные элементы, а следует ритму, движению камеры и пластике действия из референса. Она даже способна воссоздавать ощущение разных аниме- или киноязыков.

Однако такой уровень контроля все еще достигается нелегко, и результат получается не всегда стабильно. Когда сцена становится слишком сложной, модель начинает упираться в свои пределы. Если в промпте слишком много информации или слишком много мелких логических шагов, ей может быть трудно удержать все сразу. В таких случаях она часто откатывается к быстрому монтажу или трейлерной нарезке, чтобы упростить задачу.

Даже при этом творческое смешение по-прежнему может давать очень неожиданные результаты. Детали не всегда бывают точными, но способность модели создавать выразительные и визуально эффектные ролики уже выглядит достаточно сильной для реального продакшена.

Ограничения Seedance 2.0

Хотя Seedance 2.0 сделал большой шаг вперед в управляемости, до идеального симулятора мира ему все еще очень далеко. По сравнению с конкурентами вроде Sora 2 и Google Veo 3.1, Seedance 2.0 не лидирует по всем направлениям.

Сложные физические эффекты все еще выглядят недостаточно реалистично

Похоже, современные AI-видеомодели по-прежнему моделируют физический мир скорее через распознавание паттернов, чем через понимание первопринципов. Поэтому на сложных или необычных физических взаимодействиях они все еще показывают слабые места.

Например, простые брызги воды у Seedance 2.0 могут выглядеть вполне достойно. Но более сложные потоки жидкости, складки и растяжение ткани при быстром движении или тонкая работа волос все еще могут казаться жесткими и менее реалистичными.

При столкновениях, взаимодействии со стопками объектов или тонких манипуляциях предметами Seedance 2.0 по-прежнему показывает типичные AI-артефакты: клиппинг, парение или неестественное ускорение. Ему все еще не хватает более глубокого понимания пространственных связей, контакта объектов и передачи силы между ними.

В длинных видео накапливается дрейф деталей

Хотя Seedance 2.0 держит хорошую связность в пределах одного прохода примерно на десять секунд, по мере увеличения длительности начинают появляться проблемы. Сейчас все видеомодели сталкиваются с вызовом, который можно назвать затуханием памяти.

В повествовательном видео длиной в несколько минут модель должна удерживать мотивацию персонажей, детали сцены и состояние объектов согласованными на протяжении времени. Для этого нужна сильная долговременная память, а это все еще трудно для современных видеомоделей. Поэтому такие ролики пока требуют ручного монтажа и генерации по сегментам, чтобы сохранить цельность.

В некоторых пользовательских роликах даже Seedance 2.0 может показывать легкий дрейф текстур или мерцание во второй половине клипа, особенно на тонких узорах, тексте или фоновых деталях.

Чисто реалистичный text-only контент может уступать конкурентам

По сравнению с Sora 2 и Veo 3.1 у Seedance 2.0 есть явные преимущества в нескольких зонах, но есть и слабые стороны.

Sora и Veo, похоже, больше нацелены на моделирование реального мира, тогда как Seedance 2.0 больше сосредоточен на построении управляемой съемочной площадки. Для короткого контента, где важны быстрый вывод и очень высокий реализм, лучшим вариантом может быть нативная синхронизация аудио и видео у Veo 3.1. Но для профессиональных авторов, которым нужен тонкий контроль над актерской игрой персонажей, языком камеры и визуальным стилем, более режиссерский workflow Seedance 2.0 может быть привлекательнее.

Когда речь идет о чисто реалистичном видео по одному только тексту, без референсов, Seedance 2.0 иногда уступает конкурентам в правдоподобии людей и тонкости освещения. Возможно, это связано с разными решениями в дизайне модели и фокусе обучающих данных.

Вывод

Seedance 2.0 стал заметно надежнее. Даже когда генерация не удается, результат редко оказывается полностью бесполезным. Обычно в нем остаются фрагменты, которые можно сохранить, отредактировать или переиспользовать. Это важно, потому что смещает вопрос с «можно ли вообще использовать AI-видео?» на «как использовать его лучше?».

Самая сильная основа модели — раскадровка. Когда промпт ясен, а плотность информации разумна, модель уверенно следует многокадровой структуре, логике действия и указаниям по камере. Но ее сторителлинг все еще больше похож на корректное выполнение задачи, чем на выраженную режиссерскую интонацию.

Seedance 2.0 также впечатляет в экшене, VFX и генерации на базе референсов, особенно когда для смешения стиля используются визуальные или видео-референсы. Но если сцена требует очень тонкого эмоционального контроля, высокой смысловой плотности или точного намерения на уровне кадр за кадром, модель все еще склонна откатываться к более безопасным решениям.

Если вы тоже хотите попробовать AI-генерацию видео, перейдите на страницу Seedance 2.0 на Lanta AI и начните создавать уже сейчас.

Попробовать Seedance 2.0 на Lanta AI