Lanta AI 图标

Seedance 2.0 评测:控制力很强,但离“完美世界模拟器”还很远

Lanta AI 编辑团队
2026年5月12日
10 分钟阅读

Seedance 2.0 确实让我们眼前一亮,但原因并不是大多数 demo 视频里强调的那一点。

最值得注意的并不是纯粹的画质,而是控制力。在我们的测试中,Seedance 2.0 更擅长遵循镜头指令、利用视觉参考,并把一个简单分镜转成更像“按计划拍出来”的视频,而不是随机构图的片段。

在这一点上,Seedance 2.0 比很多纯提示词视频模型都更进一步。但它也暴露出创作者不能忽视的上限:有的测试让它的控制力显得很惊艳,另一些测试则清楚显示出它的物理感依然不够真实。

继续往下看,你会更清楚 Seedance 2.0 擅长什么、会在哪些地方失手,以及它是否真的适合视频创作者拿来用。

什么是 Seedance 2.0?

Seedance 2.0 是字节 Seed 推出的 AI 视频模型,目标是让 AI 视频更可控、更真实,也更接近真实制作流程的需求。

它不只是一个基础的文生视频模型。它可以把文本、图片、视频片段和音频都当作参考输入,让创作者更精确地控制主体、镜头运动、风格、节奏和声音。

From Seedance 1.0 to Seedance 2.0

版本新增了什么如何推动下一版本
Seedance 1.0
开启了 Seedance 视频模型系列让模型具备了生成短 AI 视频片段的基础能力
Seedance 1.5
提升了音画同步能力让声音与画面之间的配合更自然
Seedance 1.5 Pro
进一步增强了图生视频与音频生成为更高质量、更稳定的视频输出打下更强基础
Seedance 2.0当前版本
把文本、图片、视频和音频整合进同一套工作流把参考控制、编辑、视频续写、多镜头生成和原生声音整合成更完整的 AI 视频创作工具
Seedance 2.0 概览配图。

Seedance 2.0 的核心亮点

Seedance 2.0 在复杂场景里的表现尤其突出,动作稳定性更强,物理运动也更可信。它在多人互动和复杂运动场景中表现更好,能产出更多真正“可用”的片段。

例如在完整的双人花样滑冰动作里,模型可以生成同步起跳、空中旋转和准确落地,并且从头到尾都尽量维持动作的物理可信度。这能减少早期 AI 视频里常见的很多物理错误。

  • 多模态参考控制。用户最多可以提供 9 张图片、3 段视频和 3 段音频,再配合自然语言指令。模型可以据此控制构图、动作、镜头语言、视觉特效和声音,甚至还能把文字分镜当作创作参考。
  • 对最终视频有更强的掌控力。它在指令跟随、一致性、视频续写稳定性和定向编辑上都更进一步。创作者可以针对具体片段、角色、动作或剧情做更精细的修改,同时也支持基于提示词的镜头规划,让运镜、构图和视觉流动更清晰。
  • 双声道立体声生成。它支持同时输出多轨声音,包括背景音乐、环境音效和角色旁白,并能与画面节奏更好对齐,让成片更完整、更沉浸,也更像经过专业处理。
  • 一次生成最长 15 秒的高质量多镜头视频。相比只能生成短运动样本的模型,它能给创作者更多空间去拼出更完整的视觉片段。

分镜与运镜测试

我们先从一场足球比赛开始,因为这是测试多主体互动的好题目。场景要求蓝队完成五次连续传球、穿透红队防线,并最终完成射门得分。

虽然听起来复杂,但这个动作其实可以拆成清晰的几个时刻。一个镜头可以聚焦第一次传球,下一个镜头跟随接球者,再下一个镜头展示防守队员的反应。镜头需要同时跟上球、球员和攻防焦点的变化。

在第一次测试里,我们没有给模型详细分镜,也没有给明确运镜指令。我们想先看看,在控制条件不充分的情况下,它自己能把这段 sequence 处理到什么程度。

分镜与运镜测试配图。

先测试:不给详细镜头指令

提示词
Football match. Blue team faces strong red defenders, completes five precise passes, then scores.

Act 1: Blue 8 is pressed by Red 3 and calmly passes to Blue 6. Blue 6 instantly sends a diagonal long ball to sprinting right winger Blue 7.

Act 2: Near the baseline, Blue 7 stops, cuts back to avoid Red 9's sliding tackle, then pushes the ball toward the penalty arc. Red 1 and Red 2 close in. Blue 7 flicks the ball through Red 2's legs back to the advancing Blue 1.

Act 3: Before the ball lands, Blue 1 sends a through ball to striker Blue 10, splitting the final defense. Facing goalkeeper Red 11, Blue 10 turns, swings past the defender, and gently shoots. The ball skims the grass, hits the inside post with a bang, and bounces into the net.

结果

整体来看,这个视频结果是不错的。蓝队 10 号确实完成了最后射门,但完整的传球链路并没有被完整复现。原本应当出现的五次连续传球,最终大概只呈现出了三次。

在中段部分,原本属于蓝队 7 号和 1 号的动作,有几处被蓝队 10 号替代完成了。蓝队 7 号与红队防守队员的对抗也没有被清楚表现出来,所以这一段比原 prompt 里描述的细节更弱一些。

不过要强调的是,这只是第一次生成。我们没有多次重抽、也没有挑最好的版本。第一次就能达到这个完成度,哪怕有缺点,也已经相当让人印象深刻。

它的分镜和运镜不能说错,但也没有特别鲜明的风格。这很可能是因为在信息密度很高的任务下,模型选择了更保守的处理方式。

再测试:补充分镜和镜头语言

接下来我们加上更细的分镜和运镜要求,看看结果会发生什么变化。

提示词
In a football match, facing strong red-team players, the blue-team players complete five precise passes and finally score.
Act 1: Opening the Play - Passes 1-2
Shot 1 - Medium Shot: At the center of the frame, Blue No. 8 faces pressure from Red No. 3 and calmly passes the ball with the inside of his foot to Blue No. 6, who drops back to receive it.
Shot 2 - Wide Shot: After receiving the ball, Blue No. 6 does not hold onto it. He immediately sends a precise diagonal long pass. The ball draws a beautiful arc through the air and lands accurately at the feet of Blue No. 7, the right winger sprinting forward.
Act 2: Breaking Through the Defense - Passes 3-4
Shot 3 - Close-up / Tracking Shot: Near the baseline, Blue No. 7 suddenly stops and cuts the ball back, avoiding a sliding tackle from Red No. 9, then pushes the ball toward the top of the penalty arc.
Shot 4 - Low Angle: Two defenders, Red No. 1 and Red No. 2, move in to double-team him. Blue No. 7 lightly flicks the ball, sending it through Red No. 2's legs and back to Blue No. 1, who is rushing forward to complete the combination.

结果

这一次,模型几乎完整跟住了 prompt,而且确实展示出了多镜头能力。长传那一段的大全景效果很好,因为它让球的运动轨迹更容易被看清;贴近底线的跟拍近景,也更好地表现了蓝队 7 号的持球和防守压力。

当然,结果依然不完美。有些球衣号码并不稳定,部分动作还是被错误的球员执行了。红队 1 号和 2 号的双人包夹也没有表现得特别清楚。

但对于这样一个包含多名球员、连续传球和不同镜头类型的 prompt 来说,这个结果已经很强了。它说明模型确实能理解基础的多镜头 sequence,只是某些细节还会丢失。

交叉剪辑蒙太奇测试

接着我们测试了交叉剪辑式的蒙太奇 sequence。这类分镜很适合制造情绪或叙事上的对比。经典例子就是《教父》里的洗礼段落:Michael 参加洗礼仪式的画面,与他手下同时刺杀五大家族首脑的画面交叉出现。

这次测试我们用了更喜剧化的设定:一只老鼠在舞台上表演音乐吸引观众,其他同伴则趁机偷窃。交叉剪辑本来就是表现这种反差的天然方式。

结果

整体结果相当不错。模型确实用了交叉剪辑结构,也成功做出了对比感。如果能再多加一些观众反应镜头,效果可能会更好。

不过在高信息压力下,错误和细节缺失也会更容易增加,所以创作者仍然需要仔细权衡。按我们的估算,这条视频的可用率大概在 85% 左右。

一镜到底测试

接下来我们测试了一镜到底 sequence。这个测试里,我们把场景设在摩洛哥,跟随一个年轻人穿过屋顶、街道、小巷、民居和庭院完成跑酷。

它很适合做压力测试,因为一镜到底无法依靠剪切去掩盖错误。模型必须从头到尾保持角色、镜头运动和场景空间的连续性,同时还要让动作看起来既快又有张力,并且能清楚传达摩洛哥城市环境。

结果

整体来看,这条视频从头到尾都比较好地维持了一镜到底的风格。它对摩洛哥城市气质的呈现也不错,屋顶、狭窄街道、小巷和传统建筑都让地点感比较明确。

最大的问题出在跑动动作本身。有些时刻,跑酷者的动作并不像真人。他的脚步并不总是足够“踩实地面”,落地也缺少真实跑跳应有的重量感。有时甚至会让人感觉双脚略微漂浮,更像游戏角色,而不是真人在做跑酷。

即便如此,对于一个场景切换很多、速度很快的一镜到底视频来说,这个结果依然相当强。动作保持了连续性,摩洛哥街景的氛围也表达得很清楚。

可用率观察

如果把四条视频的可用率放在一起看:第一条接近 100%,主要问题只是球衣号码错误;第二条接近 90%,除了号码问题,还多了一些运镜误差;第三条大约在 70%;第四条接近 95%。在 Seedance 2.0 刚发布不久时,有说法称它的可用率能达到 90%。从这些测试来看,这个说法并不算太夸张。

指令跟随测试

接下来是指令跟随测试。这个测试需要先用 Gemini 写出非常细的脚本,并提前准备完整的图片参考。

因为场景使用的是《黑神话》里的孙悟空和红孩儿,而且只涉及一个 IP,所以在图像参考和融合上的要求并不算特别高。这里最核心的考察点还是指令跟随。

整体剧情比较常规:孙悟空与红孩儿在火焰山交战,来回拉扯后,红孩儿使阴招把孙悟空打倒。

指令跟随测试的分镜与图片参考。

结果

整条视频看起来相当惊艳。红孩儿的冲锋、孙悟空挥舞金箍棒、红孩儿喷火,以及孙悟空用法力硬挡这一击,都很接近正式动画作品的质感。

最大的惊喜来自动作和视觉质量。模型对法力爆发、火焰特效、大范围攻击和能量碰撞的处理都很好,也比较准确地抓住了原 IP 的视觉风格。如果提示词写得更细,结果大概率还能再往上推。

但这个场景本身也对叙事提出了更高要求。模型擅长大动作和强视觉特效,却不太擅长小尺度情绪细节。比如从傲慢到恐惧的情绪变化,就很难被清楚表现出来,这也成了最终视频的重要限制之一。

多模态参考测试

接下来是多模态参考测试。我们先测试了 Seedance 2.0 对音频参考的能力。

第一段用来测试的音频是《Blue Bird》的副歌部分。我们把这段音频和一张大型演唱会现场图片一起给了模型。

最让人意外的是,模型居然能自己补全内容。比如正式开唱前的三秒并不是我们提供的,但模型自己把这部分延伸出来了。旋律和原曲是对得上的,只是被包装成了现场演出的氛围。

更厉害的是,歌手的唇形和歌曲基本完全对上了。唯一遗憾是我们提供的音频本身已经接近 15 秒,模型又往前补了三秒,导致尾部没有足够时长,最后漏掉了一句歌词。

接着我们测试了视频参考。这大概是最能体现 Seedance 2.0 与众不同的地方。根据音效或音乐生成视频并不是全新概念,Meta 的 MoCha 模型其实也做过类似探索。

这次我们用了更有创意的处理方式:把 Levi 换成《鬼灭之刃》的我妻善逸,让他去对战兽之巨人。由于这两个角色的战斗方式差异很大,我们没有追求逐帧还原原始动作,而是抓住一个最鲜明的招式:雷之呼吸·壹之型·霹雳一闪。

结果出人意料地好。模型抓住了“小体型高速角色空中对战巨型敌人”的感觉,同时也做出了强风、金色雷电、高速突进和雷暴冲击的视觉效果。它甚至用近景去表现兽之巨人脸上的震惊和恐惧,并沿用了原本的动作逻辑,让善逸顺着巨人的手臂冲向头部。

在视频参考测试里,我们发现视频参考比静态图片更能引导模型。它不只是复制视觉元素,而是能跟着参考视频的节奏、运镜和动作风格走,甚至能复现不同动画或电影风格的感觉。

不过,这种级别的控制依旧不算轻松,结果也并不总是稳定。当场景复杂度太高时,模型就会开始碰到上限。如果 prompt 里塞进太多信息或太多细碎逻辑步骤,它就可能跟不住全部要求。此时模型常常会退回到更快的蒙太奇式切片,或者 trailer 风格的碎片化表达来降低难度。

即便如此,创造性的混搭依然能带来让人惊喜的结果。细节不一定完全准确,但它生成富有表现力、视觉上足够兴奋的视频的能力,已经强到可以进入真实制作流程。

Seedance 2.0 的局限

虽然 Seedance 2.0 在可控性上已经前进了一大步,但它离“完美世界模拟器”还很远。和 Sora 2、Google Veo 3.1 这类竞争对手相比,Seedance 2.0 并不是所有方面都领先。

复杂物理效果依然不够真实

现在的 AI 视频模型,似乎仍然更像是在通过模式匹配去拟合物理世界,而不是基于第一性原理去理解物理。这意味着一旦遇到复杂或少见的物理互动,它们还是容易暴露弱点。

比如,Seedance 2.0 生成简单水花时已经能看得过去;但面对更复杂的液体流动、快速运动中的布料褶皱拉伸,或者细微的发丝运动时,画面仍可能显得偏硬、不够真实。

在碰撞、堆叠物体和精细物体操作上,Seedance 2.0 仍会出现典型 AI 小毛病,比如穿模、漂浮或不自然的加速。它对空间关系、物体接触以及力如何在物体之间传递的理解,仍然需要加强。

长视频创作仍然容易漂移

虽然 Seedance 2.0 在单次生成、约十秒左右的片段里可以保持不错的一致性,但视频一旦变长,问题就会开始显现。现阶段所有视频模型都仍然面临“记忆衰减”的挑战。

在持续数分钟的叙事视频里,模型必须长期维持角色动机、场景细节和物体状态的一致,这需要很强的长期记忆能力,而这依然是当前视频模型的难点。因此,这类视频目前仍需要人工剪辑和分段生成,才能保证整体连贯。

在一些用户生成视频里,哪怕是 Seedance 2.0,也可能在片段后半段出现轻微材质漂移或闪烁,尤其是在细密纹理、文字或背景细节上。

纯文本写实内容仍可能落后于竞品

和 Sora 2、Veo 3.1 相比,Seedance 2.0 在某些方面确实有明显优势,但它也存在弱项。

Sora 和 Veo 看起来更像是在追求“模拟一个真实世界”,而 Seedance 2.0 更像是在“搭建一个可控片场”。如果你需要的是快速产出、且对写实感要求极高的短内容,那么 Veo 3.1 的原生音画同步可能会更有优势;但如果你更需要对角色表演、镜头语言和视觉风格做细致控制,那么 Seedance 2.0 这种更像导演工作流的方式会更有吸引力。

在完全没有参考、只靠文本生成纯写实内容时,Seedance 2.0 有时会在人类真实感和细腻光照上落后于竞品。这可能和模型设计取向以及训练数据重心有关。

最终结论

Seedance 2.0 已经可靠了很多。即便生成失败,它也很少会彻底不可用,通常总有一些片段还值得保留、继续编辑或二次利用。这一点很重要,因为它把问题从“AI 视频到底能不能用”转向了“我们应该怎样更好地用它”。

它最扎实的基础在于分镜能力。当 prompt 足够清晰、信息密度也合理时,模型能比较好地跟住多镜头结构、动作逻辑和运镜方向。不过,它的叙事感仍更像是“把任务完成对了”,而不是“带着鲜明导演表达把它拍出来”。

Seedance 2.0 在动作、VFX 和基于参考的生成上同样很强,尤其是在用视觉或视频参考做风格融合时更明显。但一旦场景需要极细的情绪控制、很密的叙事意义,或逐帧级别的精确意图,它仍然会退回到更安全的选择。

如果你也想亲自试试 AI 视频生成,可以前往 Lanta AI 上的 Seedance 2.0 页面,马上开始创作。