如何写出更好的 AI 视频提示词

学习如何为 AI 视频生成写出更好的提示词，会明显影响最终效果。写得好的 AI 视频提示词可以帮助模型理解主体、运动、场景、镜头角度、视觉风格和氛围。无论你是在制作文生视频片段、让图片动起来，还是测试不同 AI 视频模型，这份指南都会帮助你写出更清晰的提示词，并获得更稳定的视频结果。

如果完全没有提示词灵感怎么办？

刚开始接触 AI 视频生成时，很多人不知道该写什么。这很正常。很多时候，你并不是不会写 AI 视频提示词，而是不知道从哪里开始。

一个好的 AI 视频创意，往往从一张强视觉图片开始。当你有一张图片、截图或视频帧作为参考后，把这个视觉想法转成清晰提示词就会容易很多。

更好的方式是先从一张你喜欢的图片出发，再围绕它搭建提示词。

从你喜欢的图片搭建提示词

你可以从 YouTube 视频、电影场景、音乐视频、产品广告，或者任何你觉得有创意的图片中截取画面。然后用 ChatGPT 或 Gemini 帮你描述这张图，并提取出可用的提示词。把它作为基础，再做一些小改动。你可以更换角色、姿势、服装、宠物或背景。

例如，你看到一个创意视频：一个盒子先抖动摇晃，然后一个小机器人突然从盒子里钻出来。你不必继续使用同样的机器人，可以把它换成一只胖胖的橘猫。新的提示词可以变成：

一个纸箱在地板上摇晃，随后一只胖胖的橘猫突然跳出来，看起来又惊讶又调皮。

原始场景结构

一个小机器人从摇晃的纸箱里突然钻出来。

改写后的提示词创意

同样的场景结构变成一只调皮的橘猫从盒子里跳出来。

这样你并不是直接复制原来的创意，而是借用了场景结构，并把它改造成新的内容。

有了修改后的提示词后，可以先生成一张关键图。选择最符合你想法的图片，再把它作为 AI 视频的起始帧。

从 AI 提示词社区寻找灵感

AI 提示词社区和作品展示页也很适合找灵感。很多创作者会浏览 Midjourney Explore、PromptHero、Lexica、OpenArt、Civitai，或者 Runway、Kling、Luma、Pika 等工具的官方图库。

电影感 + 暴风雨 + 广角镜头
跑车 + 雪地 + 无人机视角
滑板少年 + 山路 + 运动模糊
城市街道 + 魔法传送门 + 手持镜头

目标不是照抄别人的提示词，而是观察大家常用的视觉组合。找到你喜欢的风格或场景结构后，把主体、地点、动作或镜头运动换成你自己的想法。

例如，如果你看到一条关于跑车在雪地里漂移、用无人机镜头拍摄的提示词，你可以把它改成摩托车在沙漠公路上飞驰、机器人穿过冰封城市，或者女孩在结冰湖面上滑行。结构给你灵感，但最终视频创意会变成你自己的。

AI 视频生成提示词的通用结构

在为不同 AI 视频模型写更高级的提示词之前，先理解一个好视频提示词的基本结构会很有帮助。一个简单公式是：

主体->动作->场景->镜头运动->视觉风格->音频

前两部分，也就是主体和动作，是提示词的基础。它们告诉模型视频里应该出现谁或什么，以及会发生什么。例如：“一个女人跳舞”“一个机器人穿过沙漠”“一只狗在海滩上奔跑”。

接下来的场景和视觉风格，会定义视频的外观和情绪。你可以描述地点、光线、天气、色调或艺术风格。例如：“在黄金时刻的屋顶上”“在霓虹灯照亮的赛博朋克街道里”“使用柔和电影光和真实胶片质感”。

然后加入镜头运动和音频，可以让视频更完整。像“缓慢推近”“手持跟拍”“360 度环绕镜头”这样的镜头细节，可以引导画面运动。像“轻柔的风声”“远处车流声”“戏剧化背景音乐”这样的音频细节，也能增强沉浸感，尤其适合支持音频生成的模型。

一个女人在屋顶上跳舞。

一位年轻女人穿着飘逸的红裙，赤脚在黄金时刻的城市屋顶上跳舞。镜头从低角度缓慢环绕她。温暖的夕阳从建筑表面反射出来，背景里有轻柔的风声和远处城市车流声。

这个版本给 AI 视频模型提供了更清楚的创作方向。各个元素配合得越清晰，模型越有可能生成符合你想法的视频。

使用镜头运动

好的 AI 视频提示词不应该只描述画面里出现了什么，也应该描述镜头如何运动。

镜头运动可以帮助 AI 理解镜头的节奏、焦点和情绪。不要只写：

一个男人站在夜晚的城市里。

可以这样写：

一个电影感中景镜头：一名男人站在夜晚霓虹灯照亮的城市街道上。雨水落在他周围，镜头缓慢推近他的脸。潮湿路面反射出柔和光芒，营造出戏剧化且带有情绪的氛围。

下面是一些适合 AI 视频提示词的常用镜头运动：

镜头方向	适合场景	提示词细节示例
缓慢推近	情绪、戏剧感、产品聚焦	镜头缓慢推近主体
跟拍镜头	奔跑、赛车、动作场景	镜头在汽车旁边跟随它向前疾驰
环绕镜头	产品、角色、英雄感镜头	镜头平滑地围绕主体转动
低角度镜头	力量感、英雄感、冲击力	从下方向上拍摄，让角色显得更强大
广角镜头	场景建立、环境展示	广角镜头展示完整的雪山公路
特写	面部、细节、质感	歌手表演时的面部特写
手持镜头	真实感、紧张感、纪录片风格	轻微的手持镜头运动增加真实感

为了获得更稳定的结果，每个镜头最好只使用一个主要镜头运动。如果在一条提示词里加入太多镜头方向，视频可能会显得不稳定或混乱。

把动作描述清楚

AI 视频围绕运动生成，所以动作必须具体。提示词应该解释主体在做什么、动作发生得多快，以及画面中有哪些细节在移动。

避免这种模糊提示词：

一个女人在美丽的森林里。

这句话描述了图像，但没有给 AI 足够的运动信息。

更强的提示词可以是：

一位年轻女人缓慢走过雾气弥漫的森林，手轻轻拂过高高的草丛。她的头发在风中轻柔飘动，镜头在她身侧跟拍。阳光穿过树木洒下，营造出平静而梦幻的氛围。

写动作提示词时，可以使用更具体的动词，例如：

简单动词	更具体的版本
移动	缓慢转身、滑动、向前冲
走	小心地走、自信地走、穿过雾气
跑	冲刺、飞奔、穿过画面
看	转向镜头、向上瞥一眼、回头看
驾驶	向前疾驰、绕弯漂移、在雪地中加速
跳舞	优雅旋转、跟随节奏迈步、随着节拍移动

你越清楚地描述动作，AI 模型就越容易生成一个有意图、自然且具有电影感的视频。

不同视频模型需要不同提示词写法

关于 AI 视频提示词，一个重要认知是：同一个想法，在不同视频模型里可能需要不同写法。在一个模型里效果很好的提示词，换到另一个模型里可能会显得太松散、太详细，或结构不够清楚。

例如，假设你想创建一个简单场景：一个穿红裙的女人在屋顶上跳舞。

对于 Seedance 2.0，包含清晰电影感和视觉细节的提示词通常更有效：

一位年轻女人穿着飘逸的红色丝绸长裙，赤脚在黄金时刻的屋顶上跳舞。低角度，缓慢 360 度环绕镜头。城市灯光从下方反射出温暖的钨丝灯感补光。35mm 胶片颗粒。

这种写法为模型提供了主体、运动、镜头角度、光线、镜头质感和视觉纹理等具体信息。

对于 Kling 3.0，更结构化、偏场景脚本的格式通常更合适：

场景：黄金时刻的砖墙公寓屋顶，上方挂着小串灯。角色：一位年轻女人穿着飘逸的红色丝绸长裙，赤脚，卷发被阳光照亮。动作：她旋转，裙摆展开；随后停下，微笑并望向城市。镜头：缓慢推近，然后从低角度进行 270 度环绕。

这条提示词更像一段短视频脚本。它把场景、角色、动作和镜头运动分开，帮助模型一步步理解镜头。

对于 HappyHorse 1.0，更短、更紧凑的提示词可能更好：

一位年轻女人穿着飘逸的红色丝绸长裙，在黄金时刻的城市屋顶上跳舞，缓慢圆形跟拍镜头，温暖侧光，头发和裙摆随风流动，伴有轻柔风声和远处车流声。

这个版本保留了关键信息，但避免提示词过长。它用一句清楚的话聚焦主体、场景、动作、镜头风格、光线和音频氛围。

重点不是哪种提示词一定正确，而是要让提示词风格匹配你正在使用的模型。

文生视频和图生视频提示词不一样

文生视频和图生视频提示词不应该完全一样。原因很简单：文生视频从零开始，而图生视频已经有视觉参考。

文生视频提示词

对于文生视频，你的提示词需要描述视频长什么样、发生了什么。模型还不知道场景是什么样，所以你需要说明主体、场景、动作、镜头运动、光线、情绪和风格。

一个电影感广角镜头：一辆红色跑车在夜晚的雪山公路上飞驰。汽车绕过急弯漂移，把雪扬到空中。镜头从车旁低角度跟随，营造快速而强烈的感觉。明亮车灯穿过飘落的雪，天空中有蓝色极光。真实物理效果，戏剧化运动模糊，高细节电影风格。

当你想从零生成一个完整视频场景时，这类提示词很适合。

图生视频提示词

图生视频提示词应该描述现有图片如何运动。第一帧已经给了模型大量视觉信息，所以你不需要重复图片里的每一个静态细节。

把这张图片动画化成一个电影感 5 秒视频。跑车向前加速，并轻微向左漂移，后轮扬起雪花。镜头以低角度视角在汽车旁边跟拍。加入自然雪粒子、真实轮胎运动、车灯辉光和轻微运动模糊。保持汽车设计、颜色和背景与原图一致。

当你已经有一张强起始帧，并希望让它动起来时，这种写法最合适。关键是引导运动，同时尽量不要改变原图。

如何为长 AI 视频写提示词

制作较长的 AI 视频时，不要试图用一条提示词生成完整视频。大多数 AI 视频模型仍然更擅长生成短片段，通常是 4-5 秒或 5-10 秒。如果你要求模型一次生成完整长视频，结果可能会失去一致性、跳过关键动作，或画面变得混乱。

更好的工作流是：

写脚本->拆分成镜头->生成关键帧或首帧->分别生成每个镜头->把片段剪辑成完整视频

例如，如果你想创建一个 15 秒视频，可以这样拆分：

时间	镜头内容	目的
0-3 秒	建立场景并展示环境	让观众理解故事发生在哪里
3-6 秒	主要主体开始动作	建立节奏
6-10 秒	最精彩的动作发生	制造视觉亮点
10-13 秒	加入一个特写细节镜头	让视频更丰富
13-15 秒	用最终画面、品牌瞬间或情绪收尾	留下清晰记忆点

例如，不要为雪地赛车视频写一条很长的提示词，而是把它拆成五个短镜头：

时间	镜头
0-3 秒	无人机镜头展示一条雪山公路，一辆红色跑车驶入画面。
3-6 秒	低角度跟拍镜头跟随汽车飞驰经过镜头，雪被扬到空中。
6-10 秒	汽车绕过急弯漂移，镜头围绕车身环绕拍摄。
10-13 秒	车轮在雪中高速旋转的特写，冰粒和雪粉向外飞散。
13-15 秒	汽车驶向远方，头顶是发光的北极光，以电影感广角镜头结束。

这种方法能让你更好地控制最终视频。每个镜头都有清晰目的、镜头角度、动作和情绪。它也让后期剪辑更容易，因为每个片段都被设计成可以和下一个片段衔接。

最后总结

一个强提示词应该描述主体、动作、镜头运动、视觉风格、光线和情绪。你越清楚地说明什么应该移动、镜头应该如何捕捉它，AI 就越容易生成自然、电影感且有明确意图的视频。

准备把你的想法变成视频了吗？试试 Lanta AI Video Generator，用文字提示词或图片创建 AI 视频。无论你想制作社交媒体短片、产品视频、音乐视频、故事场景还是创意短片，Lanta AI 都能帮助你用几个简单步骤生成流畅且有电影感的视频。

FAQ

每个 AI 视频都需要很长的提示词吗？

不需要。提示词应该足够清楚，但不应该长到给模型太多互相冲突的方向。对于一个短片段，聚焦一个主体、一个动作、一个场景、一个镜头运动和一种视觉风格通常就够了。

如果没有 AI 视频提示词灵感怎么办？

从一张强参考图、截图或视频帧开始。描述你喜欢它的哪些部分，然后更换主体、动作、背景或镜头运动，让这个想法变成你自己的。

AI 视频提示词里应该写音频吗？

如果模型支持音频生成，或者声音氛围对视频很重要，就可以加入音频细节。像轻柔风声、远处车流声、脚步声或戏剧化音乐这样的短提示，可以帮助定义情绪。

长 AI 视频应该怎么写提示词？

把视频拆成短镜头。为每个片段分别写提示词，需要时生成关键帧或首帧，然后把完成的片段剪辑在一起。