动漫动物短视频制作软件抖音 AI 动物视频制作全教程：让大橘猫和金毛成为故事主角

用户投稿 2025年08月21日 03:05:02 92 0

抖音 AI 动物视频制作全教程：让大橘猫和金毛成为故事主角

前期准备

确定故事主题 ：思考以大橘猫或金毛为主角的有趣故事。比如大橘猫的 “美食探险记”，讲述大橘猫在城市中寻找各种美味食物的经历；或者金毛的 “英雄救主”，描述金毛在关键时刻帮助主人化解危机。你可以从生活中的宠物趣事、热门的影视情节、奇幻的冒险故事等方向去构思。选择合适的 AI 工具 ：文生图工具 ：Midjourney ：生成的图片风格多样且艺术感强，对各种细节的把控非常出色。例如在生成大橘猫在神秘森林中寻找宝藏的画面时，能将森林的光影、大橘猫毛发的质感表现得淋漓尽致。但它是国外的工具，使用时可能需要一定的网络设置，且有付费门槛。Stable Diffusion ：开源且高度可定制化，用户可以根据自己的需求安装各种插件来实现特定效果。比如通过插件可以精确控制大橘猫或金毛的姿势、表情。不过它对电脑配置有一定要求，部署和使用相对复杂一些。即梦 AI ：国内工具，操作较为简单，适合新手快速上手。在生成一些日常场景下的动物画面时，效果不错，如生成金毛在公园草地上玩耍的图片。图转视频工具 ：可灵 AI ：在画面一致性方面表现良好，对中文指令的理解能力较强。如果想让大橘猫的动作在视频中连贯自然，用可灵 AI 输入 “大橘猫缓慢地跳上沙发，躺下，开始舔毛” 这样的中文指令，就能得到不错的效果。Runway ：动态效果和可控性都很强，能实现多种复杂的运镜和动画效果。但它通常费用较高。例如要制作一个有电影质感的金毛奔跑追逐球的视频，Runway 能通过精细的参数设置达成。Pika Labs ：在创意运镜和视觉效果上有独特之处，能为视频增添一些新颖的视觉元素。比如让大橘猫的视频呈现出梦幻般的色彩和特效。

素材收集

收集动物形象素材 ：从网络上搜集高质量的大橘猫和金毛的图片或视频作为参考，了解它们的外貌特征、动作姿态。比如可以找一些大橘猫慵懒趴着、活泼跳跃的图片，以及金毛奔跑、摇尾巴的视频，方便在 AI 生成时更好地把握动物的形态。收集场景素材 ：根据故事主题收集相关场景素材。如果是大橘猫的美食探险记，收集各种美食店、厨房、街道小吃摊等场景图片；若是金毛的英雄救主，收集公园、街道、危险场所等场景素材，用于给 AI 工具提供更丰富的信息，生成贴合故事的场景。收集音效素材 ：在一些免费音效网站上下载与动物动作、故事场景相匹配的音效。例如大橘猫吃东西的咀嚼声、金毛的叫声、城市街道的嘈杂声、公园的鸟鸣声等，为后续视频增添真实感。

AI 生成视频步骤

文生图阶段 ：使用 ChatGPT 生成故事大纲与分镜描述 ：将确定好的故事主题输入 ChatGPT，例如 “帮我生成一个大橘猫在城市里寻找失传美食配方的故事大纲，分为 5 个关键情节，并对每个情节进行画面内容、角色动作和情绪表达的详细描述”。ChatGPT 会输出类似这样的内容：情节一：大橘猫听闻美食传说 ：画面中，大橘猫坐在老旧的书店里，面前摊开一本古老的书，眼睛睁得大大的，充满好奇地看着书中关于失传美食配方的记载。大橘猫的尾巴轻轻摆动，身体前倾，表现出急切想要了解更多的情绪。情节二：踏上城市寻找之旅 ：大橘猫站在热闹的城市街道口，望着熙熙攘攘的人群和林立的店铺，耳朵竖起，眼神坚定。它迈出第一步，爪子踩在地面上，身体微微弓起，准备开启冒险。（以此类推，生成后续情节的描述）将分镜描述输入文生图工具生成图片 ：以 Midjourney 为例，将上述情节一的描述输入，如 “超高清，一只好奇的大橘猫坐在堆满书籍的老旧书店里，眼睛盯着一本打开的古老书籍，尾巴摆动，画面风格类似迪士尼动画”，Midjourney 会根据指令生成相应的图片。如果生成的图片不符合预期，比如大橘猫的表情不够好奇，可调整提示词，如 “将大橘猫的眼睛画得更圆，突出好奇的神态”，再次生成。按照同样的方法，生成所有分镜的图片。图转视频阶段 ：以可灵 AI 为例，打开可灵 AI 平台，选择合适的模型。将文生图阶段生成的大橘猫在书店的图片上传，然后输入指令 “大橘猫从开始好奇地看书记载，到逐渐露出兴奋的表情，耳朵微微颤动，5 秒钟的视频”，可灵 AI 会根据指令将静态图片转为动态视频。依次对每个分镜图片进行这样的操作，将所有图片按分镜顺序转为视频片段。

后期剪辑

导入视频片段 ：将图转视频阶段生成的所有视频片段导入到剪映等视频剪辑软件中。剪辑调整 ：调整顺序 ：按照故事大纲的顺序排列视频片段，确保故事流畅。剪辑时长 ：根据情节需要，调整每个视频片段的时长。比如紧张刺激的情节可以适当缩短时长，营造紧迫感；温馨舒缓的情节可以延长时长，让观众更好地感受氛围。添加转场效果 ：在不同视频片段之间添加合适的转场，如淡入淡出、闪白闪黑、旋转切换等，使视频过渡自然。例如在大橘猫从书店场景切换到城市街道场景时，使用淡入淡出转场。添加音效 ：将之前收集的音效素材导入剪辑软件，根据视频内容在合适的位置添加音效。在大橘猫翻开书籍时添加翻书音效，在它走在街道上时添加街道嘈杂声，在它发现美食线索兴奋大叫时添加猫叫声，增强视频的沉浸感。添加字幕 ：如果故事中有对话或者需要解释的情节，添加字幕。选择简洁易读的字体，调整字幕的颜色、大小和位置，使其与视频画面协调。例如在大橘猫看到美食传说记载时，添加字幕显示传说的内容。导出视频 ：完成所有剪辑和添加元素的操作后，预览视频，检查是否有错误或不流畅的地方。确认无误后，选择合适的分辨率和格式（如常用的 1080p、MP4 格式）导出视频，一个以大橘猫或金毛为主角的 AI 视频就制作完成了，可以上传到抖音等平台分享。

画到哪，动到哪！字节跳动发布视频生成「神笔马良」ATI，已开源

Angtian Wang 是字节跳动的研究员，研究方向包括视频生成、3D 视觉、differentiable rendering。博士毕业于约翰霍普金斯（Johns Hopkins University）大学。师从 Dr. Alan Yuille。

近年来，随着扩散模型（Diffusion Models）、Transformer 架构与高性能视觉理解模型的蓬勃发展，视频生成任务取得了令人瞩目的进展。从静态图像生成视频的任务（Image-to-Video generation）尤其受到关注，其关键优势在于：能够以最小的信息输入生成具有丰富时间连续性与空间一致性的动态内容。

然而，尽管生成质量不断提升，当前主流方法普遍面临一个关键瓶颈：缺乏有效、直观、用户友好的运动控制方式。

用户在创作动态视频时，往往具有明确的运动意图，例如人物要往哪个方向奔跑、镜头如何推进拉远、动物的跳跃轨迹等。但现有方法普遍依赖于预设模板、动作标签或风格提示，缺少一种既自由又精准的方式 来指定对象与摄像机的运动路径。尤其是在存在多个主体或复杂场景交互的情况下，这种控制能力的缺失，极大限制了生成系统的创意表达能力与实际应用价值。

为了解决这一问题，字节跳动提出了 ATI ——一种全新的、以「轨迹为指令」的可控视频生成框架。ATI 的核心理念是：将用户在输入图像上手绘的任意轨迹，转化为驱动物体与摄像机运动的显式控制信号，并以统一的潜在空间建模方式注入视频生成过程。 这使得视频创作从「参数调控」转变为「可视化创意」，让用户「画到哪，动到哪」，以直观方式实现帧级精准控制。

Title：ATI: Any Trajectory Instruction for Controllable Video GenerationPaper：https://arxiv.org/pdf/2505.22944Project page：https://anytraj.github.io/Github：https://github.com/bytedance/ATIHugging Face：https://huggingface.co/bytedance-research/ATIComfyUI：https://github.com/kijai/ComfyUI-WanVideoWrapper

方法

ATI 接受两个基本输入：一张静态图像和一组用户手绘轨迹。这些轨迹可以在图像上自由绘制，支持任意形状，包括直线、曲线、折线、回环乃至抽象形状。ATI 通过高斯运动注入器（Gaussian Motion Injector） 将这些轨迹编码为潜在空间中的运动向量，再注入至扩散生成流程中，进而引导生成过程逐帧呈现对应的物体运动与视角变换。

如上图所示，我们希望让视频生成模型「理解」用户画出的运动轨迹，并在后续帧里按照这条轨迹产生动作。为此，我们在模型的输入特征空间上，对每一个轨迹点都注入一个「高斯权重」。使得模型就能在特征图上「看到」一颗颗从时刻 0 到 t 按轨迹移动的小「亮点」，并在训练中逐步理解输入轨迹在输入特征上和 denoise 生成视频的关联。

编码图像： 先用一个「编码器」把原始图片转换成一张低分辨率的特征图。

采样特征： 对于轨迹的起始点，从特征图上精确地（通过双线性差值，保持小数位置精度）取出一个特征向量。

生成高斯权重： 在每一帧，对应轨迹点的位置，都用一个小圆形「高斯」亮点去覆盖周围的像素，越靠近圆心的像素，权重越高。

注入特征： 把起始点的特征向量，按照这些高斯权重「软」地分配到特征图上的邻近区域，并在模型在生成视频时输入给模型。

这样一来，当我们给生成器喂入图像和这组「高斯掩码+特征」，模型就能直观地「看懂」在每一帧里，哪儿应该动、怎样动，从而生成符合用户手绘轨迹的连贯动画效果。借助高斯运动注入器（Gaussian Motion Injector） 与像素级通道拼接策略（Pixel-wise Channel Fusion） ，ATI 能够统一控制对象级动作、局部身体部位运动与摄像机视角变化，无需切换模型或模块结构 ，即可高效支持多目标、多风格、多任务的视频生成需求。同时 ATI 支持多个视频生成模型，可以在 Seaweed-7B 以及 Wan2.1-I2V-14B 等不同结构以及大小的模型上均有稳定的表现。

结果展示

用户仅需在原图上以手指或鼠标拖拽绘制任意轨迹，ATI 即可实时捕捉该轨迹路径并将其注入扩散模型。借助高斯运动注入器，无论直线、曲线还是复杂回环，均能被转化为连贯自然的动态视频——画到哪儿，动到哪儿。

在人物或动物肖像场景中，用户可以指定奔跑、跳跃、挥臂等关键动作的轨迹。ATI 对每一帧中的关键点进行细粒度采样与编码，准确还原关节弧度与质心移动，生成符合生物力学规律的自然运动序列。

当场景包含多个目标时，ATI 最多可并行处理 8 条独立轨迹。系统通过空间掩码和通道分离策略，保证各对象身份信息互不干扰，从而呈现复杂群体互动时的连贯动态。

ATI 不仅支持对象级运动控制，还能同步驱动摄像机视角。用户可在原图上绘制推拉、平移、旋转等镜头轨迹，将其与对象轨迹共同注入潜在空间，生成包含摇镜、跟随和俯仰等电影级镜头语言的视频。

在同一推理过程中，物体与摄像机轨迹可同时注入，借助像素级通道拼接策略实现多条运动指令的无缝融合。系统无需模块化切换，即可在潜在特征中并行呈现角色动作、群体互动与镜头切换，输出丰富而连贯的动态叙事。

ATI 展示出良好的跨领域泛化能力，覆盖写实电影、卡通插画、油画质感、水彩渲染、游戏美术等多种艺术风格。通过更换参考图与输入轨迹，系统能够在保留原始风格特征的基础上生成对应的运动视频，满足多元化的应用需求。

用户可在潜在空间中绘制超越物理边界的轨迹，以生成飞天、伸缩、扭曲等非现实动作效果，为科幻或魔幻场景提供无限创意空间。

基于 Wan2.1-I2V-14B 的高精度模型，ATI 可生成与实拍媲美的视频短片，精准还原面部表情、服饰材质与光影细节；同时提供轻量级 Seaweed-7B 版本，以满足资源受限环境中的实时交互需求。

模型开源

目前，ATI 的 Wan2.1-I2V-14B 模型版本已在 Hugging Face 社区正式开源 ，为研究人员与开发者提供了高质量、可控的视频生成能力。围绕该模型的社区生态也在快速完善：Kijai 开发的 ComfyUI-WanVideoWrapper 插件支持 FP8 量化模型（如 Wan2_1-I2V-ATI-14B_fp8_e4m3fn.safetensors），显著降低显存需求，方便在消费级 GPU 上进行推理部署。同时，Benji 在 YouTube 发布的教学视频《ComfyUI Wan 2.1 任意轨迹指令运动控制教程》为创作者提供了详尽的实操指南。完整代码与模型请参阅 GitHub（bytedance/ATI）及 Hugging Face 模型库。