故事探讨的不是 AI 有多强,而是 AI 的能力边界在哪里。技术碾压带来的不是确定性的胜利,而是对"确定性"本身的傲慢。
一部 5 集 AI 漫剧的全流程制作复盘 —— 从剧本到成片,从工具到方法论,从踩坑到最佳实践。供内部团队学习与参考。
5 集完整版,全 AI 生成画面 + TTS 配音 + 人工剪辑
提示词撰写的核心原则:每个词都要能翻译成像素,不能翻译的就是噪音。
三问检查:可见?可执行?必要?任一为否 → 删掉或改写
五大致命模式:隐喻替换、情绪命名、摄影参数堆砌、叙述评价、空洞氛围词
典型案例:Shot14A 原版 800 字 → 过滤后 250 字有效信息,70% 是噪音
| 片段时长 | 字数上限 |
|---|---|
| 5-6 秒 | ≤ 250 字 |
| 9 秒 | ≤ 350 字 |
| 15 秒 | ≤ 450 字 |
| 字符数 | 风险等级 | 操作 |
|---|---|---|
| ≤ 4字符 | ● 可渲染 | 尝试保留 |
| 5-10字符 | ● 谨慎 | 关键帧试渲染 |
| > 10字符 | ● 禁止 | 全部交配音 |
五段结构,单段连续流描述:
ID 引用语法:直接紧跟名称,不用 @ 前缀。如 法务部中年人7s1e1iebe6
配音格式:台词(角色声音特征):"内容" | 仅配音,不配音效
男声,语调平稳自信,条理清晰
女声,干练利落
男声,质问语气
男声,冷静理性
女声,公事公办
男声,疲惫但坚定
女声,冷峻克制
40+岁,驼背,背影为主
Seedance 2.0 最低稳定时长为 4 秒,短于此基本全军覆没
--enable-sound,视频完全无声。--enable-sound,并补写音效描述。asset_search CLI 频繁 999 错误,缓存只返回最近约 20 个资产。tools call asset_search + channel: ["toolbox_canvas"] 数组格式。擅长:固定机位、单一主体动作、光影氛围渲染、抽象视觉效果
不擅长:跳切蒙太奇、文字渲染、多人交互、镜面反射
从第一集的摸索到第五集的高效流水线,一套经过验证的 8 步流程让单集产出效率提升了 3-4 倍。Workflow 是活文档,随项目经验持续更新。
AI 可以生成每一帧画面,但叙事节奏、情感转折、台词打磨仍然需要人的判断。这部作品本身就是关于 AI 能力边界的故事,制作过程也在不断验证这个命题。
EMOTION → PIXEL 规范的核心:每个词都要能翻译成像素。70% 的初始提示词是噪音。写提示词像写代码,不像写小说。
角色多视图 → 场景视角匹配 → 高频道具独立资产化 → 命名规范。资产准备越充分,生成成功率越高,返工越少。
每镜头 x2 版本择优不只是"挑好看的",而是在确认角色一致性、空间逻辑和视觉基调。这是最关键的质量门控环节,不能自动化。