视频类AI为何总在细节上「翻车」？

寂静回声 · 发表于 2025-7-9 11:23:55

AI没有「理解」世界，只有「概率统计」：AI并非真正理解「人有五根手指」这类事实，而是通过学习海量数据，知道「五指的手」是最高概率的模式。当生成过程中出现随机偏差时，由于缺乏常识性规则的约束，它可能会生成一个概率上虽低但仍有可能的「六指」结果。
局部生成与全局和谐的矛盾：AI更擅长生成逼真的局部细节（如皮肤纹理），但对整体结构（如完整的身体解剖）的把握较弱。它可能会因为专注于让局部「看起来对」，而忽略了其在整体画面中的逻辑是否合理，导致「只见树木，不见森林」的结构性错误。
从图像到视频的挑战：视频的本质是连续的图像序列，而AI在生成每一帧时都可能存在微小的随机差异。这种帧与帧之间的「失忆」累积起来，就会导致角色外观、服饰或背景等元素在时间线上发生不连贯的漂移和变化，破坏了时间一致性。
训练数据的「不完美」：AI的知识完全来源于它所学习的训练数据。网络数据本身就包含大量错误、低质量和不合逻辑的内容。AI会将这些「坏数据」也一并学会，并在生成时复现出来，可谓「垃圾进，垃圾出」。

这是一个叫 Too Short for Modeling 的团队发布在 LinkedIn 上的作品，不过它并不是一个商业作品，而是该团队为一直想合作的品牌制作的概念影片。
距离 Veo 3 发布已经过去一个半月了，虽然此前模型视频生成已经能达到很逼真的状态，但 Veo 3 的「音画同步」功能，引领 AI 视频创作进入了全新的声画一体化阶段。同时它也让 AI 视频生成进入了更有实践意义的阶段，极大地降低了视频创作的门槛。
来源：https://www.linkedin.com/posts/a ... 71275020902400-P9fd
这个广告的笑点密集，令人捧腹。但其真正的亮点在于惊人的「角色一致性」。在一分钟内，视频流畅地切换了10个场景，每个画面的风格都保持了高度统一，核心人物和道具也完美衔接。尽管在车窗、内饰等细节上能察觉到微小的跳跃，但这丝毫未影响其出色的整体连贯性。
要知道 AI 生成视频中经常出现容貌突变、物体错乱等问题。
主创团队分享了他们保持一致性的秘诀——超精细提示 (Hyper-specific Prompting)：为AI提供极其详尽、具体且包含大量上下文细节的指令或问题。
这种提示的设计目的是为了最大限度地减少模型的自由发挥空间，引导它生成高度精确、符合特定格式和要求的输出。
值得一提的是，创意、策略与审美依然由人类主导。从最初的灵感、脚本，到由剪辑师完成的最终效果呈现，人的价值贯穿始终。AI 是强大的「执行者」，但遵循的是概率而非远见——至少在今天，这道边界依然清晰。

		自动登录	找回密码
密码			立即注册