机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 45|回复: 0

视频类AI为何总在细节上「翻车」?

[复制链接]

2万

主题

2万

帖子

18万

积分

超级版主

Rank: 8Rank: 8

积分
187794
发表于 昨天 11:23 | 显示全部楼层 |阅读模式
AI没有「理解」世界,只有「概率统计」:AI并非真正理解「人有五根手指」这类事实,而是通过学习海量数据,知道「五指的手」是最高概率的模式。当生成过程中出现随机偏差时,由于缺乏常识性规则的约束,它可能会生成一个概率上虽低但仍有可能的「六指」结果。
局部生成与全局和谐的矛盾:AI更擅长生成逼真的局部细节(如皮肤纹理),但对整体结构(如完整的身体解剖)的把握较弱。它可能会因为专注于让局部「看起来对」,而忽略了其在整体画面中的逻辑是否合理,导致「只见树木,不见森林」的结构性错误。
从图像到视频的挑战:视频的本质是连续的图像序列,而AI在生成每一帧时都可能存在微小的随机差异。这种帧与帧之间的「失忆」累积起来,就会导致角色外观、服饰或背景等元素在时间线上发生不连贯的漂移和变化,破坏了时间一致性。
训练数据的「不完美」:AI的知识完全来源于它所学习的训练数据。网络数据本身就包含大量错误、低质量和不合逻辑的内容。AI会将这些「坏数据」也一并学会,并在生成时复现出来,可谓「垃圾进,垃圾出」。

这是一个叫 Too Short for Modeling 的团队发布在 LinkedIn 上的作品,不过它并不是一个商业作品,而是该团队为一直想合作的品牌制作的概念影片。
距离 Veo 3 发布已经过去一个半月了,虽然此前模型视频生成已经能达到很逼真的状态,但 Veo 3 的「音画同步」功能,引领 AI 视频创作进入了全新的声画一体化阶段。同时它也让 AI 视频生成进入了更有实践意义的阶段,极大地降低了视频创作的门槛。
来源:https://www.linkedin.com/posts/a ... 71275020902400-P9fd
这个广告的笑点密集,令人捧腹。但其真正的亮点在于惊人的「角色一致性」。在一分钟内,视频流畅地切换了10个场景,每个画面的风格都保持了高度统一,核心人物和道具也完美衔接。尽管在车窗、内饰等细节上能察觉到微小的跳跃,但这丝毫未影响其出色的整体连贯性。
要知道 AI 生成视频中经常出现容貌突变、物体错乱等问题。
主创团队分享了他们保持一致性的秘诀——超精细提示 (Hyper-specific Prompting):为AI提供极其详尽、具体且包含大量上下文细节的指令或问题。
这种提示的设计目的是为了最大限度地减少模型的自由发挥空间,引导它生成高度精确、符合特定格式和要求的输出。
值得一提的是,创意、策略与审美依然由人类主导。从最初的灵感、脚本,到由剪辑师完成的最终效果呈现,人的价值贯穿始终。AI 是强大的「执行者」,但遵循的是概率而非远见——至少在今天,这道边界依然清晰。






回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-7-10 01:14 , Processed in 0.088073 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表