V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xiaochu365
V2EX  ›  分享发现

sora 是什么?三个重要原因让 Sora 生成视频堪比 CG

  •  
  •   xiaochu365 · 278 天前 · 1565 次点击
    这是一个创建于 278 天前的主题,其中的信息可能已经有所发展或是发生改变。

    常规的计算机 CG 没有几个月是做不出来的,Pika 、Runway 为什么做不出这样的效果?这两天网上介绍所有的视频已经非常多了,我更喜欢琢磨背后的东西,大家都在说 sora 好,到底为什么好,它是怎么做的呢?

    我特别对三个场景印象深刻:一群金毛小狗在雪地里打滚,其真实感让人惊叹;一个咖啡杯中的海盗船战斗场景,展现了惊人的特效;以及无人机穿越城市古迹的画面,其 3D 效果和一致性维护得非常好。这些效果展现了目前技术的极限,以及为何传统的 CG 方法无法轻易复制这些效果的原因。

    Pika 和 Runway ,那为什么做不出这样的效果? 我理解 Pika 和 Runway 实际上还是基于这种图形图像本身的操作来进行的生成,在一个画面上选定一两个目标,一两个对象。让这一、两个对象要么保持不动,背景在动,要么背景不动,这一两个对象在动,就形成一种比较简单的计算机动画的效果,它是肯定做不到刚才的三个画面的能力。

    ( PS:目前,OpenAI 尚未公开开放 Sora 的灰度测试。然而,借鉴之前 DALL·E 图像模型的案例,我们可以预见首先会向 ChatGPT Plus 的付费用户提供这一服务。对于有意体验此服务的用户,如果您尚未注册或希望了解如何升级至 GPT Plus ,可以参考: 快速开通 ChatGPT Plus

    在 CG 领域,创建真实感强的画面,比如毛茸茸的动物或是动态的水面,需要极其复杂的建模和粒子效果模拟。这不仅涉及到每一根毛发的建模,还包括每一个水滴的物理建模,以及如何表现出毛发随风飘动的感觉和雪花的质感。这样的工作量是巨大的,使用常规的电影工业特效手段,可能需要几个月的时间才能完成。

    如果用电影特效来表示咖啡杯里的那个波动,这个就需要给粒子特效来模拟多少个水分子,把每个水分子看成是一个粒子,然后利用水的这种物理方程来模拟流体的特质,一帧帧的把它渲染出来。阿凡达为了做水的特效,据说花了好几年的时间才完成了大量的海浪,水波纹这些特效镜头。

    那么像无人机飞跃一个城市,所有飞跃的地方,都要需要做真实的 3D 建模,3D 的贴图和 3D 的渲染,在镜头飞跃的每一个观察点上,都要对这个 3D 的画面做若干次的渲染。对一个城市的 3D 建模的工作量特别大,所谓叫数字孪生还是非常昂贵的一个技术。

    但是到了 sora 这里,这些东西都变得非常的简单,只要给一堆文字的提示要求,它就能给你非常逼真的描绘出来。

    sora 到底做 3D 建模没有? 我觉得答案应该是没有,因为 sora 如果也只是 3D 建模在进行渲染,和传统的电影工业走一样的路,那就它就不具备颠覆性和革命性了。

    sora 怎么做到的呢? 第一点 sora 应该还是模拟了我们人类去观察世界、描绘世界和表现世界的这种方法,比如说如果要我们人类一个有经验的画师用笔画出来看才 3 个场景,我们人类在大脑里并不需要 3D 建模。

    因为人类已经对世界有了一个基本的认知,我们知道透视的原理,我们知道随着这个镜头的移动,每个物体的视觉画面会发生改变,我们知道如何去画毛茸茸的毛发,如何去画这个雪,当狗转身的时候,我们知道整个画面会有什么样的变化,我们不需要懂粒子特效,不需要 3D 建模,不需要懂物理定律,我们靠着对世界的观察,我们也能画出惊涛骇岸的这种海浪的感觉。

    sora 应该通过大量的训练,掌握了人类这种观察世界、描绘世界、表现世界的这种能力,所以就使得他通过表面看的是 2D 画面的这种生成,完全理解了这个 3D 世界的物理规律。

    第二点 我觉得 sora 在学习的过程中,不光是用了很多视频电影的内容来作为训练的输入,当你输入一些画面给 sora 模型做训练的过程中,你不仅要解读出画面有什么元素,你还要解读出来这里面反映的一些物理定律。

    openai 在对他的论文。你提到一个叫 recaptioning 技术,很多人把它翻译错了,翻译成叫字幕技术,像 recaptioning 的意思是说对每一帧画面能够把它变成用文字来描述,这点也非常符合人人类认知世界的方法。

    比如说一个见过大海的人,向一个没有见过大海的人,用语言来描述这个海浪的效果,让他来进行学习,进行想象。所以这一点说明 openai 的多模态技术已经达到一个新的空间,我估计 Google 的 Gemini 看来短期内是很难赶上了。

    第三点 大胆的猜测一下,openai 应该是自己产生了很多 3D 的内容,也不排除他用现在的游戏引擎做了很多这种实时 3D 模型的渲染,利用这种 3D 模型来把更多的物理知识训练给 sora 。

    为什么人类对 AIGI 的突破可能就剩下最后一步了? sora 表面上看起来是一个刮胡刀,实际上它是一个吹风机,或者它看起来像一个吹风机,它实际上是个刮胡刀,它表面上看来是一个记录文字生成视频 AIGC 的工具。

    它反映了 AI 对我们这个世界的理解,已经从文字进到图像,已经从图像进成视频,对这个世界 3D 模型的理解,对物理定律的理解,还有些人在吹毛求疵,我看到一个 sora 翻车的视频,比如一个杯子没有碎掉,水就流出来了,还比如说从土里挖出一个凳子,那个凳子没有表现出重力的感觉。

    s 我恰恰觉得有这些问题呢,非常正常,就像大模型会产生幻觉一样,在梦中不也是会让很多物理定律失效吗?

    sora 所谓的失效,我觉得有两种可能,一种是这种模型先天具备的,这种也有幻觉的问题,会产生一些魔幻的效果,还有一种,是物理知识训练的不够,所以我们面对一个新的东西,不要老是盯着它的弱点,这些弱点都是可以被改进的。

    原文转载: https://haogonju.com/2049.html

    3 条回复    2024-02-21 11:08:25 +08:00
    neverMore7
        1
    neverMore7  
       278 天前
    这不周鸿祎抖音短视频的文案么...
    boris1993Jr
        2
    boris1993Jr  
       278 天前 via iPhone
    去年 3 月 31 号注册,就这一个帖子,没有任何回复
    我只能说,挺能潜伏的啊
    VIVIANSNOW
        3
    VIVIANSNOW  
       276 天前
    @boris1993Jr 为了卖号? 原文 哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2851 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 13:56 · PVG 21:56 · LAX 05:56 · JFK 08:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.