阿里妹导读
Sora是一个以视频生成为核心的多能力模型,本文简单介绍了什么是Sora,主要从Sora有多强、Sora技术突破以及复刻难度、意义和启发三个方向出发展开讨论。
contents
参考Sora与Runway Gen2、Pika等能力差异对比表可见,不论是基本的视频生成能力(时长、长宽比),还是更强的视频连续性、真实世界模拟等,OpenAI Sora都有无可比拟的优势。其中,视频清晰度,OpenAI Sora默认是1080P,而且其它平台大多数默认的清晰度也都是1080P以下,只是在经过upscale等操作之后可以达到更清晰的水平。60s的时长已达开箱即用的商业价值。
上述视频生成能力项中,视频连接、数字世界模拟、影响世界状态(世界交互)、运动相机模拟等都是此前视频平台或者工具中不具备的。
另外值得一提的是,OpenAI Sora模型还可以直接生成图片,也就是说,它是一个以视频生成为核心的多能力模型。
合成数据的大量应用是通向AGI的关键一步,据说本次Sora的能力大突破,其中之一就是可能通过UE5、Unity、Nerf等大量生成了合成数据作为训练集。
Sora能模拟真实或幻想的世界,学习复杂的渲染、物理规则和长期推理。它甚至可能用虚幻引擎5(UE5是一个顶级游戏引擎)进行大量训练:
有2个具体的实例可以体现上述能力:
提示词:“两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频。”
自主创建多个视角的视频
复刻难点:物理引擎、世界模型难度就很大。
世界模型和物理引擎是虚拟现实(VR)和计算机图形学中的两个关键概念。世界模型是描述虚拟环境的框架,包括场景、对象、光照等元素,用于呈现虚拟世界的外观和感觉。物理引擎则是用于模拟和计算物体之间的物理运动和互动,如重力、碰撞、摩擦等。简而言之,世界模型是虚拟环境的静态描述,而物理引擎则负责模拟虚拟环境中物体的动态行为。它们共同作用于虚拟现实技术中,为用户提供沉浸式的体验。
世界模型要求更高,这包括对复杂场景和物理效果的处理能力、提高在新环境中的泛化能力、以及更好地利用先验知识进行实时推理、预测和决策等。虽然Sora已经能够生成较为准确的视频内容,但当场景中涉及到多个物体的交互或复杂的物理运动时,Sora可能会出现失误或偏差。其次Sora目前主要依赖于大量的训练数据来学习视频的生成规律,但这种方式可能限制了其在新环境中的泛化能力和实时决策能力。这也是目前Sora并非一个世界模型的原因 来源:gpt4问答结果
从Sora模型的技术报告中,我们可以看到Sora模型的实现,是建立在OpenAI一系列坚实的历史技术工作的沉淀基础上的包括不限于视觉理解(Clip),Transformers模型和大模型的涌现(ChatGPT),Video Caption(DALL·E 3)
来源:ModelScope论坛文章,Sora技术图\[1\]
patches是从大语言模型中获得的灵感,大语言模型范式的成功部分得益于使用优雅统一各种文本模态(代码、数学和各种自然语言)的token。大语言模型拥有文本token,而Sora拥有视觉分块(patches)。
OpenAI在之前的Clip等工作中,充分实践了分块是视觉数据模型的一种有效表示(参考论文:An image is worth 16x16 words: Transformers for image recognition at scale.)这一技术路线。而视频压缩网络的工作就是将高维度的视频数据转换为patches,首先将视频压缩到一个低纬的latent space,然后分解为spacetime patches。
难点:视频压缩网络类比于latent diffusion model中的VAE,但是压缩率是多少,如何保证视频特征被更好地保留,还需要进一步的研究。tokenization:内容二维向量化
图解LLM训练和推理的秘密-1\[2\]
patches
图片来源:sora技术论文
给定输入的噪声块+文本prompt,它被训练来预测原始的“干净”分块。重要的是,Sora是一个Scaling Transformers。Transformers在大语言模型上展示了显著的扩展性,
难点:可能包括的难点有long context(长达1分钟的视频)的支持、复杂实体decoder一致性、对video condition,image condition,text condition的多模态支持等。
视频摘要/视频字母生成属于多模态学习下的一个子任务,大体目标就是根据视频内容给出一句或多句文字描述。所生成的caption可用于后续的视频检索等等,也可以直接帮助智能体或者有视觉障碍的人理解现实情况。通过这样的高质量的训练数据,保障了文本(prompt)和视频数据之间高度的align。Sora还使用 DALL·E 3 的recaption技巧,即为视觉训练数据生成高度描述性的caption,这让Sora能够更忠实地遵循生成视频中用户的文本指令,而且会支持长文本,这个应该是OpenAI独有的优势。在生成阶段,Sora会基于OpenAI的GPT模型对于用户的prompt进行改写,生成高质量且具备很好描述性的高质量prompt,再送到视频生成模型完成生成工作。> caption训练数据都匮乏:一方面,图像常规的文本描述往往过于简单(比如COCO数据集),它们大部分只描述图像中的主体而忽略图像中其它的很多信息,比如背景,物体的位置和数量,图像中的文字等。另外一方面,目前训练文生图的图像文本对数据集(比如LAION数据集)都是从网页上爬取的,图像的文本描述其实就是alt-text,但是这种文本描述很多是一些不太相关的东西,比如广告。
技术突破:训练一个image captioner来合成图像的caption,合成caption与原始caption的混合比例高达95%:5%;但是不过采用95%的合成长caption来训练,得到的模型也会“过拟合”到长caption上,如果采用常规的短caption来生成图像,效果可能就会变差。为了解决这个问题,OpenAI采用GPT-4来“upsample”用户的caption,下面展示了如何用GPT-4来进行这个优化,不论用户输入什么样的caption,经过GPT-4优化后就得到了长caption:DALL-E 3技术报告阅读笔记[3]
难点:这项技术并不新,难的是积累,即便是合成数据也需要大量的专业标注和评测。“大”模型,“高”算力,“海量”数据意义和启发
SORA 模型参数量预计 <10B,模型参数量不会像 LLM 需要千卡/万卡大规模 AI 集群训练(~百卡);OpenAI 尚未公布 SORA 商业化时间,视频生成距离成熟还有时间距离(< 半年);技术上输入内容控制一致性等问题仍需解决,推理算力全面爆发仍然有时间差(> 半年);目前推理算力比 SD、SDXL 要大2/3个量级,需要结合 AI 训练集群或者 AI 推理集群。
参考GPT4V计算Token 的方式:2048*4096 image detail = 1105个Token 以1080P视频为例,30FPS的视频,就是1920×1080(像素)*3(RGB通道)*30(FPS)*60(时长)。可以计算1分钟长度视频价格。
Sora官方视频截图
官方提示词:逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的情况。
优化:
Template:cssCopy Code
Sora官方视频截图
官方提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克红色长裙,拎黑色钱包。她戴着太阳墨镜涂着红色囗红。她走路自信又随意。街道潮湿且反光,在影色灯光的照射下形成镜面效果。许多行人走来走去。
优化:
示例: 提供一段描述或者图片,展示类似场景的效果。
Template:cssCopy Code:
利好内容工作者:比如影视工作者、视频创作者、视频广告行业尤其是投手(投流素材的工业化+定制化,根据SEO需求文生视频)普通人:闲下来就能玩的?没有想到,内容创作本身尤其是到可变现的水平还是有较高的门槛。所以这个对普通人来说是一个AGI时代更普适的问题。不可替代的竞争力是什么?灵敏的嗅觉+对各类工具的活用+自身知识体系;创新只可能发生在自己真正的兴趣领域,找到你的热爱并持续玩终有一天可以真正享受科技实现创作者经济自由。
After all,in the AI industry, tomorrow is another year...
1、既要好高骛远更要脚踏实地:据投资人介绍,整体AI infra市场建设起来需要1W亿的资金,市场盘子足够大。同时openAI不断打破天花版也给明了技术路线,机会依旧很多。先做到5%~10%提效(效率,效果)再谈星辰大海;一切的基础还是先拿个入场券哪怕只是参观券。开源:闭源模型不是完美的,优化弱点就能成功。开源的LCMvsLDM就是个例子。LDM 20 步 扩 散 生 成 一 张 图;LCM 一 步生成一张图,有巨大的效益空间。应用:模型和应用市场逐渐分离,成熟用户平台、做infra中间件、数据工程等也是核心竞争力
2、如何解决冷启动的策略经验沉淀形成数据飞轮是任何AI类业务成败的关键。比如强大集成、专业顶尖的标注投入(比如在合成数据、AI评测的势头下,openAI很多标注评测工作都是科研人员)dirty work需要战略定力。
参考链接:
Copyright© 2013-2020
All Rights Reserved 京ICP备2023019179号-8