Sora是什么模型?怎么使用?(openai视频模型详解)

时间:2024-10-16作者:九维分类:海外教程评论:1

就在不久之前,由OpenAI刚刚发布,推出了最新的AI模型Sora。这是一个可以根据文本指令创建现实且富有想象力的场景的AI模型。简单来说,就是我们可以通过文字的提示让Sora帮我们生成视频,这简直就是人工智能的又一项革命性的输出了。我们下来一起来了解,来看一下这个模型。openai官网页面的说明是:我们正在教授人工智能理解和模拟运动中的物理世界。目标是训练模型帮助人们解决需要现实世界交互的问题。

Sora是什么?

隆重介绍一下Sora,我们的文本转视频模型。Sora可以生成长达1分钟的视频,同时保持视觉质量,并遵守用户的提示。看一下,这里的重点,目前Sora已经可以生成长达一分钟的视频,并且它是遵守用户的提示的,这两点很重要。

1.jpg

那我们来看一下,小编看了下由Sora官方生成的视频。我们来看一下它的提示词,看是否来按照这个提示严格生成的。一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上,穿着黑色的皮夹克,红色长裙和黑色靴子,拎着黑色钱包,他戴着太阳镜,涂着红色口红,走路自信又随意,街道潮湿且反光,在彩色灯光的照射下形成镜面效果,许多行人走来走去。

小编看一下这个视频,你看了以后再结合这个提示词,我们可以看到视频是严格按照提示词生成的,并且这个视频非常的真实。如果不给你提示词,或者说不告诉你这个视频是AI生成的话,我想大家或者说像我一样,应该是不会知道这个视频就是由AI生成的。真的是太炸裂,太震惊了,相当真实。然后可以看到在右下角,右下角这里有这个logo,那这个logo表示当前视频是由AI生成的。

小编再看了另一个官方sora生成的视频。那这个视频,它提示词就是几只巨大的毛茸茸的猛犸象在白雪皑皑的草地上走近,也是比较真实且按照提示词生成的。

2.jpg

再看一个,这个视频我们先不看提示词,你先直接看视频,有没有感觉这个就是某一个电影的场景,或者某一个电影的片段。反正如果别人把这个视频发给我,我是觉得他就是一个电影的片段,给人感觉就是一个大片的感觉。看一下提示词,电影预告片,讲述了30岁太空人带着红色羊毛针织摩托车头盔的冒险经历,35毫米胶片拍摄,色彩鲜艳。哇,这个太震惊了啊,我真的感觉这个就是直接生成了一个电影片段,非常的nice。

好,看一下这个视频。这个是一个无人机视角的视频,然后蔚蓝的海水激起白色的波浪,夕阳的金色光芒照亮了岩石海岸,远处有一座小岛,岛上有一座灯塔。看一下这个视频,也是严格按照这个提示词生成的。感觉这种镜头以往都是在那种很4K的影片里面才能够看到的,然后现在AI直接生成了,太酷了。

3.jpg

好,看一下下面。那目前,OpenAI已经把这个Sora模型向一些艺术家、包括设计师还有电影制作人提供了访问权限。主要是用于获取如何改进该模型对创意专业人士最有帮助的反馈。那么在很早之前,OpenAI他就分享了他们的研究进展,以便开始与OpenAI之外的人合作并获取反馈,让公众了解即将出现的人工智能功能。

Sora怎么使用?

目前,这个Sora模型只对部分人士向艺术家设计师电影制作人开放,还没有完全对公众开放。相信在不久的将来会向公众开放,我估计是会像GPT-4一样会加入这个订阅,就是付费订阅。相信到时候这个订阅量也会暴增,因为目前看他的介绍,真的是太酷了,太牛了。

Sora能够生成具有多个角色、特定类型的运动,以及主体和背景的准确细节和复杂场景。该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。OK,比如说像当前我们看到的这个视频是一辆老式的SUV在这种山路上面去行走。

那你可以看到这里有提示词,白色老式的SUV在山坡上被松树环绕的陡峭的路上加速行驶,轮胎扬起灰尘。非常真实并且严格按照提示词生成的。该模型对语言有深入的理解,使其能够准确地解释提示并生成引人注目的字符来表达充满活力的情感。

Sora还可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格。那看到,当前的这个视频,参观艺术画廊,里面有许多不同风格的美丽艺术品。这个视频很厉害,就是它生成的这个里面有不同的艺术品。那也就是说,AI它同时一个视频里面要生成好多个这种不同的艺术品,而且还要保持真实。这个不错,不错,很厉害。

Sora的不足之处

然后看一下当前的模型存在弱点。看一下OpenAI也表示这个Sora模型也是有弱点的。

它可能难以准确地模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。比如,一个人可能咬了一口饼干,但之后可能是没有咬痕。该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

大家看这个提示,打印一个人跑步的场景,35毫米电影胶片。这里就有他的这个弱点,Sora有时会产生身体上难以置信的动作。那大家看一下,这个人在跑步机上跑步,怎么感觉他是反的哎。就是感觉这个视频就比较奇怪啊,还是有点问题的。

比如看一下这个视频,他就有点问题。5只灰狼幼崽在一条偏僻的碎石路上互相嬉戏,大家看一下这个数量就有点问题啊。这会成了3只了,又4只。他的不足,动物或人可能会自发出现,尤其是在包含许多实体的场景中。这个还是有点小问题的。那相信在不久之后,这个Sora的模型应该会发育得更好。毕竟目前,我们才刚刚知道,或者说接触这个模型。

其他的生成的这个AI视频了,就不挨个给大家来看了。那看到当前这个动漫视频,我觉得我突然在想,用AI去生成这种视频,既然这么真实,或者说生成的会越来越完美,那么以后是不是动画片都可以用AI直接来生成了啊。这个想一想觉得还是非常酷的。

Sora模型的特点

下面有研究技术。这里我们来了解一下。Sora是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐对其进行转换。Sora能够一次生成整个视频或拓展生成的视频以使其更长。通过一次为模型提供多个帧的预见,我们解决了一个具有挑战性的问题,即确保主题即使暂时离开视野也保持不变。

4.jpg

与GPT模型类似,Sora使用变压器架构,释放出卓越的拓展性能。那这些中文是机器翻译过来的,可能有点生硬。大概能理解意思。我们将视频和图像表示成为补丁的较小数据单元的集合。每个补丁类型与GPT中的令牌相似。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散变换器,涵盖不同的持续时间、分辨率和纵横比。Sora建立在过去对DOE和GPT的模型的研究之上,它使用del E3的重塑技术。该技术涉及为视觉训练数据生成高度描述性的标题,因此该模型能够忠实地遵循生成视频中用户的文本指令。啊,我觉得这一点非常的重要,就是严格遵循用户的指令来生成。

Sora是能够理解模拟现实世界的模型的基础。我们相信这一功能将成为实现AGI(人工通用智能)的重要里程碑。虽然目前Sora这个模型没有向公众开放使用,但是如果你想玩一下的话也可以。你可以在推特上面和OpenAI的CEO,也就是奥特曼,你去艾特他,把你的提示词给他。

5.jpg


通过今天对Sora这个模型的了解和认识,以及对AI生成的这些视频的了解,我觉得是非常的震撼的。这简直就是一个革命性的一个输出了。而且我觉得未来可能有很多职位,或者很多职业会面临巨大的挑战。那比如说像一些动画师,还有一些3D视频的制作者,包括现在的自媒体,可能都会受到挑战,或者说让自媒体的门槛变得越来越低。

比如说像一些YouTuber,或者说一些up主,你做视频会越来越简单。那么会加入的人会越来越多。因为这个模型,它大大降低了这个视频生产的门槛,可以说是任何人都可以通过这个模型来制作出精美的视频了。而且我觉得他对很多领域,比如教育,各个领域可能都会产生巨大的影响。

相关推荐

猜你喜欢