B体育Bsport_(中国)最新官网入口-B体育app一句话毛糙替换视频并吞物体-B体育Bsport_(中国)最新官网入口

娱乐 /

你的位置:B体育Bsport_(中国)最新官网入口 > 娱乐 > B体育app一句话毛糙替换视频并吞物体-B体育Bsport_(中国)最新官网入口
B体育app一句话毛糙替换视频并吞物体-B体育Bsport_(中国)最新官网入口
发布日期:2024-10-11 08:16    点击次数:142

B体育app一句话毛糙替换视频并吞物体-B体育Bsport_(中国)最新官网入口

扎克伯格最近忙着在全天下「抢风头」。

前不久,开启「二次创业」的他刚向咱们展示了十年磨一剑的最强 AR 眼镜 meta Orion,尽管这仅仅一款押注以前的原型机器,却抢光了苹果 Vision Pro 的风头。

而在昨晚,meta 在视频生成模子赛谈再次大出锋头。

meta 暗示,全新发布的 meta Movie Gen 是迄今为止伊始进的「媒体基础模子(Media Foundation Models)」。

不外,先打个肃穆针,meta 官方现在尚未给出明确的绽放时间表。

官方声称正在积极地与文娱行业的专科东谈主士和创作家进行换取和协作,瞻望将在来岁某个时候将其整合到 meta 我方的家具和劳动中。

通俗回归一下 meta Movie Gen 的特质:

领有个性化视频生成、精准视频编订和音频生成等功能。

撑合手生成 1080P、16 秒、每秒 16 帧的高清长视频

大概生成最长 45 秒的高质料和高保真音频

输入通俗文本,即可收场复杂的精准视频编订功能

演示效劳优秀,但该家具瞻望来岁才会谨慎向公众绽放

告别「哑剧」,功能主打大而全

细分来说,Movie Gen 具有视频生成、个性化视频生成、精准视频编订和音频生成四大功能。

文生视频功能早已成为视频生成模子的标配,仅仅,meta Movie Gen 大概字据用户的需求生成不同长宽比的高清视频,这在业内尚属始创。

Text input summary: A sloth with pink sunglasses lays on a donut float in a pool. The sloth is holding a tropical drink. The world is tropical. The sunlight casts a shadow.

Text input summary: The camera is behind a man. The man is shirtless, wearing a green cloth around his waist. He is barefoot. With a fiery object in each hand, he creates wide circular motions. A calm sea is in the background. The atmosphere is mesmerizing, with the fire dance.

此外,meta Movie Gen 提供了高档的视频编订功能,用户只需通过通俗的文本输入即可收场复杂的视频编订任务。

从视频的视觉作风,到视频片断之间的过渡效劳,再到更雅致的编订操作,这少量,该模子也给足了开脱。

在个性化视频生成方面, meta Movie Gen 也前迈进了一大步。

用户不错通过上传我方的图片,行使 meta Movie Gen 生成既个性化但又保合手东谈主物特征和当作的视频。

Text input summary: A cowgirl wearing denim pants is on a white horse in an old western town. A leather belt cinches at her waist. The horse is majestic, with its coat gleaming in the sunlight. The Rocky Mountains are in the background.

从孔明灯到透明彩色泡泡,一句话毛糙替换视频并吞物体。

Text input: Transform the lantern into a bubble that soars into the air.

尽管本年赓续已有不少视频模子接踵亮相,但大多只可生成「哑剧」,食之无味弃之可惜,meta Movie Gen 也莫得「旧调重弹」。

Text input: A beautiful orchestral piece that evokes a sense of wonder.

用户不错通过提供视频文献或文本推行,让 meta Movie Gen 字据这些输入生成相对应的音频。(PS:肃穆滑板落地的配音)

何况,它不仅不错创建单个的声息效劳,还不错创建配景音乐,以至为统共视频制作完好的配乐,从而极地面进步视频的合座质料和不雅众的不雅看体验。

看完演示 demo 的 Lex Fridman 拊背扼喉地抒发了赞好意思。

好多网友再次「拉踩」OpenAI 的期货 Sora,但更多 翘首企足的网友照旧脱手期待测试体验阅历的绽放了。

meta AI 首席科学家 Yann LeCun 也在线为 meta Movie Gen 站台宣传。

meta 画的大饼,值得期待

在推出 meta Movie Gen 之时,meta AI 不绝团队也同时公开了一份长达 92 页的技巧论文。

据先容,meta 的 AI 不绝团队主要使用两个基础模子来收场这些鄙俚的功能——Movie Gen Video 以及 Movie Gen Audio 模子。

其中,Movie Gen Video 是一个 30B 参数的基础模子,用于文本到视频的生成,大概生成高质料的高清视频,最长可达 16 秒。

模子预考试阶段使用了大宗的图像和视频数据,大概交融视觉天下的各式见地,包括物体畅通、交互、几何、相机畅通和物理法例。

为了提高视频生成的质料,模子还进行了监督微调(SFT),使用了一小部分经心挑选的高质料视频和文本标题。

叙述知道,后考试(Post-training)历程则是 Movie Gen Video 模子考试的紧迫阶段,大概进一步提高视频生成的质料,尤其是针对图像和视频的个性化和编订功能。

值得一提的是,不绝团队也将 Movie Gen Video 模子与主流视频生成模子进行了对比。

由于 Sora 现在尚未绽放,不绝东谈主员只可使用其公建立布的视频和指示来进行相比。关于其他模子,如 Runway Gen3、LumaLabs 和 可灵 1.5,不绝东谈主员聘任通过 API 接口来自行生成视频。

且由于 Sora 发布的视频有不同的远离率和时长,不绝东谈主员对 Movie Gen Video 的视频进行了剪辑,以确保相比时视频具有一样的远离率和时长。

扫尾知道, Movie Gen Video 合座评估效劳上显赫优于 Runway Gen3 和 LumaLabs,对 OpenAI Sora 有轻捷的上风,与可灵 1.5 相当。

以前,meta 还野心公建立布多个基准测试,包括 Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench,以加快视频生成模子的不绝。

而 Movie Gen Audio 模子则是一个 13B 参数的模子,用于视频和文本到音频的生成,大概生成长达 45 秒的高质料和高保果然音频,包括声息效劳和音乐,并与视频同步。

该模子接收了基于 Flow Matching 的生成模子和扩散变换器(DiT)模子架构,并添加了特殊的条款模块来提供限定。

以至,meta 的不绝团队还引入了一种音频延长技巧,允许模子生成超出启动 45 秒扫尾的连贯音频,也等于说B体育app,不论视频多长,模子皆大概生成匹配的音频。

更多具体信息接待稽察技巧论文

相关资讯