当前位置：首页 > 家具趋势

刚发布就被对标Sora，这个国产模型来头这么大？

2025-03-07

大船驶来的压迫感，被风吹起的发丝和丝巾，太空人直接走进现实菜园。。。一幕幕把我看得是一愣一愣的。

真实度也是一绝，在湖边随着镜头移动，不仅光线跟着变化，连天空、树木的变化都跟咱肉眼看到的没差。

它最长能生成16秒，一句“木头玩具船在地毯上航行”的提示词，就能生成下面这长长的一段，一镜到底的丝滑程度，怕是路过的谋子导演看了都会点赞。

Sora号称能真实模拟物理世界的拿手戏，Vidu照样也能实现。

而且Vidu的想象力比咱人还要丰富，画室里的一艘船驶向镜头的场景，它分分钟就能给“拍”出来，看这效果，不知道该有多少动效师瑟瑟发抖了。

甚至在某些提示词下，Vidu的理解能力比Sora还强，比如“镜头绕着电视旋转”的提示词，Sora压根儿就没get到旋转的意思，反而是Vidu能轻松理解。

不过这里面世超更好奇的是，咱之前压根儿都没听说过Vidu，怎么突然平地一声雷，搞出了这么大的阵仗？

我们也顺藤摸瓜找了找资料，发现Vidu身上，值得说道的东西还挺多，甚至仔细咂摸下，还能从Sora身上找出点Vidu的影子来（世超可没说反）。

它背后是一家名叫生数科技的公司，别看这个公司才刚满一周岁，但它可是在娘胎里就开始攒劲儿了。因为它的亲妈，是清华系AI企业瑞莱智慧，背后的研究团队，几乎全是这里面的人。

尤其是在图像生成这块很火的扩散（Diffusion）模型，他们算是业内第一批研究这个模型的，整出来的论文也在ICML、NeurIPS、ICLR各种顶会发了个遍。

正是因为有这么好的底子，早在2022年9月的时候，团队就找到了做Vidu的灵感，就是下面这篇论文。

世超让AI帮咱解读了下，大概的思路就是，扩散模型在生成图像这块挺强，而大语言模型里用的Transformer有个规模（Scale）效应，参数堆得越多，性能就越好。团队就想着，能不能把这两个的优点结合一下，整个融合架构，提升图像生成的质量。

于是他们转头把扩散模型里面的U-Net给换成Transformer，还起了个名字叫U-ViT（VisionTransformers）。结果试下来发现这么一结合还真有用，光是相同大小的U-ViT，性能就比U-Net强了。

那好嘛，既然这条路走得通，他们也顺势把技术路线定在了U-ViT上。

然鹅。。。在团队悄悄酝酿Vidu的时候，大洋彼岸的UC伯克利的一个研究，却让OpenAI的Sora捷足先登了。

就在清华小分队提交论文的两个月后，UC伯克利也在预印平台ArXiv上提交他们的论文了，一样说要把Transformers揉在扩散模型里面，只不过名字起的更直白了点，叫DiT（DiffusionTransformers）。

看着是不是挺眼熟，没错，OpenAI的Sora模型，用的就是伯克利的DiT技术路线。

但因为清华小分队早发了两个月，当年的计算机视觉顶会CVPR2023还以“缺乏创新”的由头，拒了Sora的DiT，收录了U-ViT。

而且早在2023年年初的时候，清华小分队还用U-ViT，训练出了一个近10亿参数量的开源大模型UniDiffuser。

算是第一个用行动证明了，融合架构也遵守ScalingLaw这一套规则，也就是说随着计算量、参数量越来越大，模型的性能就会随指数级上升。而这个ScalingLaw，同样也是Sora这么强的秘密武器。

所以照这么来盘算，Sora其实还得叫Vidu一声祖师爷才对。。。

但现实世界却是，DiT被OpenAI带着一路飞升。

好在他们身上还是有点实力在的，稳扎稳打慢慢也赶上来了。去年3月，清华小分队们成立了生数科技后，就在马不停蹄地搞自家的产品，现在图像生成和3D模型生成大伙儿都能免费用了。

并且靠着这两个产品，刚满一周年，它就攒了好几亿的家底。

像是成立3个月的时候，就完成了一波近亿级的天使轮投资，上个月，又完成了新一轮的数亿元融资。参与投资的，也都是智谱AI、BV百度风投等等业内大佬。

反正看这波架势，Vidu还真有可能成为国内的黑马，去对标OpenAI的Sora。

当然了，好听话谁都会说，能不能搞出来，咱还得实打实地看成品。

世超已经去排了队，等拿到内测资格，再跟大伙儿同步一波。。。

相关推荐