大船驶来的压迫感,被风吹起的发丝和丝巾,太空人直接走进现实菜园。。。一幕幕把我看得是一愣一愣的。 真实度也是一绝,在湖边随着镜头移动,不仅光线跟着变化,连天空、树木的变化都跟咱肉眼看到的没差。 它最长能生成16秒,一句“木头玩具船在地毯上航行”的提示词,就能生成下面这长长的一段,一镜到底的丝滑程度,怕是路过的谋子导演看了都会点赞。 Sora号称能真实模拟物理世界的拿手戏,Vidu照样也能实现。 而且Vidu的想象力比咱人还要丰富,画室里的一艘船驶向镜头的场景,它分分钟就能给“拍”出来,看这效果,不知道该有多少动效师瑟瑟发抖了。 甚至在某些提示词下,Vidu的理解能力比Sora还强,比如“镜头绕着电视旋转”的提示词,Sora压根儿就没get到旋转的意思,反而是Vidu能轻松理解。 不过这里面世超更好奇的是,咱之前压根儿都没听说过Vidu,怎么突然平地一声雷,搞出了这么大的阵仗? 我们也顺藤摸瓜找了找资料,发现Vidu身上,值得说道的东西还挺多,甚至仔细咂摸下,还能从Sora身上找出点Vidu的影子来(世超可没说反)。 它背后是一家名叫生数科技的公司,别看这个公司才刚满一周岁,但它可是在娘胎里就开始攒劲儿了。因为它的亲妈,是清华系AI企业瑞莱智慧,背后的研究团队,几乎全是这里面的人。 尤其是在图像生成这块很火的扩散(Diffusion)模型,他们算是业内第一批研究这个模型的,整出来的论文也在ICML、NeurIPS、ICLR各种顶会发了个遍。 正是因为有这么好的底子,早在2022年9月的时候,团队就找到了做Vidu的灵感,就是下面这篇论文。 世超让AI帮咱解读了下,大概的思路就是,扩散模型在生成图像这块挺强,而大语言模型里用的Transformer有个规模(Scale)效应,参数堆得越多,性能就越好。团队就想着,能不能把这两个的优点结合一下,整个融合架构,提升图像生成的质量。 于是他们转头把扩散模型里面的U-Net给换成Transformer,还起了个名字叫U-ViT(VisionTransformers)。结果试下来发现这么一结合还真有用,光是相同大小的U-ViT,性能就比U-Net强了。 那好嘛,既然这条路走得通,他们也顺势把技术路线定在了U-ViT上。 然鹅。。。在团队悄悄酝酿Vidu的时候,大洋彼岸的UC伯克利的一个研究,却让OpenAI的Sora捷足先登了。 就在清华小分队提交论文的两个月后,UC伯克利也在预印平台ArXiv上提交他们的论文了,一样说要把Transformers揉在扩散模型里面,只不过名字起的更直白了点,叫DiT(DiffusionTransformers)。 看着是不是挺眼熟,没错,OpenAI的Sora模型,用的就是伯克利的DiT技术路线。 但因为清华小分队早发了两个月,当年的计算机视觉顶会CVPR2023还以“缺乏创新”的由头,拒了Sora的DiT,收录了U-ViT。 而且早在2023年年初的时候,清华小分队还用U-ViT,训练出了一个近10亿参数量的开源大模型UniDiffuser。 算是第一个用行动证明了,融合架构也遵守ScalingLaw这一套规则,也就是说随着计算量、参数量越来越大,模型的性能就会随指数级上升。而这个ScalingLaw,同样也是Sora这么强的秘密武器。 所以照这么来盘算,Sora其实还得叫Vidu一声祖师爷才对。。。 但现实世界却是,DiT被OpenAI带着一路飞升。 好在他们身上还是有点实力在的,稳扎稳打慢慢也赶上来了。去年3月,清华小分队们成立了生数科技后,就在马不停蹄地搞自家的产品,现在图像生成和3D模型生成大伙儿都能免费用了。 并且靠着这两个产品,刚满一周年,它就攒了好几亿的家底。 像是成立3个月的时候,就完成了一波近亿级的天使轮投资,上个月,又完成了新一轮的数亿元融资。参与投资的,也都是智谱AI、BV百度风投等等业内大佬。 反正看这波架势,Vidu还真有可能成为国内的黑马,去对标OpenAI的Sora。 当然了,好听话谁都会说,能不能搞出来,咱还得实打实地看成品。 世超已经去排了队,等拿到内测资格,再跟大伙儿同步一波。。。