智东西 作者 GenAICon 2024 2024中国生成式AI大会于4月18-19日在北京举行,在大会首日的主会场开幕式上,爱诗科技创始人兼CEO王长虎博士以《AI视频生成——用像素构建星辰大海》为题发表演讲。 王长虎深耕计算机视觉与AI领域20年,曾任微软亚洲研究院主管研究员,2017年初加入字节跳动,而后担任字节跳动AI Lab总监,从0到1支撑了抖音、TikTok等国民级视频产品的建设与发展。2023年4月,他创办AI视频大模型创企爱诗科技。 爱诗科技在今年1月上线的海外版产品PixVerse,是当前全球用户量最大国产AI视频生成产品,国内版(爱诗视频大模型)也在今年3月上线内测。上线88天,PixVerse达成了一千万次视频生成量里程碑。 今年2月,Sora横空出世,点燃了大众对视频生成的热情,也为深耕该领域的从业者带来了前所未有的机遇和挑战。在技术层面上,Sora验证了DiT架构在视频生成中的Scaling Law(规模定律),并证实了这个方向的可行性。在王长虎看来,追赶Sora的窗口期在一年前,也就是爱诗科技成立的2023年。 过去一年,视频大模型经历着量变到质变。王长虎认为,中国在短视频领域领先全球,同时短视频也是最贴近用户的内容形态。目前视频生成技术还没有到ChatGPT时刻,他称自己有一支在全球AI视频领域最能打硬仗、打胜仗的团队,希望最大程度降低视频创作门槛,实现技术普惠。 以下为王长虎的演讲实录: 过去这一年,视频生成领域进展迅速,从无人问津到众所周知。今天借这个机会,希望能跟大家聊一聊过去一年我的一些体会和浅见。 大家应该非常熟悉这个视频了。今年大年初七凌晨,Sora横空出世,进一步激发了大众对AI视频生成的热情。很多评论、解读铺天盖地而来,很多大V、大佬们也纷纷发言,包括马斯克、周鸿祎以及各种媒体。 当时最令我开心的是这条,我们公司一位优秀的候选人第一时间给我发信息,说“我要加入你们”,因为视频生成这件事“太大了、太重要了,时不我待”。 这是一张当时在国外互联网上广为流传图片——一众视频生成模型膜拜“新王”Sora。看到这张图后,我的心情很复杂。 我们的产品叫PixVerse,很荣幸“跪”在了第一排,跟Runway、Pika、SVD等当时最好的视频生成产品放到一起,也是这张图里面唯一一家中国公司。 但另一方面,我们前面有一个巨人,还需要进一步超越它。有人问我,Sora出现之后你会不会焦虑?中美之间的视频大模型差距会不会越来越大?爱诗作为创业公司,接下来路怎么走? 在我看来,Sora的出现是2024年春节期间我收到的最好的礼物。一、Sora验证了DiT架构,追赶Sora的窗口期在一年前。我们是在去年整个视频生成行业还非常冷的时候,加入这个赛道的,并且在Sora出来之前,产品实测效果已经走到全球视频生成第一梯队。这就像一个人在戈壁徒步,已经走在最前面,需要继续探索的时候,突然看到前面有一些脚印,那时候的感觉一定是非常开心。一方面,这验证了这个方向大概率是对的;另一方面,前面还有一个人能让你继续超越。因此,强大的对手是沙漠中的水源。对于Sora的解读非常多,我就不详细展开了。在我看来,Sora最大的贡献就是验证了DiT(Diffusion Transformer)在视频生成中的Scaling Law(规模定律)。在基础计算量的时候,AI生成的视频惨不忍睹,随着计算量加倍至32倍,生成视频几乎可以以假乱真,这更坚定了我们做视频生成的信心。毋庸置疑,Sora的出现推动了整个行业的进步和发展。但是很遗憾,至今为止我也没有机会试一下Sora,我们想在座的绝大多数人都没有试过。当前,Sora只是一场“卖家秀”,也特别期待有一天我们可以看到更多的“买家秀”。Sora出来之后,我们可以看到很多大厂、初创公司都去做视频生成了,要超越Sora。有人问我,超越、追赶Sora的最佳窗口期是多长时间?在我看来,追赶Sora的窗口期是在过去这一年,是在视频生成行业很冷的那一年,是在Sora出来之前,整个业界对这个方向还不那么认可的一年。二、视频生成去年不被看好,仍带领抖音AI视频团队All in回到一年前,我们可以看一下这个行业有多冷。一年前的今天,OpenAI、Anthropic分别获得了100亿美金、10亿美金的融资,国内的很多大语言模型创企也纷纷拿到第一桶金数亿美金,更大的一笔钱还在融资计划中。再看视频大模型。一年前,做视频大模型的公司,一只手都可以数得出来。国外Runway已经成立五年,拿到2亿美元融资;Pika刚刚出现,拿到2000万美金;爱诗拿到数百万美元融资。视频大模型和大语言模型相比,就像蚂蚁和大象一样。 去年上半年,我们讨论了几位投资人。一位行业领袖第一时间提供了资金支持,成为我们的天使领投人。然而,其他许多投资者对这个领域的前景并不十分看好,甚至有人建议我们尽快变现或回家工作。面对这样的现实挑战,我们面临一个选择:是继续创业还是回归常规? 那时,视频生成领域缺乏开源模型,需要从头开始构建,且生成质量令人失望。相比之下,AI图片生成产品Midjourney已经崭露头角,每月能产生数千万美元的MRR(月度经常性收入),拥有开源模型,因此许多创业公司都转向了文生图。 如果选择视频生成,我们应该专注于大模型还是应用层?当时有许多人找到我,提议我们可以做游戏、电商、广告等,这些领域可以快速实现盈利。但在我看来,视频是最重要的内容类型,也是离用户最近的一类。过去几年里,如抖音、TikTok这类短视频平台已经成为全球最受欢迎的国民级产品,无论是下载量还是使用时长。 我们有幸从2017年开始,从零到一地支撑了抖音、TikTok等产品背后的视频AI技术。因此,在AI视频生成领域,我们是全球最具竞争力和胜利记录的团队,最终决定全力投入AI视频生成。 去年这个时候,在Sora出现之前,引用张一鸣的话说:“务实的浪漫”。我们没有选择最容易的事情,而是选择了当时可能非主流、非共识,但我们认为是正确的事情。做视频大模型是有生命力的,是面向未来的。 我们公司也取了一个有点浪漫的名字——爱诗,“爱”代表AI,“诗”意味着最高级别的内容,”爱诗”意味着用AI创造最高级的内容。 去年4月份公司成立,7月份开始训练大模型,经过大约几个月的时间,技术上已经达到全球第一梯队。今年1月份我们的产品PixVerse在海外上线,发展迅速。Sora出现之前,我们在年前已经拿到了数亿元的第二轮融资。 这是去年8月,我们第一次训练好的一个完整模型生成的视频,虽然时间很短,动作很小,但对于我们来说却是一个巨大的进步。 有人问我,大语言模型和视频大模型有什么区别? 在人类历史的长河中,语言和视觉是两种截然不同的表达方式。语言,作为人类文明的产物,承载着高度抽象和概括的信息;而视觉则以其原始的力量,记录着自然万物的存在。随着技术的发展,尤其是视频生成大模型的出现,人们对其的期望也从模拟人脑转变为对世界进行更深入的理解和呈现。 视频生成的本质在于理解世界,并通过影像进行呈现。这一过程经历了从简单的记录到复杂的生成的转变。历史上,人类已经能够通过岩壁记录群狮奔跑的画面,法国摄影先驱制作出可以长期展现的照片,以及人类历史上第一个视频的产生。这些历史时刻虽然看似遥远,但实际上与我们的生活息息相关。 小时候,我的父亲为我制作的“走马灯”便是原始视频生成的体现。这种灯通过蜡烛产生的热气上升,带动轴轮转动,轴轮上绑着剪纸,烛光透过剪纸投射到屏上,呈现出动态的效果。这种简单的技术反映了我们对世界的理解,尽管它远不如现代的视频生成技术复杂。 随着抖音、快手等短视频平台的兴起,视频生成技术也逐渐进入公众视野。最初阶段是检索生成,即视频片段来源于海量数据,并非完全原创,而是通过自动或人工拼接而成。第二阶段是部分生成,用户在抖音、TikTok上可以看到许多特效视频,如“控雨”特效,这些视频往往基于原始视频进行局部生成,包括美颜、动漫风等效果。而真正意义上的视频生成,则是凭空生成,这一概念最早可以追溯到十年前,GAN(生成对抗网络)的出现。此后,局部生成领域取得了显著成就,但通用生成和文生视频的技术仍面临挑战。直到Diffusion扩散模型的成功,2023年出现了众多基于文生视频的技术产品,如谷歌的VideoPoet、英伟达的Video LDM、Runway的GEN-2、Pika以及我们的PixVerse。 在2024年,随着Sora模型的问世,我们见证了数据量、计算量和参数量的巨大提升,这为视频生成技术带来了显著的进步。这一年中,AnimateDiff、VideoPoet和Sora等模型的参数都有了显著的增长,这不仅推动了视频生成产品的升级,也展示了人工智能技术的飞速发展。 让我们回顾一下PixVerse的发展。去年11月,我们的测试版PixVerse首次亮相,并于今年1月正式发布了Web UI版本。这一版本的发布解决了多镜头一致性问题,让创作者能够轻松地将照片转化为视频主角。用户只需上传一张照片,就可以生成具有“他”视角的视频,从而解决了传统拍摄中的多镜头一致性难题。 PixVerse的上线仅用88天就达到了1000万次的生成记录,这标志着我们的AI视频创作工具已经得到了广泛的接受和认可。而其中最引人注目的是,我们开发的第一个视频,它是由一个用户自拍并输入到PixVerse中,生成了自己跑步的视频,展现了“他”身材的优越性。这个视频迅速被分享到健身群中,引起了广泛关注。 此外,PixVerse还被国内多个创作者广泛使用。例如,一位俄罗斯用户在今年1月份利用PixVerse创作的AI科幻片《Last Mission》,在全球范围内产生了广泛影响。许多国内用户也在使用我们的产品,他们惊讶地发现编导们已经在使用PixVerse进行AI视频的创作。 PixVerse的成功不仅体现在其技术突破上,更在于它如何改变了创作者的工作方式。国内导演“闲人一坤”就是其中的一个例子,他利用PixVerse创作出了《山海奇镜之劈波斩浪》,这是国内播放量最大、影响力最大的AI视频之一。据悉,该视频已被快手平台采购,预计将在5月上线。 通过与创作者的交流,我们也感受到了很多感人的时刻。一位54岁的老大哥向我们表达了加入创作者计划的愿望,他表示在使用PixVerse的过程中享受到了创作的愉悦,并与我们分享了他的故事。这种感动来自于我们的产品不仅被专业创作者所使用,普通用户也能从中受益。 总之,PixVerse的发布和成功应用,不仅展示了人工智能技术的强大潜力,也为视频生成领域树立了新的标杆。我们期待未来PixVerse能继续引领创新,为用户带来更多惊喜和感动。 乌克兰导演因经济原因失业,利用PixVerse技术创作了首个香水广告,并迅速获得成功。随后,他为啤酒、钻石等品牌创作广告,通过PixVerse生成的镜头获得了收益。这些广告不仅展示了PixVerse的强大功能,也体现了视频生成技术在商业领域的广泛应用。 最近,我在朋友圈分享了我们一千万次视频生成的成就。每一个视频背后都承载着一个故事,这是我们技术进步的一小步。未来,我们希望继续服务更多的用户,让更多人受益于视频生成技术的发展。 目前,虽然视频生成技术尚未达到ChatGPT的水平,但我们已经看到了专业创作者们如何利用PixVerse来替代传统拍摄资源,创造出高质量的大片。我们也期待这一技术能够在未来惠及更多行业,如游戏、动漫、教育、影视等领域。 我们希望降低使用门槛,让普通消费者也能轻松使用AI视频生成产品,将创意转化为现实。我们的目标是实现技术的普惠,让每个人都能享受到科技进步带来的便利。 我们的产品名为PixVerse,其中“Pix”代表像素,“Verse”代表宇宙。AI视频生成,就是“用像素构建星辰大海”。