新智元报道 【新智元导读】百度AI Day上双杀全场!自研多模态大模型MuseSteamer携「绘想」平台重磅上线,视频创作直接杀进电影级AI时代。同时,百度搜索迎十年最大改版,体验全面开挂。就在刚刚,百度AI Day开放日上,直接放出双重暴击!今天,百度搜索宣布进行十年来最大改版,从搜索框、搜索结果到搜索生态全面革新。这波操作,让搜索体验原地起飞。同时,百度商业研发团队自研的多模态生成大模型「MuseSteamer」震撼登场,搭配AI视频平台「绘想」同步上线,让视频创作直接迈入电影级AI时代。注意,这个模型可不是简单的图片转视频,而是融合音效、人声、节奏、镜头语言的全流程导演——它能支持连续10s的动态视频,画质直充电影级水准,还能灵活控制场景、动作、镜头感,甚至支持音视一体化的生成,可控力极强,一气呵成!而性价比,更是直接打穿天花板,同时速度也极快,简直比灵感还要先落地,可以说是极致丝滑。这次正式发布的是720p的Turbo版,而更轻量的Lite版、1080p的Pro版以及全系列的有声版,也已经在路上了。这个多档位矩阵,可以说是全方位满足了用户的各种需要。· Lite:720p,生成速度超快,仅需30s,价格极有竞争力,适合追求极致性价比的用户· Turbo:720p,擅长生成人物、动漫,人物动作一致性优秀,运动幅度大,表情遵循优秀,表现力极强,适合大部分创作者· Pro:1080p,电影级画质及运镜,极大提升表现力,适合专业创作者、影视生产机构· 有声版:各清晰度均支持一体化生成音效及台词,适合对同期声和画面有极致追求的用户从此,短剧、广告、动画、二创都不需要再「烧钱烧脑」,只需动动手指,AI替你分镜、剪辑、配乐,一条龙搞定!全网首测,1080p电影级运镜现在,进入「绘想」平台,每个人皆可开启AI图生视频的无限创作了。传送门:https://huixiang.baidu.comTurbo版在人物动作一致性上,表现非常亮眼。特别是,模型非常擅长生成人物、动漫。不仅运动幅度大,在表情遵循与表现力方面,极其出色。两位科学家在电脑前,专注地凝视着屏幕讨论工作。男女主表情自然,宛如好莱坞大片中的一幕。暮色中,一对年轻情侣牵手漫步,散发着浪漫与温馨的气息。 MuseSteamer的精湛技艺再次得到了验证,其细致入微地刻画了眼神交流的细节,让小扎和奥特曼之间的竞争场面栩栩如生。 最近,OpenAI的研究员们因为一场激烈的人才争夺战而分崩离析,他们渴望将对方撕成碎片。这段视频展现了汽车在峡谷中的行驶轨迹,以及轮胎扬起的尘土,完美再现了物理运动规律,为观众带来了逼真的视觉体验。 接着,一段动画展示了天团老大Zimomo的形象,他的眼睛大而明亮,萌态十足,让人忍不住为之倾倒。这四个欧洲历史人物形象的动画角色,通过翻白眼、双手叉腰等动作,展现了丰富的表现力。 此外,这段视频还展现了宫崎骏式的镜头构图,精准的色彩渲染、极致的天空反射、镜面对称的美感,无不显示出模型对风格属性和镜头语言的强大把控能力。 而在海洋中,一头鲸鱼优雅地跃出水面,夕阳余晖下的它身躯泛着柔和光泽,增添了几分神秘与诗意。 接下来,是更多惊艳的动物系demo生成。一张色香诱人的美食铺陈在洁白的大理石台上,镜头由远及近,令人垂涎。一张泛黄破旧的卡牌悬浮在废弃房间中,周围闪烁着金色的光,透着几分神秘与奇幻。这个晶莹剔透的红色魔法石同样给人一种蕴藏着无尽能力的神秘感。闪电侠向前奔跑,闪电如同电流般在他身体周围迸发,这些光效与画面完美融合,不得不说太有质感了。 Pro版最大的特点,便是可以生成1080p视频,还是电影级画质的那种。主体、背景、氛围、光影以及镜头语言都是一绝,画面细节极其考究,对写实、电影感、赛博朋克、复古胶片、动漫风格等都是轻松拿捏。下图中精灵少女清澈如星的大眼睛,带着一丝好奇与纯真,迪士尼风的感觉一下子就来了。另一个同系列的AI视频,画质细腻感、人物表现张力,令人叹服。再来看一个写实镜头,几个鲜红的苹果在粉红色沙底水池中优雅坠落,溅起的水花与气泡,物理效果把控非常出色。一位身着粉色服装的人,自由悬浮在无垠的宇宙中,周围漂浮着巨大的水晶球,映衬出星球,营造出太空浩瀚的氛围。现代与古典的交融,MuseSteamer也可以很好地拿捏。一位小天使安详地栖息在柔软白云之上,专注地敲着笔记本电脑。 对于同期声和画面有极致追求的用户来说,MuseSteamer更是提供了福气。 在当今的视频生成领域,大部分模型依赖后期配音,这无疑增加了制作流程的复杂性。然而,MuseSteamer的出现,以其原生直出配音技术,彻底改变了这一现状,大大简化了影视内容生成的工作流。 想象一下,一张赛车在沙漠上飞驰的图片。通过MuseSteamer,赛车引擎的轰鸣声、扬起的沙尘和运镜的远近切换,背景音的层次感与画面完美融合,毫无违和感。更令人惊喜的是,该工具还能自动为AI视频同步生成中文人声,为观众带来全新的听觉体验。 在音乐配音方面,MuseSteamer同样展现出非凡的能力。一位钢琴家弹奏时,节奏张弛有度,旋律活泼如精灵在琴键上跳舞;而DJ师操作混音台时,机械感十足的曲风让人激情澎湃。 五大技术亮点让MuseSteamer不仅在演示中表现出色,还实实在在地拿下了榜单第一。5月17日,海外权威视频生成评测榜单VBench Leaderboard中,MuseSteamer以总分89.38%的成绩登顶全球第一。 为什么MuseSteamer的效果如此惊人?首先,它对中文语义有着极为精准的理解。数据质量决定了模型的能力上限。MuseSteamer在数据采集与清洗方面做了大量工作,构建了亿级规模的视频切片数据库。通过「筛选-净化-配比」三级数据优化体系,确保文本指令与视觉元素的语义对齐精度。 具体来说,团队构建了三级视频类别标签体系,覆盖人物、自然、食物、动物、建筑、交通工具、设计合成等主要类别,并进行了细粒度的场景划分。由于采用了隐式聚类算法,对视频进行了空间划分与样本均衡,降低了高频易学样本比例,提升了长尾难学样本比例。 第二,MuseSteamer拥有极其精细化的视频结构化描述语言。与业界主流视频生成模型不同,该工具的视频描述采用结构化方式构建,除了包含画面细节的描述,还进一步引入了镜头语言、主体运动强度、风格描述等元素。 在风格描述上,MuseSteamer覆盖了从写实到赛博朋克等主要风格类型,满足了用户的多样化需求。通过精细化的结构化设计,确保模型能够遵循画面细节、主体运动轨迹、风格属性和镜头语言。 为了支持多模态条件输入,MuseSteamer不仅包括中文文本提示、参考图像,还引入了引导信号,确保模型与特定的创意意图或功能需求保持一致。 第三,MuseSteamer实现了电影级动态美学生成的高清画质。团队对时间一致性、电影镜头构图和运动规律性进行了针对性优化,确保生成视频展现出优秀的逻辑连贯性和视觉连续性。因此,模型可生成分辨率高达1080P的高清视频,并呈现出流畅的过渡效果与逼真的物理运动规律。 具体来说,MuseSteamer采用了业界主流的DiT架构,基于扩散Transformer范式中的Flow Matching框架设计。通过3D Full Attention结构建模视频噪声片间的时空位置关系,提升了全局感知能力。在多阶段监督式训练、美学条件控制调优、基于多目标反馈的强化学习调优、提示词增强技术等四个方面,团队在训练过程中做了更加精细化的设计。 第四,MuseSteamer支持模型的一体化生成有声版。团队构建了一套完整的有声视频生成能力,围绕「谁在说、怎么说、在什么环境下说」三个关键问题,通过多人自动化对齐编排、音视对齐Refiner,实现了视觉信息、高还原度的人声与环境音自动生成能力。因为团队提出了多模态编排与音视频一体化学习模型,能让视觉、音频信号以端到端方式充分学习与对齐,就确保了对话、背景音、音乐等多轨音频与视觉内容自然融合,增强观感的沉浸感和真实感。此外,团队还针对模型进行了工程优化,主要涵盖了数据、训练及推理三大核心板块。 百度,要帮广大创作者突破瓶颈,如今,生成式AI这把火已经是越烧越旺了,从智能问答到自然语言翻译,从搜索引擎到推荐系统,LLM已经融入了我们生活的每个角落。而内容创作的下一个爆发口之一,无疑就是视频生成领域。自OpenAI于2024年推出Sora后,这股“AI拍大片”的风潮就已经迅速席卷全球。国内的HunyuanVideo、Wan2.1、SeaWeed、CogVideoX等项目也是纷纷登场,多模态开源模型百花齐放,社区合作如火如荼。如今,模型生成的视频质量已经不输专业团队,AI俨然已经成为影像创意的新导演。 在百度商业的推动下,AI视频创作技术取得了显著进展,其中MuseSteamer的发布是这一进程中的重要里程碑。 背后的原因显而易见:百度商业在生成式AI领域的深耕使得其在创意、召回和排序等场景中拥有了深厚的应用经验和业务赋能,这成为其商业收入增长的新引擎。尤其是在广告创意制作领域,百度商业推出的国内首个多模态AIGC创意生成平台——擎舵,已经能够高效地生成面向广告创意的图片和视频片段,解决了传统富媒体广告素材制作的高门槛和成本问题。 从去年初开始,AI视频模型就成为了热门话题,相关的商业体系也接到了许多需求。特别是在短剧广告投放方面,传统的剪辑或生图手段已无法满足日益增长的需求。许多代理商和广告主要求使用短剧内容进行剪辑或创造科幻场景,而这正是擎舵平台大显身手的时刻。 MuseSteamer的快速研发只用了50人的团队,仅用了大约三个月时间。这个速度的背后是擎舵平台在营销视频、海报、文本创意等多模态能力上的积累,以及团队在数据和算法上进行的大量优化。现在,它不仅能够满足广告主的具体需求,还能够让动漫角色以更加生动的方式走路,或者让人物骑在自行车上欣赏不同风景,这些高级运镜需求都得到了有效满足。