谷歌近日推出了其全新的Gemini Omni人工智能模型,旨在革新多模态内容的创作方式。这款模型的关键承诺在于能够“从任何输入”生成内容,涵盖音频、视频、照片及文本等多种形式。最初,Gemini Omni以视频生成为核心功能,用户随后可以通过与Gemini的对话式文本进行视频编辑。作为该系列的首个模型,Gemini Omni Flash已在Gemini应用、Google Flow以及YouTube Shorts平台上线。
据谷歌介绍,利用文本指令编辑AI生成的视频过程直观便捷。该模型还确保在编辑后保持内容的一致性,包括角色形象。值得一提的是,Omni具备记忆前一场景可见内容的能力。谷歌宣称,Gemini Omni能够运用其“对物理的直观理解”,有效地“弥合了从照片级真实感到有意义故事叙述之间的鸿沟”。
用户已经通过Gemini Omni取得了令人瞩目的成果。例如,前谷歌产品经理Bilawal Sidhu向Gemini Omni提供了一张带有无人机路径草图的照片,成功让AI生成了无人机视角的画面。
《The Verge》的Allison Johnson在评测中称Omni“令人惊叹”,并利用该AI将她孩子的毛绒玩具“巴迪”赋予了生命,让巴迪体验了白水漂流和滑雪等AI冒险。Johnson提到:“生成结果好坏参半,令人费解。有些非常出色——比我五个月前测试Veo时更加连贯且符合我的提示。但即便Omni为我生成的最佳片段,也仍存在某些‘AI惊吓’,比如巴迪在跳伞时突然改变了方向。”
Johnson的测试还揭示了Omni最引以为傲的特性——能够将多种输入媒体与AI生成的视频结合,这一能力在技术上令人印象深刻,但也可能带来潜在风险。她生成的一个深度伪造视频甚至成功骗过了她的丈夫,而她的丈夫在过去十年里几乎每天都与她相见。
对于这种能力究竟是巧妙还是可怕,观点各异。Threads用户near_photography在回应Johnson的帖子时写道:“我不可能是在想,这根本没有存在的理由。这种能力对社会没有任何净收益。”这反映了业界对于AI生成内容真实性、伦理和潜在滥用的持续担忧。
【AgentUpdate 深度解析】
谷歌Gemini Omni的发布,尤其是其多模态输入与文本对话式视频编辑能力,标志着AI Agent生态系统在感知和生成维度上迈出了关键一步。与当前市场上其他领先的文生视频模型,如OpenAI的Sora、RunwayML以及Pika Labs相比,Gemini Omni的独特之处在于其强调“从任何输入”生成,并将视频生成与后续的文本驱动编辑紧密结合。这意味着AI Agent不再局限于单一模态(如仅文本理解或图像生成),而是能更像人类一样,通过多种感官(文本、图像、视频、音频)接收指令,并以多模态输出(可编辑的视频内容)来执行复杂任务。例如,一个设计Agent可以接收客户的草图、口头描述和参考视频,然后生成初步视频方案并根据客户的文字反馈进行迭代修改。此外,其宣称的“对物理的直观理解”更是朝着通用型AI Agent迈进的重要里程碑,因为这赋予了Agent对真实世界动态的更高保真度模拟能力。
然而,伴随这种强大能力而来的是对AI Agent应用场景的深远影响和潜在挑战。一方面,它极大拓展了Agent在创意产业(如内容创作、广告、电影预可视化)、教育(模拟教学视频)、甚至是工业设计和模拟(物理模型仿真)中的应用潜力,使得Agent能够承担更具象化、更复杂的设计与执行任务。另一方面,深度伪造的伦理和安全问题也达到了新的高度。当AI Agent能够生成逼真到足以欺骗人类的视频内容时,如何确保Agent生成内容的真实性、可追溯性以及防止其被恶意利用将成为Agent安全框架设计的重中之重。未来的AI Agent需要内置更强大的内容验证机制和伦理约束模块,以应对日益复杂的信任危机。Gemini Omni的出现,无疑加速了AI Agent从纯粹的信息处理者向多模态内容创造者和交互者的演进,同时也对整个生态提出了更严格的监管和技术应对要求。