谷歌最新曝光的 Gemini Omni 模型展示了其在多模态 AI 领域,尤其是原生视频生成能力方面的巨大进步。根据社交媒体上流出的演示片段,该工具表现出了对视觉空间和文本渲染的高度掌控力。
在技术演示中,Gemini Omni 能够无缝渲染极为复杂的视觉场景,例如一名教授在黑板上推演复杂的数学公式。这种对于精细文本和动态空间布局的精准处理,解决了目前许多视频生成模型在文字一致性和逻辑性上的痛点。
此外,Gemini Omni 还引入了一种极其直观且功能强大的视频创作工作流:用户只需输入单句提示词,即可对现有视频进行精确剪辑。这种简化的交互方式极大降低了视频后期处理的门槛,同时也展示了模型对复杂自然语言指令的深度理解能力。