谷歌Gemini Omni：图片音频文字一键变视频，这只是冰山一角！

编者按：三年前，谷歌推出Gemini时，目标是构建一个原生的多模态大语言模型，一个单一神经网络能够处理文本、图像、音频和视频，并生成任意格式的内容。如今，在Google I/O开发者大会上，这一愿景迈出了决定性的一步：Gemini Omni——一个全新的多模态模型家族——横空出世。它不仅仅是技术升级，更是AI从预测文本到模拟现实的关键转折。从生成连贯视频到用日常语言编辑图片，Omni降低了创作门槛，但也带来了数据安全与伦理的隐忧。本文翻译自TechCrunch的深度报道，将为你揭示这款模型的颠覆性能力与潜在挑战。以下为原文翻译，已保留所有HTML标签。

三年前，谷歌推出Gemini时，目标是要构建一个多模态大语言模型——一个单一神经网络，能对文本、图像、音频和视频进行训练，并生成任意格式的内容。

今天，在谷歌I/O开发者大会上，公司朝着这个目标迈出了实质性的一步：推出Gemini Omni——一个全新的多模态模型家族。谷歌CEO桑达尔·皮查伊表示，这将能“从任何输入中创造出任何内容”。

Omni将从视频开始发力。用户现在可以组合图像、音频、视频和文本，而Omni不只是简单拼接这些输入，它会对所有输入进行推理，以生成一致的输出。结果是生成高质量的视频，这些视频体现出对物理、文化、历史和科学的理解。

Omni还允许用户用纯文本指令编辑照片，而不需要复杂的编辑软件，类似于谷歌的Nano Banana功能。

谷歌已经拥有专门的视频模型Veo，用户可以用它把文本和图像变成视频，甚至指导并定制虚拟形象。但谷歌DeepMind产品管理总监妮可·布里赫托娃表示，今天的发布不仅仅是Veo的更新：“这是朝着将Gemini的智能与我们的媒体模型渲染能力结合起来的下一步。”

DeepMind首席技术官科拉伊·卡武克乔格鲁在周一媒体简报会上给记者举了一个例子：当Omni收到一个简单的提示，比如“一个关于蛋白质折叠的粘土动画解说”，它会迅速渲染出一个定格动画解说视频，并伴有画外音说：“蛋白质以氨基酸链的形式开始。它们折叠成阿尔法螺旋和称为贝塔片层的扁平部分，形成完美的三维形状。”

Omni的长期愿景更为广泛，包括让模型用于从音频生成图像，或者从视频生成音频等任务。

皮查伊在简报会上说：“当我们首次发布Gemini时，它是我们第一个原生多模态的AI模型。我们知道，在文本、代码、音频、图像和视频的组合上进行训练，会赋予它更深入理解世界的能力。有了世界模型，AI正在从预测文本转向模拟现实。Gemini Omni是朝这个方向迈出的下一步。”

作为发布的一部分，用户还能用自己的数字虚拟形象创建视频——这是OpenAI在其现已停用的Sora应用上通过Cameos功能推广的。为了防止深度伪造，用户必须通过一个专门的产品引导流程，包括录制自己并说出一串数字（据布里赫托娃说）。然后虚拟形象会被存储起来供以后使用。

此外，所有用Omni创建的视频都将包含谷歌的SynthID数字水印，让用户能够验证视频是否通过Gemini产品生成。

该家族的第一个模型是Gemini Omni Flash，将于今天在Gemini应用、YouTube Shorts和AI创意工作室Flow中推出。Flash能够渲染10秒的视频，布里赫托娃说这不是模型本身的限制，而是基于两种考虑：希望能让更多人使用，以及预期大多数用户目前还不想制作更长的视频。不过，更长的视频时长很快就会推出。

谷歌似乎将Omni Flash定位为更偏向消费者工具。布里赫托娃和DeepMind研究工程师加布·巴思-马龙在与TechCrunch的通话中举的数字虚拟形象使用例子都是个人化的：制作自己获奖或登月的视频，或者删除度假视频背景中的路人。

巴思-马龙说得更简单：“它们就像个性化的梗图。”

“我们确实专注于让消费者易用，”布里赫托娃说。“没有多少视频模型能跨越与消费者的鸿沟，所以这是我们的尝试。”

易用性有一个前提：布里赫托娃和巴思-马龙指出，编辑提示需要高度具体，否则Omni有过度编辑或无意中改变用户想保留元素的风险——这是Nano Banana用户可能会遇到的问题。

尽管短期内聚焦消费者，但Omni的企业和创意应用前景显而易见，谷歌将在未来几周内通过API提供Omni。虚拟形象生成工具——今天已在Shorts上可用——是谷歌期望内容创作者采用的。但更广泛地说，一个端到端的多模态工作流对广告商和电影制作人来说可能是变革性的。

初创公司Luma AI也在构建类似的产品，一个基于自身“统一”模型的工具，能根据简短摘要和产品图像生成整个广告活动。

“我们实际上非常自豪于模型的文本渲染能力，这在广告等场景中非常有用，”布里赫托娃说。“如果你想在某个位置放产品，甚至只是一个口号，它必须准确……我们当然预计电影制作人和其他类型的创作者也会使用这个模型。”

更专业的用例可能更适合Omni Pro模型，它在所有Omni任务上表现更佳。谷歌尚未透露何时发布Pro，但布里赫托娃说当“我们觉得到了比Flash有质的飞跃时”就会发布。