【TechWeb】5 月 20 日消息,今日凌晨,在谷歌 2026 I/O 开发者大会上,官方正式发布全新旗舰级多模态大模型 Gemini Omni。

据了解,Gemini Omni 主打 「任意输入、任意输出」 的核心能力,打破传统 AI 模态割裂局限,实现文本、图像、音频、视频等全模态信息的互通理解与自由生成。
据官方介绍,Gemini Omni 依托谷歌成熟的世界模型 Genie、图像模型 Nano Banana、视频生成模型 Veo 三大核心技术底座,构建起完整的全模态 AI 框架。
该模型支持多样化混合输入,用户可将手绘草图、文字描述、图片素材、音频视频等任意形式内容组合输入模型,系统可自主解析信息逻辑、模拟真实物理规则,最终生成高精度、符合现实逻辑的视频、图像、文本等多元化输出内容。
本次发布最大的实用化亮点在于对话式实时编辑能力。不同于传统 AI 生成工具一次性输出、修改繁琐的痛点,Gemini Omni 支持生成过程中的交互式迭代优化。用户完成初始内容生成后,可通过自然语言对话精准调整画面细节,例如替换视频场景、修改物体材质、调整动态特效,且修改过程不会破坏画面原有整体逻辑与物理效果。
发布会现场演示中,工作人员仅凭手绘简易图形+文字指令,便生成了带有物理碰撞效果的完整特效视频,直观展现了模型的强大创作能力。
【TechWeb】5 月 20 日消息,今日凌晨,在谷歌 2026 I/O 开发者大会上,官方正式发布全新旗舰级多模态大模型 Gemini Omni。

据了解,Gemini Omni 主打 「任意输入、任意输出」 的核心能力,打破传统 AI 模态割裂局限,实现文本、图像、音频、视频等全模态信息的互通理解与自由生成。
据官方介绍,Gemini Omni 依托谷歌成熟的世界模型 Genie、图像模型 Nano Banana、视频生成模型 Veo 三大核心技术底座,构建起完整的全模态 AI 框架。
该模型支持多样化混合输入,用户可将手绘草图、文字描述、图片素材、音频视频等任意形式内容组合输入模型,系统可自主解析信息逻辑、模拟真实物理规则,最终生成高精度、符合现实逻辑的视频、图像、文本等多元化输出内容。
本次发布最大的实用化亮点在于对话式实时编辑能力。不同于传统 AI 生成工具一次性输出、修改繁琐的痛点,Gemini Omni 支持生成过程中的交互式迭代优化。用户完成初始内容生成后,可通过自然语言对话精准调整画面细节,例如替换视频场景、修改物体材质、调整动态特效,且修改过程不会破坏画面原有整体逻辑与物理效果。
发布会现场演示中,工作人员仅凭手绘简易图形+文字指令,便生成了带有物理碰撞效果的完整特效视频,直观展现了模型的强大创作能力。
【TechWeb】5 月 20 日消息,今日凌晨,在谷歌 2026 I/O 开发者大会上,官方正式发布全新旗舰级多模态大模型 Gemini Omni。

据了解,Gemini Omni 主打 「任意输入、任意输出」 的核心能力,打破传统 AI 模态割裂局限,实现文本、图像、音频、视频等全模态信息的互通理解与自由生成。
据官方介绍,Gemini Omni 依托谷歌成熟的世界模型 Genie、图像模型 Nano Banana、视频生成模型 Veo 三大核心技术底座,构建起完整的全模态 AI 框架。
该模型支持多样化混合输入,用户可将手绘草图、文字描述、图片素材、音频视频等任意形式内容组合输入模型,系统可自主解析信息逻辑、模拟真实物理规则,最终生成高精度、符合现实逻辑的视频、图像、文本等多元化输出内容。
本次发布最大的实用化亮点在于对话式实时编辑能力。不同于传统 AI 生成工具一次性输出、修改繁琐的痛点,Gemini Omni 支持生成过程中的交互式迭代优化。用户完成初始内容生成后,可通过自然语言对话精准调整画面细节,例如替换视频场景、修改物体材质、调整动态特效,且修改过程不会破坏画面原有整体逻辑与物理效果。
发布会现场演示中,工作人员仅凭手绘简易图形+文字指令,便生成了带有物理碰撞效果的完整特效视频,直观展现了模型的强大创作能力。
【TechWeb】5 月 20 日消息,今日凌晨,在谷歌 2026 I/O 开发者大会上,官方正式发布全新旗舰级多模态大模型 Gemini Omni。

据了解,Gemini Omni 主打 「任意输入、任意输出」 的核心能力,打破传统 AI 模态割裂局限,实现文本、图像、音频、视频等全模态信息的互通理解与自由生成。
据官方介绍,Gemini Omni 依托谷歌成熟的世界模型 Genie、图像模型 Nano Banana、视频生成模型 Veo 三大核心技术底座,构建起完整的全模态 AI 框架。
该模型支持多样化混合输入,用户可将手绘草图、文字描述、图片素材、音频视频等任意形式内容组合输入模型,系统可自主解析信息逻辑、模拟真实物理规则,最终生成高精度、符合现实逻辑的视频、图像、文本等多元化输出内容。
本次发布最大的实用化亮点在于对话式实时编辑能力。不同于传统 AI 生成工具一次性输出、修改繁琐的痛点,Gemini Omni 支持生成过程中的交互式迭代优化。用户完成初始内容生成后,可通过自然语言对话精准调整画面细节,例如替换视频场景、修改物体材质、调整动态特效,且修改过程不会破坏画面原有整体逻辑与物理效果。
发布会现场演示中,工作人员仅凭手绘简易图形+文字指令,便生成了带有物理碰撞效果的完整特效视频,直观展现了模型的强大创作能力。









