模型多模态

Google 推出 Gemini 3 Pro：原生多模态与视频理解进入“小时级”

# 多模态# Agent# 工作流

Google DeepMind 发布 Gemini 3 Pro,把图像、音频、视频与文本统一到同一套多模态 tokenizer 中,首次在公开评测中实现对 2 小时长视频的细粒度事件级检索与推理。配合 Veo 系列视频模型与新版 Imagen,创作者流水线从“提示词 → 镜头”升级为“提示词 → 多镜头脚本 → 自动剪辑”。企业用户更关心的是 Gemini 3 Pro 在 Workspace 内的 Agent 化能力,可直接读取文档、表格、邮件并执行多步操作,审计与权限模型同步上线。

作者

Multimodal Weekly

分类

模型 · 多模态

发布时间

6月14日 05:45

收录时间

6月14日 02:59

原文链接

deepmind.google

Post ID

84c948a9-3c98-4fe5-a96f-5e7240ebe5b9