模型多模态
Google 推出 Gemini 3 Pro:原生多模态与视频理解进入“小时级”
# 多模态# Agent# 工作流
Google DeepMind 发布 Gemini 3 Pro,把图像、音频、视频与文本统一到同一套多模态 tokenizer 中,首次在公开评测中实现对 2 小时长视频的细粒度事件级检索与推理。配合 Veo 系列视频模型与新版 Imagen,创作者流水线从“提示词 → 镜头”升级为“提示词 → 多镜头脚本 → 自动剪辑”。企业用户更关心的是 Gemini 3 Pro 在 Workspace 内的 Agent 化能力,可直接读取文档、表格、邮件并执行多步操作,审计与权限模型同步上线。
作者
Multimodal Weekly
分类
模型 · 多模态
发布时间
6月14日 05:45
收录时间
6月14日 02:59
原文链接
Post ID
84c948a9-3c98-4fe5-a96f-5e7240ebe5b9