https://ai.google.dev/gemini-api/docs/video-understanding?hl=zh-cn#technical-details-video```有关视频技术方面的详细信息
支持的模型和上下文:所有 Gemini 2.0 和 2.5 模型都可以处理视频数据。
上下文窗口为 200 万个 token 的模型可以处理时长不超过 2 小时(默认媒体分辨率)或 6 小时(低媒体分辨率)的视频,而上下文窗口为 100 万个 token 的模型则可以处理时长不超过 1 小时(默认媒体分辨率)或 3 小时(低媒体分辨率)的视频。
File API 处理:使用 File API 时,视频的存储速率为 1 帧/秒 (FPS),音频的处理速率则为 1Kbps (单声道)。每秒都会添加时间戳。
为了改进推理,这些速率将来可能会发生变化。
您可以设置自定义帧速率,以替换 1 FPS 的采样率。
token 计算:视频的每一秒都按如下方式计算 token:
各帧(选段率为 1 FPS ):
如果 mediaResolution 设置为低,则每帧按 66 个 token 计算。
否则,每帧按 258 个 token 计算。
音频:每秒 32 个 token 。
元数据也包含在内。
总计:默认媒体分辨率下,每秒视频大约需要 300 个 token ;低媒体分辨率下,每秒视频大约需要 100 个 token 。
媒体分辨率:Gemini 3 通过 media_resolution 参数引入了对多模态视觉处理的精细控制。media_resolution 参数用于确定为每个输入图片或视频帧分配的词元数量上限。分辨率越高,模型读取精细文本或识别细微细节的能力就越强,但会增加令牌使用量和延迟时间。
如需详细了解该参数及其对令牌计算的影响,请参阅媒体分辨率指南。
时间戳格式:在提示中引用视频中的特定时刻时,请使用 MM:SS 格式(例如,01:15 表示 1 分 15 秒)。
最佳实践:
为获得最佳效果,每个提示请求仅使用一个视频。
如果将文本与单个视频相结合,请在 contents 数组中将文本提示放在视频部分之后。
请注意,如果选段率为 1 FPS ,快速动作序列可能会丢失细节。如有必要,可以考虑放慢此类片段的播放速度。
```
因此很明显,抽帧 1 图/s+音频转文本 ASR
```
想对大量短视频内容进行提取或总结,现阶段,有什么可行方案吗?
```
一个支持多模态的 AI 接口+ASR 引擎即可