V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fingers
V2EX  ›  问与答

AI 分析视频的底层逻辑是什么,成本有多高?

  •  
  •   fingers · 4 天前 · 957 次点击
    求大佬简单科普一下,另外如果想对大量短视频内容进行提取或总结,现阶段,有什么可行方案吗?能接受三方服务或自行落地,最好是低成本又稳定。
    4 条回复    2025-12-04 11:27:18 +08:00
    BlueSkyXN
        1
    BlueSkyXN  
       4 天前
    https://ai.google.dev/gemini-api/docs/video-understanding?hl=zh-cn#technical-details-video

    ```有关视频技术方面的详细信息
    支持的模型和上下文:所有 Gemini 2.0 和 2.5 模型都可以处理视频数据。
    上下文窗口为 200 万个 token 的模型可以处理时长不超过 2 小时(默认媒体分辨率)或 6 小时(低媒体分辨率)的视频,而上下文窗口为 100 万个 token 的模型则可以处理时长不超过 1 小时(默认媒体分辨率)或 3 小时(低媒体分辨率)的视频。
    File API 处理:使用 File API 时,视频的存储速率为 1 帧/秒 (FPS),音频的处理速率则为 1Kbps (单声道)。每秒都会添加时间戳。
    为了改进推理,这些速率将来可能会发生变化。
    您可以设置自定义帧速率,以替换 1 FPS 的采样率。
    token 计算:视频的每一秒都按如下方式计算 token:
    各帧(选段率为 1 FPS ):
    如果 mediaResolution 设置为低,则每帧按 66 个 token 计算。
    否则,每帧按 258 个 token 计算。
    音频:每秒 32 个 token 。
    元数据也包含在内。
    总计:默认媒体分辨率下,每秒视频大约需要 300 个 token ;低媒体分辨率下,每秒视频大约需要 100 个 token 。
    媒体分辨率:Gemini 3 通过 media_resolution 参数引入了对多模态视觉处理的精细控制。media_resolution 参数用于确定为每个输入图片或视频帧分配的词元数量上限。分辨率越高,模型读取精细文本或识别细微细节的能力就越强,但会增加令牌使用量和延迟时间。

    如需详细了解该参数及其对令牌计算的影响,请参阅媒体分辨率指南。

    时间戳格式:在提示中引用视频中的特定时刻时,请使用 MM:SS 格式(例如,01:15 表示 1 分 15 秒)。

    最佳实践:

    为获得最佳效果,每个提示请求仅使用一个视频。
    如果将文本与单个视频相结合,请在 contents 数组中将文本提示放在视频部分之后。
    请注意,如果选段率为 1 FPS ,快速动作序列可能会丢失细节。如有必要,可以考虑放慢此类片段的播放速度。
    ```
    因此很明显,抽帧 1 图/s+音频转文本 ASR

    ```
    想对大量短视频内容进行提取或总结,现阶段,有什么可行方案吗?
    ```

    一个支持多模态的 AI 接口+ASR 引擎即可
    slowgen
        2
    slowgen  
       4 天前
    RatioPattern
        3
    RatioPattern  
       4 天前
    似乎都是直接提取音频然后 TTS 转文字然后再接模型的?不需要多模态
    WithoutSugarMiao
        4
    WithoutSugarMiao  
       3 天前
    底层逻辑就是快速提取视频的切片,生成图片,然后对图片进行分析。需要大量操作,自己写代码会好点吧。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1218 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 17:03 · PVG 01:03 · LAX 09:03 · JFK 12:03
    ♥ Do have faith in what you're doing.