V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xyy003
V2EX  ›  分享创造

开源一个使用 gemini-pro 解析抖音视频内容并转文字的一个小东西

  •  1
     
  •   xyy003 · 315 天前 · 2641 次点击
    这是一个创建于 315 天前的主题,其中的信息可能已经有所发展或是发生改变。

    开源地址:https://github.com/disingn/cliptalk 支持:

    • 抖音去水印
    • 抖音视频转文本(使用 gemini-pro-vision )
    • geminikey 随机调用(多个)

    由于没啥时间,就没写 web 界面,后续有时间会完成 web 界面,以及兼容 gpt4v 和更多的视频平台

    ps:本人菜鸡,水平有限,大佬勿喷!

    第 1 条附言  ·  315 天前
    兼容 GPT4v 了,可以自己试试
    消耗有点快,不过效果要比 gemini 好一点。
    21 条回复    2024-03-19 16:14:02 +08:00
    taxue67marx
        1
    taxue67marx  
       315 天前
    不错啊,写个小程序调用你写的接口,有空试试
    simo
        2
    simo  
       315 天前
    赞一个
    不过,抖音接口那个,bogus 一直固定就行?
    tool2d
        3
    tool2d  
       315 天前
    看了源代码,表示脑洞很大。新知识又增加了。
    xyy003
        4
    xyy003  
    OP
       315 天前
    @taxue67marx 好 写的比较水
    xyy003
        5
    xyy003  
    OP
       315 天前
    @tool2d 之前有个外国的博主使用 4v 来分析视频 跟风尝试了一下
    xyy003
        6
    xyy003  
    OP
       315 天前
    @simo 不知道后面变不变 抖音去水印那部分是我 copy 别人的
    unco020511
        7
    unco020511  
       315 天前
    star 了.视频转文本是啥意思,是指总结视频内容吗,还是指视频中语音识别自动添加字幕
    xinyana
        8
    xinyana  
       315 天前 via Android
    @unco020511 看了源码,根据视频截图分析内容,非常好的思路!
    xyy003
        9
    xyy003  
    OP
       315 天前
    @unco020511 截取视频帧然后使用 gemini-pro-vision 进行识别分析内容,最后使用 gemini-pro 整理整个视频的内容
    mjchow
        10
    mjchow  
       315 天前
    这个是截取了视频部分 jpeg 图片来进行分析,如果图片少的话是不是分析会不大准确? 不过确实是挺好的思路,厉害!
    xyy003
        11
    xyy003  
    OP
       315 天前
    @mjchow 大致的效果还可以,可以把切片再细致一点 现在我是 5s 截取一次
    kylebing
        12
    kylebing  
       315 天前
    你头像是个什么玩意,看着挺有意思的。
    xyy003
        13
    xyy003  
    OP
       315 天前
    @kylebing v2 的吗 ai 生成的一个机器人骷髅头
    kylebing
        14
    kylebing  
       315 天前
    @xyy003 啊,我以为是一个数码产品的外观图。
    xyy003
        15
    xyy003  
    OP
       315 天前
    @kylebing 哈哈哈哈
    dada88xyxy
        16
    dada88xyxy  
       314 天前
    我一直想搞一个,用 ai 来读短视频,然后做一个网页,把短视频里面的文字抽出来,放在网页上面,页面的底部就可以跳转到原视频。痛点是解决搜索问题,很多时候其实视频里面有谈到我想要的关键词,但是无奈视频搜不精确,如果把视频的文字都抽出来,应该可以
    xyy003
        17
    xyy003  
    OP
       314 天前
    @dada88xyxy 把音频提取出来,然后转录。后面我写个对应的接口好了
    Hozoy
        18
    Hozoy  
       314 天前
    如果抽帧识别的话,感觉会不太准确,同类的通义听悟是先把视频转文字,再从文字提取信息总结。。我感觉两个结合起来效果会更好
    xyy003
        19
    xyy003  
    OP
       313 天前
    @Hozoy 可以 这个会加上
    xyy003
        20
    xyy003  
    OP
       313 天前
    @Hozoy 一开始是针对那种只有画面的视频 哈哈哈哈哈
    fruitmonster
        21
    fruitmonster  
       247 天前
    现在失效了是么?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2272 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 16:12 · PVG 00:12 · LAX 08:12 · JFK 11:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.