V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
connecting
V2EX  ›  程序员

有没有办法通过 LLM 操作网页呢?

  •  2
     
  •   connecting · 2025 年 8 月 4 日 · 3104 次点击
    这是一个创建于 168 天前的主题,其中的信息可能已经有所发展或是发生改变。

    自己的玩具项目,增加了查看网页、搜索功能。

    但是现在遇到一个问题,如果我想更进一步,对网页的元素进行控制,比如自动操作 dom ,实现自动化操作,这个怎么做到呢,感觉仅仅通过 LLM 做不到

    chat 本地联网搜索

    21 条回复    2025-08-04 18:03:08 +08:00
    mkroen
        1
    mkroen  
       2025 年 8 月 4 日
    connecting
        2
    connecting  
    OP
       2025 年 8 月 4 日
    @mkroen 原理好像有点复杂 嗨,想自己搓一个轮子练习一下,有没有比较简单的方式呢
    connecting
        3
    connecting  
    OP
       2025 年 8 月 4 日
    @mkroen 因为我这边实现的目标也是不同的,我是通过修改 chromium c++实现的,目标是会调用浏览器可以进行人工干预等功能。
    skallz
        4
    skallz  
       2025 年 8 月 4 日
    我记得之前就有 ai rpa 了,做的事情就和你说的一样,但是个人感觉不是特别靠谱,ai 有幻觉,网站语义化做的也不一定很好,两个不稳定因素相加就更不稳定了
    connecting
        5
    connecting  
    OP
       2025 年 8 月 4 日 via Android
    @skallz 通过 llm 语义,我也感觉有点牵强。好奇,browser-use 它靠什么保证正确呢。。
    moefishtang
        6
    moefishtang  
       2025 年 8 月 4 日
    ChatGPT 最近出的 agent 功能好像就是干这个的
    maocat
        7
    maocat  
       2025 年 8 月 4 日 via Android
    playwright/mcp
    blubzz
        8
    blubzz  
       2025 年 8 月 4 日
    还是依赖大模型本身的能力
    可以看这个 https://github.com/hangwin/mcp-chrome/blob/master/README_zh.md
    connecting
        10
    connecting  
    OP
       2025 年 8 月 4 日 via Android
    感谢各位大佬推荐,回头好好研究下。

    突然有个想法,是不是一定得通过视觉才能保证通用性呢。文字和语义毕竟和最终的 ui 有很大的不同。
    zheermao
        11
    zheermao  
       2025 年 8 月 4 日
    自己做推荐微软的 OmniParser, 思路是直接检测视觉元素, 转成文本描述给 LLM, 感觉是更通用的方案, 但是也很吃 LLM 本身的能力
    feiniu
        12
    feiniu  
       2025 年 8 月 4 日
    browser-use 不能保证操作的准确性;特别是当页面比较复杂的时候,准确率很低
    hidemyself
        13
    hidemyself  
       2025 年 8 月 4 日
    Midscene
    connecting
        14
    connecting  
    OP
       2025 年 8 月 4 日
    @feiniu 懂了,没有银弹
    connecting
        15
    connecting  
    OP
       2025 年 8 月 4 日
    @maocat Playwright MCP 介绍里面有句话:

    “Fast and lightweight. Uses Playwright's accessibility tree, not pixel-based input.”

    这个应该是个好的思路。利用 accessibility 的功能来降低难度。
    pota
        16
    pota  
       2025 年 8 月 4 日
    https://github.com/hangwin/mcp-chrome 这个插件的功能可以,但是具体的还是得看 llm 本身了
    hafuhafu
        17
    hafuhafu  
       2025 年 8 月 4 日
    MCP Puppeteer 或者 Playwright 。
    我用 Cheery Studio 玩过,大概就是可以自动填表单或者开网页之类的自动化操作,不过那会儿 Cheery Studio 刚上相关功能,有点 bug 就没继续玩了。
    konakona
        18
    konakona  
       2025 年 8 月 4 日
    可以尝试用 LLM 写 cypress.io (或其他 simulator driver ,具体一点就是 playwright )感觉可行一些。
    kamilic
        19
    kamilic  
       2025 年 8 月 4 日
    最近在调研一个叫 nanobrowser 的玩意儿,应该是你要的吧
    Sylphiette
        20
    Sylphiette  
       2025 年 8 月 4 日   ❤️ 1
    https://browsermcp.io/

    Agent 要操作网页基本上都是靠 chrome 扩展通过开发者工具获取 ARIA 树(无障碍),再辅以网页截图,可以参考下
    connecting
        21
    connecting  
    OP
       2025 年 8 月 4 日
    @Heimo 感谢提供信息,我今晚就试试你说的这个 aria 树,看能不能搞个低配版的出来看看效果
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3012 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 14:18 · PVG 22:18 · LAX 06:18 · JFK 09:18
    ♥ Do have faith in what you're doing.