V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  rizon  ›  全部回复第 7 页 / 共 53 页
回复总数  1043
1 ... 3  4  5  6  7  8  9  10  11  12 ... 53  
2024 年 2 月 6 日
回复了 rizon 创建的主题 程序员 大佬们,有什么好用的开源网页正文提取的库
我本以为正文提取的库挺多的,结果查了一下发现,这条路好像还没有趟的很好啊。目前看到一个最简单的方法就是基于标签的密度。
2024 年 2 月 5 日
回复了 tikazyq 创建的主题 程序员 Crawlab AI: 借助大语言模型 (LLM) 打造智能爬虫
@tikazyq #18 其实也有一个选择就是换更大上下文的模型,这个方法是最简单的,moonshot 的 32K 和 128K 的上下文也基本够用了。不过价格高了不少
2024 年 2 月 5 日
回复了 tikazyq 创建的主题 程序员 Crawlab AI: 借助大语言模型 (LLM) 打造智能爬虫
@tikazyq #18 哈哈,我也是这么想的,分段面临的就是如何保障语义不被拆分,以及每个段落丢失上下文导致准确率下降的问题。
因为对这个东西好奇,就琢磨了一下,也自己在写一些方法测试效果。
2024 年 2 月 5 日
回复了 tikazyq 创建的主题 程序员 Crawlab AI: 借助大语言模型 (LLM) 打造智能爬虫
有点好奇正文内容提取是怎么借助 AI 来做的,如果把一个页面的内容全部给 AI 来解析,token 数就太大了,消耗有些大。但是如果要缩短内容或者提取框架给 AI ,那又导致 AI 无法合理的判断正文区域。

这个事情真的很奇怪啊,难道真的只能全文提供给 AI ?感觉成本有些高啊。
2024 年 2 月 4 日
回复了 rizon 创建的主题 分享创造 公司 vpn 偷窥电脑?于是我把它扔虚拟机了
@Andim 我原本也是这么觉得,但是我测了一下这个 ip 写什么都无所谓,参数不起作用。试了好几种写法都没用。就不纠结它了
2024 年 2 月 4 日
回复了 rizon 创建的主题 分享创造 公司 vpn 偷窥电脑?于是我把它扔虚拟机了
@McreeWu 换成 glider 了,文章删除重写了: https://mp.weixin.qq.com/s/rDX86ej7B-_hKYq5ED2L3A
2024 年 2 月 4 日
回复了 rizon 创建的主题 程序员 求助,微信机器人用什么实现最靠谱
@TimeRain #7
@YaD2x #5 但市面上有很多 app ,都提供了微信号助手用来接收消息。那大家都是这样用各种方法绕开?
2024 年 2 月 4 日
回复了 rizon 创建的主题 程序员 求助,微信机器人用什么实现最靠谱
@sentinelK #1 我描述的可能有些误导,我不是想创建 机器人 bot ,机器人 bot 是企业内部用的。我是想让非企业用户添加这个微信号之后,给这个号发消息
2024 年 2 月 4 日
回复了 rizon 创建的主题 分享创造 公司 vpn 偷窥电脑?于是我把它扔虚拟机了
@cirzear #16 dante 有些不好用,换了评论区里推荐的 glider 。 这是新文章链接: https://mp.weixin.qq.com/s/rDX86ej7B-_hKYq5ED2L3A
2024 年 2 月 4 日
回复了 rizon 创建的主题 分享创造 公司 vpn 偷窥电脑?于是我把它扔虚拟机了
@Andim #4 感谢,glider 用起来确实蛮方便的。
不过我有一个疑问,我如果想把代理的请求转发到指定的 ip 怎么办呢,我试了 forward 的几个写法都没对
2024 年 2 月 3 日
回复了 Leeeeex 创建的主题 Arc arc 浏览器发布新的 AI 功能
还没用,看了下视频挺不错。
不过更羡慕的是这样一群团队,去有激情的做这些事。
我也想组个或加入一个这样的团队
2024 年 2 月 3 日
回复了 tikazyq 创建的主题 程序员 Crawlab AI: 借助大语言模型 (LLM) 打造智能爬虫
想咨询下 OP 啊,Crawlab AI 的在线服务支持反爬虫吗,是拥有大量 IP 来避免网站的反爬虫吗?
2024 年 2 月 3 日
回复了 tikazyq 创建的主题 程序员 Crawlab AI: 借助大语言模型 (LLM) 打造智能爬虫
爬虫我只想解决反爬虫问题,有没有纯粹卖这种服务的,就是让我调用 api 完成一次页面数据的抓取。或者有啥其他搞点动态 IP 去请求服务的办法吗。

你像知乎这种的,我请求个三四次就开始触发验证了。哎。
2024 年 2 月 3 日
回复了 syam 创建的主题 程序员 外面有什么技术热点统计的网站吗?
@eisuto #1
@wsqstar #2
好东西啊,收藏了。感谢
2024 年 2 月 3 日
回复了 alisonbass 创建的主题 分享创造 免费的 AI icon 生成器发布新风格啦🙌
请问 op 用的自己 gpu 服务器,还是按量买的云算力,还是直接用的 api ?

生成了几次,只有第一次成功了,后面都是服务器繁忙,失败了。

蛮好的工具,这个需求是有的。
@huchenz1in #31 哈哈,就是说嘛,我就知道还是有人有这需求的嘛。

现有书签导入的功能在规划中,因为这个功能需要服务器处理所有的书签数据,和前台直接导入区别还是很大的,而且又涉及了 服务器压力(毕竟是我个人买的服务器成本有限)、触发网站反爬虫防护等问题。
但是肯定是规划中的一部分,如果关注这个功能什么时候释放,你也可以进一下群(插件的选项设置页面有群的二维码)。到时候我在群里说一声。
@zzkxxx chrome 的也可以直接安装到 edge ,用 edge 进入 chrome 商店直接装就好。edge 扩展商店的版本正在审核,还需要些时间。
@chanChristin 沉浸式翻译其翻译功能依赖快捷键和网页上的右键菜单,因此点击图标就变成了弹出一个窗口。
但是我把最高频的收藏操作设置到了插件图标点击上,因此进入设置页面只能放到插件图标的右键菜单上。

引导上确实太少了,我看看怎么加一下比较好
@chanChristin 感谢建议。我再优化一下。

插件图标点击鼠标右键,可以看到两个选项,一个是进入插件选项页面(也就是配置页),另一个是打开收藏夹。
第三条标题都没了这个可能是有些小问题。本身你点了收藏后其实后台需要一点时间进行 chatgpr 的处理,这个期间页面应该只显示原内容的,你看到空标题这个事,应该是个 bug ,我处理下。
@chanChristin 哦,我想搞复杂点,还会检测网站是否还存活之类的。
你说的这个是可以搞下的。感谢建议。
1 ... 3  4  5  6  7  8  9  10  11  12 ... 53  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   958 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 20:40 · PVG 04:40 · LAX 12:40 · JFK 15:40
♥ Do have faith in what you're doing.