V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ClericPy  ›  全部回复第 71 页 / 共 133 页
回复总数  2649
1 ... 67  68  69  70  71  72  73  74  75  76 ... 133  
2020-05-11 22:46:03 +08:00
回复了 guyskk0x0 创建的主题 Python 又被 Python 尾逗号创建 tuple 坑了一次
@RedisMasterNode #6 还真想不起来了... 似乎是有些 debug 环境以及有些库里面用的是 from .tasks import * 导致全屏飘红, 我用的 VSCODE 开了 Error Lens, 那红的吓人

@guyskk0x0 #7 暂时用的 flake8, 内置库里面 asyncio.__init__.py 里上来就是一句 # flake8: noqa, 我给它去掉可以参考下有多红...

https://i.loli.net/2020/05/11/juAQVL9HGXMY35q.png

![R@_8_C1_1@LS4V_U8_Q5192.png]( https://i.loli.net/2020/05/11/juAQVL9HGXMY35q.png)
2020-05-11 22:27:34 +08:00
回复了 guyskk0x0 创建的主题 Python 又被 Python 尾逗号创建 tuple 坑了一次
@guyskk0x0 #2

完全合格太难了... 最后在 mypy 里排除了一大些...

"python.linting.mypyArgs": [
"--ignore-missing-imports",
"--follow-imports=silent",
"--show-column-numbers",
"--no-strict-optional",
],

捂脸, 强迫症看不得满江红, 所以自戳双眼就看不见了
2020-05-11 22:15:32 +08:00
回复了 guyskk0x0 创建的主题 Python 又被 Python 尾逗号创建 tuple 坑了一次
五年前犯过, 后来就再也没犯过... 再后来 typing hints 一大片通红...
2020-05-11 19:52:05 +08:00
回复了 crella 创建的主题 Python 为什么爬虫大佬多用 re 而少用 soup、xml 来提取元素?
1. 正则熟练以后更灵活, 零宽断言什么的, 如果是 css 选择器之类的, 就没法用 Xpath 里那种 contain text 的语法

2. 没有三方依赖

3. 性能领先太多了

PS: lxml 会自动修复不完整的标签, 这点实际比正则还准确点
2020-05-11 17:08:49 +08:00
回复了 imn1 创建的主题 Python 懒,求个异步爬虫,必要需求是方便处理异常
@imn1 #11 这些自然是带的, torequests 要做的就是兼容 Requests 的参数...

req = tPool()
task = req.get('http://httpbin.org', headers={"Cookie": "agree=0;"})
resp = task.x

这些都是 Requests 库原生的参数

记录下载失败, 拿到结果以后如果是错误, FailureException 对象的 bool 都是 false 的, 而且也有 self.ok 来兼容 Requests 的响应, 所以只要判断 self.ok 就能知道请求是否成功了. Requests 的 Response.ok 判断的好像是状态码在 range(200, 300) 之间

记录下载失败, 写个 Callback 函数做变量塞上应该就够了, lambda r: r.ok or open('file.txt', 'a').write('xxx')
2020-05-11 16:36:46 +08:00
回复了 imn1 创建的主题 Python 懒,求个异步爬虫,必要需求是方便处理异常
@imn1 #9

1. FailureException 其实就是在 catch exception 的时候不抛错, 让它 Return 回来方便自省和排查, FailureException.error 实际就是原始抛出的错误

另一方面 FailureException 主要作用就是存放了 request 的 kwargs, 方便回调的时候用上

超时根据不同的依赖不一定是什么 error, 需要根据依赖来判断, aiohttp 或者 requests 里面都有很多细分, 超时也是区分了读超时和连接超时的, 所以得自己去他们源码里看看, 比如 requests.exceptions 里的 Timeout ConnectTimeout ReadTimeout, aiohttp 里面更复杂

因此, 这里面的重试的涵盖范围默认是 aiohttp 和 requests 里面的请求错误的基类, 避免 handle 一些非请求类错误 (早年间因为 handle 了 KeyboardInterrupt 导致我一个十万请求的脚本差点停不下来...

2. 没看懂自定义 Headers 是什么需求, 有个例子么. 可重用 Session 是默认的, tPool Requests 类都是只用一个 Client Session

3. 代码一开始是刚上班时候自己边学边折腾的, 实际没什么有价值的地方, 不如自己现写一个 wrapper...
2020-05-11 15:51:45 +08:00
回复了 imn1 创建的主题 Python 懒,求个异步爬虫,必要需求是方便处理异常
以前还真写过类似的... https://github.com/ClericPy/torequests

支持协程, 线程, 同步, 异步, 反正就是当年想在同步环境里享受到协程的高性能用的

和原生 aiohttp 比, 损失 10% 性能, 带上 uvloop 损失 15% ~ 20%... 损失这么多现在我都有点不想用它了...

https://paste.ubuntu.com/p/fFWsNmvVX2/ 简单的小例子
平时遇到问题都直接看 MDN 的, 非要找教程的话,

现代 JavaScript 教程 - https://zh.javascript.info/

是我之前看的, 感觉有点其他语言基础, 理解起来应该不费劲, 至于更深入... 得看想多深了
2020-05-09 01:42:58 +08:00
回复了 cabing 创建的主题 问与答 geekhub 是抢 V2EX 用户的吗?
俩站长好像是认识的
2020-05-08 21:39:39 +08:00
回复了 skywatcher 创建的主题 Python 如何在 fastapi 的多个 app 之间共享全局变量?
多个进程, multiprocessing.shared_memory 或者 SharedMemory 貌似有些小坑, 没敢用, 我是正好内网有 Redis, 直接 Redis 里做的读写参数...

至于 Unix domain socket 这个东西... 用过的见仁见智

如果变量不会修改, 直接丢启动时候的环境变量或者系统变量比较省心

如果要修改, 参考上面的...

如果经常要通信, 进程通信那一堆, 异步 mq 同步 rpc...
好, 我现在就去买
2020-05-08 10:44:10 +08:00
回复了 leonidas 创建的主题 职场话题 加班使人愉悦😥
@yeqizhang #23 我可以直接给你剧透到 30 多岁的症状, 但也没什么必要... 反正目前缓解的路子不外乎管住嘴, 多动腿, 少熬夜. 反正我没时间打球以后, 平时每天的 200 个仰卧起坐也被我减到每年 20 个了, 积压起来一次爆发差点吓死
2020-05-08 10:27:16 +08:00
回复了 aatao 创建的主题 程序员 最近使用 V 友的 Dogedoge 搜索老是异常跳转
最近半夜 dogedoge 老是碰上崩, 白天加载也比以前慢了点, 有卡顿, 其他没遇到

PS: 那个图片搜索的 Coming Soon 都挂了俩月了吧, 要不是我自己给它油猴去掉, 要白点击好多次了
2020-05-08 10:21:20 +08:00
回复了 xe2vfans 创建的主题 生活 大家现在的社交情况是怎样的?感觉有点焦虑
怎么感觉你在说我...
还两周就... 只要看到北京的天特别蓝, 就说明净网运动又开始了
2020-05-08 10:18:34 +08:00
回复了 feyfey 创建的主题 职场话题 谈谈最近看机会遇到的人和面试经历
我投完才看到有内推的, 希望不会遇到刷 KPI 的吧, 就算直接说面试没过都比遇到刷 KPI 的幸运
2020-05-08 10:15:54 +08:00
回复了 leonidas 创建的主题 职场话题 加班使人愉悦😥
@leonidas #4 25 岁以下拼一拼多挣点没什么, 25 以后如果体育锻炼和休息跟不上的话, 按理说会出现心悸, 肋间神经痛, 颈椎病等症状, 30 以上的话已经多起心梗了... 悠着点吧
2020-05-08 10:11:27 +08:00
回复了 Coioidea 创建的主题 宽带症候群 为什么现在 http 环境这么差
@ciswind #6 差不多, 主要是用户请求日志里的 url 提取出来然后采集里面的文字提取标签, 做精准广告推送
2020-05-08 02:44:35 +08:00
回复了 leonidas 创建的主题 职场话题 加班使人愉悦😥
佩服... 不调休的连续加班, 这是要一个人拿三薪干五个人的活
1 ... 67  68  69  70  71  72  73  74  75  76 ... 133  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   960 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 51ms · UTC 21:36 · PVG 05:36 · LAX 13:36 · JFK 16:36
Developed with CodeLauncher
♥ Do have faith in what you're doing.