V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  gouchaoer  ›  全部回复第 8 页 / 共 61 页
回复总数  1205
1 ... 4  5  6  7  8  9  10  11  12  13 ... 61  
2018-06-21 13:26:28 +08:00
回复了 cygmris 创建的主题 求职 寻找远程工作,懂的比较杂,希望老板们有看中需要的地方..
@ywgx 破解为啥不是值得炫耀的事情?你说违法犯罪就犯罪你是谁啊? 0day 贡献了那么多破解的软硬件资源,你敢说你没用过?你用盗版严格的说是不是也是违法犯罪了?
2018-06-20 16:31:58 +08:00
回复了 lauix 创建的主题 程序员 GO 如何实现 页面非阻塞?
你用 go 写的都是非阻塞的
2018-06-11 17:34:36 +08:00
回复了 mmnnyycc 创建的主题 程序员 求助 php7 如何安装 php70w-xml,搞了一下午了
用 remi 源,别用 epel 默认源
tidb 已经可以在数据库基础上跑 OLAP 业务了( tispark ),只是做 OLAP 业务的话就是 GPU 运算了么
@wyan453351466
https://windows.php.net/download/

你看这个二进制,里面的 ts 版本才是多线程版本,curl_multi_*可以运行在非 ts 版本里,你说他是不是多线程,他只是回调了而已

我无意和你讨论这些概念,因为这是非常明白的事情了
@wyan453351466 不是的,多线程需要用到 php 的 thread safe 版本,curl_multi_*是基于类似 select 的 api 包装的
@wyan453351466 guzzle 不是框架是一个 HttpClient,任何 HttpClient 都没有失败重试功能,你要失败重试自己去实现。另外 guzzle 没有多线程,返回结果回调函数里面有一个 index,这个 index 可以判断是哪个请求。。。你没必要用那个 yield 来动态生成 request,直接数组就 ok 了
@hubahuba 你如果熟悉 php 就用 php 就 ok 了,爬虫框架其实很多情况下派不上用场,直接用 guzzle、css-selector 和 php-webdriver 之类的手写就 ok 了。。。。另外别用啥异步回调啥的,太难了,就老老实实同步单进程阻塞写法,数据存 mysql,需要并发就开多进程。。。我正在构思一本 php 爬虫的书籍,我想纠正很多爬虫不太好的问题
这个本来就是单进程 /单线程的,guzzle 的 pool 其实是包装的 curl_multi_*的 api 实现的并发,所以在回调函数里没有数据竞争,甚至可以都不用 redis

至于这个爬虫框架,我个人觉得这只适合那种遍历的类型,实际业务中的爬虫需求各种各样模式化的爬虫框架根本无法满足,而且把问题复杂化了。。。

我个人情感上的比较好的爬虫模式为:1、简单的单进程阻塞模型,不用回调不用 pool 不用 yield 啥太难的 2、爬虫并发直接开多进程就完了,简简单单 3、爬虫调度通过 redis 完成,数据老实存 mysql/pg 4、不用封装好的框架,太难拓展 5、有采样机制、log 机制,并且针对爬虫是遍历任务还是更新任务还是搜索任务定制化
2018-05-28 12:24:07 +08:00
回复了 gouchaoer 创建的主题 PHP 写本 PHP 爬虫的书有人感兴趣么?
前天去北京参加梁博组织的第二届爬虫大会,和梁博+崔庆才他们聊了一下,发现的确没人用 php 搞爬虫,我目前打算先构思一下能有啥写的
2018-05-22 14:44:58 +08:00
回复了 Tarkky 创建的主题 职场话题 陆奇为啥离职
测试回复
2018-05-12 10:59:21 +08:00
回复了 fanjiapeng 创建的主题 PHP 新一代轻量级 PHP 扩展框架 Asf
asf 和 yaf 有啥改进呢?
另外运行在 fpm 模式下始终有一个问题困扰的 phper 就是阻塞 io 问题,如果业务中只是单纯连接数据库 /缓存之类的还好,如果是 rpc 调用一些 io 时间比较长的服务就会导致 qps 很差,不知道你对此有何看法
2018-05-10 17:52:12 +08:00
回复了 ml1344677 创建的主题 全球工单系统 腾讯云服务器 mongoDB 被拖库
并没有下载,因为下载太费流量+费空间了,数据已经删掉了
2018-05-08 21:33:13 +08:00
回复了 gkiwi 创建的主题 酷工作 [百度][ PHP ]招各种大佬潜力股!
招 php 为啥不用 php,我觉得你信仰不足(逃)
```
php -r"echo base64_decode('YnVna2l3aUBnbWFpbC5jb20=');"
```
2018-05-08 11:31:11 +08:00
回复了 johnsneakers 创建的主题 Redis 惊了 redis 还能这样玩??
我觉得 LZ 说的没错啊,redis 本质上是一个缓存,数据落地到数据库是理所当然的啊
最重要的是如果用户信息存到 redis 里面了,那么你只能根据用户 id 去存取而无法做查询操作,比如你要查询哪些用户今天登录过,redis 没法查询哦

另外推荐 mongo 的,这个场景有意义么?
2018-05-04 14:36:43 +08:00
回复了 zorlan 创建的主题 程序员 开源的 PHP 爬虫系统,可视化的采集器,蓝天采集器
源码里面把换行符去掉略蛋疼,一方面这个没用,另一方面造成一个暗示就是你不希望有人贡献代码
2018-05-04 13:13:15 +08:00
回复了 SunFarrell 创建的主题 问与答 大家觉的图像处理方面有前途么?
没前途
2018-05-04 12:55:19 +08:00
回复了 zorlan 创建的主题 程序员 开源的 PHP 爬虫系统,可视化的采集器,蓝天采集器
说 v8js 的,js 代码一般和 dom 高度绑定的,v8js 里面又没有 dom,所以并没有用
1 ... 4  5  6  7  8  9  10  11  12  13 ... 61  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2229 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 48ms · UTC 16:12 · PVG 00:12 · LAX 08:12 · JFK 11:12
Developed with CodeLauncher
♥ Do have faith in what you're doing.