V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  leavic  ›  全部回复第 176 页 / 共 248 页
回复总数  4957
1 ... 172  173  174  175  176  177  178  179  180  181 ... 248  
2016-04-01 13:21:00 +08:00
回复了 Sequencer 创建的主题 Python 发个来自 baidu 的爬虫 不是程序员 写的不好请轻喷
10 年前,我们管这种一次打开 5000 个网页的东西叫做恶意脚本,确实很适合在愚人节用。
2016-04-01 12:20:59 +08:00
回复了 gkiwi 创建的主题 程序员 爬虫挑战。。求支援
好吧,原来是几个基金信息那里有猫腻,研究一下。
2016-04-01 12:18:02 +08:00
回复了 gkiwi 创建的主题 程序员 爬虫挑战。。求支援
我试了一下 scrapy shell ,直接 view content 完全和网站一样啊。
20L 说的禁用 js ,我觉得这都是写爬虫的基本第一步了吧,肯定不能让爬虫取解析 js 。

说白了,我真不知道楼主碰到了什么问题。
2016-04-01 12:02:50 +08:00
回复了 honeyshine75 创建的主题 分享发现 你们怎么看今天的 Google 愚人招式?
随便输入一个字符,就开始实时搜索了,这算是我没注意到新功能还是愚人节作品?
2016-04-01 09:28:53 +08:00
回复了 hugsky 创建的主题 分享发现 值乎, 来自知乎
Oops! Something went wrong:(

只玩了几个小时
可是我已经转投 mac
2016-03-30 10:53:39 +08:00
回复了 ryan123 创建的主题 宽带症候群 上海办什么宽带好?
联通吧。
其实长宽我在用,没那么不堪, 10M 的带宽跑国外的话,部分服务器能到 300K/s ,如果挂个好的代理其实也可以。
毕竟电信的出口带宽现在也实在不怎么样,而且电信一条的价格够你拉一条联通+一条长宽了,我这里联通 600 一年,长宽 500 一年,当时没注意小区有联通 600 一年的,后悔死了。
2016-03-28 13:14:34 +08:00
回复了 reaCodes 创建的主题 Python lxml 无法安装在 Python 3.5.1 上么
biqins-MBP:~ lifetyper$ sudo -H pip3 install lxml
Collecting lxml
Downloading lxml-3.6.0.tar.gz (3.7MB)
100% |████████████████████████████████| 3.7MB 208kB/s
Building wheels for collected packages: lxml
Running setup.py bdist_wheel for lxml ... done
Stored in directory: /var/root/Library/Caches/pip/wheels/7b/4f/28/81343ed95f4eb7c4ca2e944926f34636cbb087d0d3426f757f
Successfully built lxml
Installing collected packages: lxml
Successfully installed lxml-3.6.0
biqins-MBP:~ lifetyper$ python3
Python 3.5.1 (default, Jan 22 2016, 08:54:32)
[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import lxml
>>>
==============
没发现任何问题
2016-03-26 21:05:29 +08:00
回复了 Chigogo 创建的主题 问与答 Apple Store 的员工拿的很多吗?
打客服电话也是一样的感觉,非常客气,甚至在客服妹子连线他们自己的工程师的时候,他们二者之间的交互也非常亲切,给人感觉就很积极。
2016-03-26 18:44:58 +08:00
回复了 xiaoyu9527 创建的主题 问与答 在学习 scrapy 遇到的一些问题。
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from yourspider.spiders.index import YourSpider

settings=get_project_settings()
process = CrawlerProcess(settings)

process.crawl('spider_name')
process.start()
2016-03-26 01:18:53 +08:00
回复了 Shazoo 创建的主题 Python 如何优雅的用 scrapy 去抓取连续页面?
反正楼主看不到我就多说两句,不是大家有多讨厌优雅这两个字,而是写代码这东西到底什么算优雅什么算不优雅本身就是个没有标准的东西。不涉及到代码哲学而只是实现方法的话,更是很难摊上优雅不优雅。
楼主提出的这种简单至极的问题,就像 1+1=2 一样还去考虑什么优雅,那么首先你得先告诉我什么叫不优雅。
====================
简单点说,如果楼主是甲方,给你提出这个问题要求你优雅的解决,你 tm 不得跳起来问问他什么叫不优雅? start urls 怎么就不优雅了?
2016-03-26 01:11:40 +08:00
回复了 Shazoo 创建的主题 Python 如何优雅的用 scrapy 去抓取连续页面?
@billgreen1 我怀疑你都没用过 scrapy , scrapy 直接检查 response.status == 404 就可以判断页面是否存在了,就算不检查, 404 错误根本不会爆 exception , scrapy 自己就会跳过去了。

不要问我怎么知道的,我今天刚从一个网站爬了 9 万张图片,地址就是我用 range 猜测出来的,在办公室耗时 1.5 个小时爬完。

至于什么检查一下 baseurl 就可以知道有多少 page number ,如果人家网站有这种 API 给你当然最好,问题是我还没见过哪个网站对爬虫这么友好的,纯粹给服务器找虐啊。

至于你这段代码,你怎么知道 ID=n 不存在滞后, ID=n+1 就不存在了呢,这么早 break 真的好?而且这个 ID 范围与连续性的问题楼主在问题里并没有提出,完全是你担心的结果,楼主自己都说了它用 curl 都可以抓下来了。


=============

至于那些整天高调的喊着 block 掉谁谁谁的人,嗯,欢迎鸵鸟星难民。
2016-03-25 16:39:19 +08:00
回复了 Shazoo 创建的主题 Python 如何优雅的用 scrapy 去抓取连续页面?
楼主你先给我解释一下什么叫优雅?直接放一个 url_list 这么简单的东西怎么就不优雅了?放个屁都要考虑音高吗?
2016-03-25 16:06:21 +08:00
回复了 daocheng 创建的主题 Node.js 今日最热门的 npm 库
其实挺有用的,各基督教国老黄历用得上。
2016-03-25 13:34:20 +08:00
回复了 liuweisj 创建的主题 宽带症候群 114 DNS 解析不了 no-ip 的动态域名
很多动态域名服务都是被墙的对象,而且可以说是我国最早一批被墙的;
为啥现在连域名转发都要实名制,原因你想想就知道了。
2016-03-25 13:32:40 +08:00
回复了 junhaoim 创建的主题 分享发现 1Password 也推出订阅模式了
看样子 family 版本是要同步数据到他们官方服务器了啊
2016-03-25 13:29:53 +08:00
回复了 deadcat 创建的主题 Dropbox 类似坚果云,dropbox 的存储工具有推荐的吗?
墙内本身就有点不靠谱,完全免费更是天生不靠谱。
2016-03-25 13:27:29 +08:00
回复了 qcloud 创建的主题 问与答 1password 多少钱呢?某宝怎么才 3 块钱
让你做一个 1password 然后卖 3 块钱,你干吗?
2016-03-25 13:20:26 +08:00
回复了 mmmyc 创建的主题 问与答 wifi 万能钥匙服务器地址是多少呢?
把 SSID 改成 CMCC 或者你附近有的公共 WIFI ,让他们凌乱一下
1 ... 172  173  174  175  176  177  178  179  180  181 ... 248  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3698 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 68ms · UTC 00:50 · PVG 08:50 · LAX 16:50 · JFK 19:50
Developed with CodeLauncher
♥ Do have faith in what you're doing.