V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Marsss  ›  全部回复第 5 页 / 共 6 页
回复总数  106
1  2  3  4  5  6  
2017-12-20 11:18:41 +08:00
回复了 Marsss 创建的主题 Android 用 HttpURLConnection 如何读取较大的数据流?
@AlisaDestiny @heyang 谢谢二位,这些资料我也认真看过,设置 connection 为 close 并没有解决问题
@TommyG 改成 BufferedInputStream 也是一样的问题,我试着将返回的数据缩短一些就都正常,数据量一旦超过某个值,debug 的时候就会看到 while 那里,只写了一部分就跳到异常了,异常那里显示的是连接被重置了。

看起来就是数据量大了之后(实际上数据也就是几十 k,不算很大了),无法保持持久的数据读取。
中英文混合的识别率怎么样?
2017-12-04 14:50:57 +08:00
回复了 Marsss 创建的主题 Android ADT v22 如何导入第三方 jar?
好吧,我还是换成 studio 试试吧。。。
2017-12-04 14:24:37 +08:00
回复了 Marsss 创建的主题 Android ADT v22 如何导入第三方 jar?
我做的事情比较杂,app 以前没做过,找同事拷的一个他以前用过的环境,就直接用了,我知道这个比较过时,本来是想装 studio 的,安装没成功,就懒得折腾了。
@suxiaozi 可能我说的有点夸张了,严格来说不算什么管理系统,也就是爬虫作为后端爬到店铺的商品图片,链接,价格,描述等信息后,为了便于查看管理,用 flask 和 sqlite3 写了个本地服务,浏览器打开,直观查看爬到的数据,删除数据,增加标注信息,插入数据到 sqlite,操作爬虫更新等,便于他们操作。功能不复杂,很快写好,所以就报了这么点。不过还是建议大家以后充分沟通后再报价。
2017-11-21 09:27:49 +08:00
回复了 yeyu1989 创建的主题 Python 帮分析爬取一个网页信息 cn.investing.com
1 楼和 2 楼都已经告诉你答案了,而且都是对的。1 楼的意思是直接使用 selenium 等自动化包驱动浏览器访问目标链接,浏览器运行 js 后渲染得到目标数据,具体实现搜索 selenium 相关知识点。

2 楼的意思是分析 http 请求数据,发现目标数据实际是通过 XHR,带参数 POST 访问 https://cn.investing.com/stock-screener/Service/SearchStocks,直接得到数据。具体分析,可 F12 看 network 或者代理抓包。
什么页面啊,1W,真敢开口。想起上次有个找人写亚马逊爬虫的,要求带管理页面的。我给他写好,然后还给他写了个网页版的管理系统,我报价也就几百块,结果人家扭捏来扭捏去,不舍得给钱的意思,没要终版就借口不做了。感觉楼主在这里找人做比那些群靠谱点吧。
2017-11-16 09:22:44 +08:00
回复了 puyaraimondii 创建的主题 程序员 利用写好的 Python 代码,处理图片问题
楼上的比较简单吧,flask 起个服务就全搞定了。
2017-11-16 09:01:37 +08:00
回复了 lance418 创建的主题 Python 求大佬帮助 刚入门的萌新 自己练习爬虫天气网的信息
不要用 r.text,这样 rawdata = html.fromstring(r.content) ,然后下面就不需要 i.encode('utf-8')了,直接打印
@LuoboTixS 严格列对齐。。。那种确实太费劲了,没必要。看来什么事情都不能太过。不过我还是觉得尽量看来整洁干净比较舒服。
@CruelMoon 看来还是人的问题,又或者说是钱的问题,只能在 sap 平台上工作,那么这种人才应该是相对较少了。再不给他们提高点待遇,都跑去搞业务了,好好写代码的人更少了。。。
2017-11-07 09:18:18 +08:00
回复了 NxnXgpuPSfsIT 创建的主题 Python Trip: 给 Requests 加上协程,一百份网络请求一份时间
实际写爬虫的时候,同一个 ip,这样的速度,是会被封锁的,使用代理的话,一般代理商能提供的 ip 切换速度是有限的,基本跟不上这种速度。或许大量静态代理能用得上这种协程。不知道我理解的对不对。
2017-11-07 08:42:45 +08:00
回复了 hagezhou 创建的主题 Python Python request post 参数不成功
用 burp 代理,抓包看发出去的数据包,和正常是哪里不一样,就知道怎么解决问题了。
2017-10-10 08:52:10 +08:00
回复了 chen2016 创建的主题 程序员 写爬虫的时候你遇到过哪些厉害的反爬手段?
遇到最恶心的是 js 检测是否有鼠标操作且正常,并将其一并参与请求。
好像看到了 timeout 试试 -i 豆瓣源 注意 trust
2017-09-29 08:53:40 +08:00
回复了 saximi 创建的主题 Python 请问一个关于爬虫的问题
import pdb
pdb.set_trace()
2017-09-29 08:42:32 +08:00
回复了 saximi 创建的主题 Python 请教关于用 selenium 解析网页的问题
把 target_url 写出来,正确答案马上就有了
2017-09-27 09:02:34 +08:00
回复了 realfreesky 创建的主题 程序员 验证码 OCR 识别工具都有哪些比较好用呀
看楼主提到 OCR,那么应该说的是图片字符类型的验证码。三种建议:
1.比较清晰简单的那种,直接 tesseract。
2.上 cnn (卷积神经网络),需要标注样本,自己去标注的话,眼睛会瞎的,样本数量起码需要万级左右,可以借助打码平台,需要一定的费用。
3.使用简单的 mlp (多层感知器),也就是普通的神经网络,针对要识别的验证码,设计一种有效的切割算法,将字符进行切割,这种方法只需要标注几百张样本,就可以达到比较好的效果。几百张自己就搞定了,不需要产生费用。
2017-09-22 15:38:06 +08:00
回复了 gouchaoer 创建的主题 程序员 360 极速浏览器的蛋疼设计
这不是闲的蛋疼吗,居然用 360
2017-09-19 21:50:05 +08:00
回复了 Marsss 创建的主题 Android Xposed 如何重复调用某个函数?
@yangff 这样能触发"a"执行吗?我试试。。
1  2  3  4  5  6  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5180 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 09:17 · PVG 17:17 · LAX 01:17 · JFK 04:17
Developed with CodeLauncher
♥ Do have faith in what you're doing.