V2EX › chendajun 的所有回复 › 第 4 页 / 共 12 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 12

❮

❯

2017 年 9 月 28 日

回复了 ericgui 创建的主题 › 程序员 › 求推荐国外的代理 IP 供应商

Crawlera

2017 年 9 月 25 日

回复了 smartdie 创建的主题 › 问与答 › 北京转一张健身卡，望京 SOHO 附近的健身房

太远了，不然直接收了。我在西二旗这上班。

2017 年 9 月 20 日

回复了 heyanwork 创建的主题 › 分享发现 › Simple mobile 的 se 到了开个箱顺便等卡贴到

@heyanwork 大佬，还可以帮忙下单么，谢谢！

2017 年 9 月 14 日

回复了 liudaqi 创建的主题 › 健康 › 昨天晚上做梦，梦见被坏人锯腿，很紧张啊

压力大的原因？

2017 年 9 月 12 日

回复了 whileFalse 创建的主题 › 问与答 › 一个人第一次去米国，怎样装出经常去的样子？

旅行社只是指导你填 160 表，告诉你准备哪些材料，帮预约面签时间，面试不是非得英语。

2017 年 8 月 24 日

回复了 wangwei745 创建的主题 › Python › 求靠谱 Python 爬虫工程师

应用宝的抓取还没解决吗？

2017 年 8 月 14 日

回复了 coolcto 创建的主题 › 酷工作 › 有木有 2 年+前端经验的小伙伴近期找工作？ COOLCTO 这边有个机会哦！

“认为自己运气很好”，这个是什么意思？

2017 年 8 月 14 日

回复了 luxuluxu 创建的主题 › 问与答 › 需要用 http 代理求推荐。。

Scrapy Crawlera，非常好用

2017 年 8 月 2 日

回复了 luckymore0520 创建的主题 › 酷工作 › 2018 今日头条校招开始啦

爬过今日头条视频的招嘛。。。日均 1w+小视频

2017 年 8 月 2 日

回复了 agentwx 创建的主题 › Python › 爬取数据时，是不是只能每个网站每个网站的分析，有没有通用的方式？

做爬虫也好多年了，一般抓取网站中的标题，文章发布时间，正文，文章图片。可以做到 80%用通用规则解决。
1，标题：在提取链接的时候把 link title 保存下来
2，文章发布时间：用网页 heads 里的 last modify
3，抽取正文：有开源的模块（ Python 有 readability-lxml，Java 有 JoyHtml
4，文章图片：在抽取的正文中提取<img>

2017 年 7 月 28 日

回复了 Lukin 创建的主题 › 酷工作 › [蘑菇租房] iOS 和 Android 工程师

@lidatui ”自带 Mac 优先“ 这都成为优先条件了，你觉得能给多少？

2017 年 7 月 27 日

回复了 chendajun 创建的主题 › 问与答 › 哪里能买到纯粮酿制的白酒

@arens @mansur @busymilk @upczww 谢谢回复。
@tabris17 @kokdemo 之前没太了解过纯粮酒的成分。很早之前家里人买过纯粮酒，喝过的都说好，那会还小不会喝酒，现在自己喝酒也一直想买点尝尝。

2017 年 7 月 13 日

回复了 hanbaobao2005 创建的主题 › 北京 › 昌平-生命科学园地铁-房东寻租户

生命科学园的房租都这么贵了？

2017 年 7 月 12 日

回复了 gwxignotus 创建的主题 › 问与答 › 美帝海淘笔记本推荐

如果想买 ThinkPad 的话，建议 lenovo 美国 outlet。去年淘了一台 T460 无税到手，转运用的是“值得海淘”，时间花了一个月。

1 2 3 4 5 6 7 8 9 10 ... 12

❮

❯