V2EX › xpresslink 的所有回复 › 第 20 页 / 共 43 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 16 17 18 19 20 21 22 23 24 25 ... 43

❮

❯

2018-12-20 18:47:26 +08:00

回复了 YOOHUU 创建的主题 › Python › Python paramiko 怎么输入交互式的密码?

调用 expect 来交互

2018-12-20 10:38:34 +08:00

回复了 fanhaipeng0403 创建的主题 › Python › sqlalchemy 的 insert or update

我要到哪里去？

2018-12-19 18:55:26 +08:00

回复了 cyy564 创建的主题 › Python › 各位大佬请教一下，关于爬虫的过滤问题

记录爬过的每个页面的根域名和 path URL，给标题做 MD5 存摘要，爬虫爬这个网站前把数据库里存的 URL 列表或标题摘要加载到 set 里面。再爬时候比对一下。

2018-12-19 18:36:43 +08:00

回复了 jimmyczm 创建的主题 › 程序员 › 有没有 Python 的书籍推荐？

流畅的 Python.epub
Python 学习手册（原书第 4 版）.epub
Python 编程：从入门到实践.epub
PythonCookbook 第三版中文 v3.0.0.pdf

Python 爬虫开发与项目实战.epub
Python 网络数据采集.epub
精通 Scrapy 网络爬虫.epub

2018-12-19 16:39:51 +08:00

回复了 kevin1234 创建的主题 › Python › v2ex 大神给点意见

目前常用的成熟方案也就 ELK，EFK，open-falcon 之类的。还是用现在的吧。

2018-12-19 14:58:42 +08:00

回复了 vzyw 创建的主题 › 程序员 › 阿里云轻量服务器一个月 9.5 合算吗？

太贵了，到不同的云轮着申请免费试用机。
阿里云有半年免费试用的就是这个配置。

2018-12-19 13:49:51 +08:00

回复了 zkeeper 创建的主题 › 程序员 › 每天辛苦玩命工作的意义是什么?

楼主听好：每天辛苦玩命工作的意义是为了不工作。/doge/

2018-12-19 13:46:43 +08:00

回复了 Sey0 创建的主题 › Python › 非科班应该怎么学数据分析

其实做数据分析的难点不是这些编程语言和工具之类的，这些都是皮毛。
最关键的是你要理解你要分析处理的行业数据，也就是说你要有很深的行业业务的背景知识，
另外你要有非常好的数学基础，微积分，离散，线性代数，概率和统计方面的数学功底要有。

说白了吧，你以为把菜刀用熟了就能当大厨了么？
你别听外面搞培训的忽悠什么人工智能啊，大数据分析啊之类的。

2018-12-19 12:08:31 +08:00

回复了 ntuwang 创建的主题 › Python › 请教大神们

@OhYee 这两个框架各有特色，学哪个都够用了。
如果论上手快速撸出东西来，应该是 django 要方便点，因为常用的组件之类的直接都包括在安装包里面了，但是耦合度高你要想定制一下 django 的框架难度就提高很多。flask 上来只给你一个最基本的核心，所有需要的组件都要自己去组合安装，但是组件之间的耦合就没有那么紧，你自己定制的灵活性就高了一些。

2018-12-18 12:42:27 +08:00

回复了 alwayshere 创建的主题 › 程序员 › 为防采集，如何将 URL 中的自增数字 id 换成无规律字符串？

@binux 你说这个有什么意思呢？都下架了的信息根本我爬虫就不需要爬啊，你别总是跑题扯搜索引擎。
你非这么扯，那我爬虫就不能在你一开站就开始爬么，我的库里也存了旧链接啊。

我们讨论的前提说的很清楚了，用户到你的网站来浏览可以匿名访问的公开信息你怎么反爬。

我不想和你讨论了，太累心。就此打住。

2018-12-18 11:35:37 +08:00

回复了 python30 创建的主题 › Python › 自已写了个 django axaj 的函数。不知道哪里有问题总是不能执行成功？

你在浏览器里面 F12 在控制台调试一下，看看 ajax 到底传数据没有

后端的视图里面放个断点或直接 print 一下没就知道问题出哪里了？

2018-12-18 11:33:24 +08:00

回复了 python30 创建的主题 › Python › 自已写了个 django axaj 的函数。不知道哪里有问题总是不能执行成功？

你用的 django 是什么版本？

你这个只传一个 id 的情况，应该用 ajax GET 就可以了
要是用 POST 你就不要再构造 url 来传参数了，直接构造一个 json 对象把 id 放里面 POST 到后端。

2018-12-18 11:06:36 +08:00

回复了 alwayshere 创建的主题 › 程序员 › 为防采集，如何将 URL 中的自增数字 id 换成无规律字符串？

@binux 我都说了你跑题了，这个情况不在讨论范围内，你根本就没有理解题意，信息和特定账号绑定的情况这个需要的不是爬虫而是黑客了，你这个资源要是用户用才能专线访问，别说爬虫了就是黑客也没办法。

我讨论是有个默认前提的，就是普通中小型网站用户可以匿名访问的公开内容

2018-12-18 09:42:51 +08:00

回复了 alwayshere 创建的主题 › 程序员 › 为防采集，如何将 URL 中的自增数字 id 换成无规律字符串？

@binux
我前面都说了, 爬虫就是伪装成一个用户在那里浏览，反爬虫很难的原因就是你不能为了反爬虫把用户也反了吧。
爬虫遍历是通过列表页，或者页和页之间的链接递归访问实现遍历的。
你所说的用户也不能遍历是什么梗，难道那些页面没有在其它任何页面有链接而孤立存在，你也不让用户看？
没错爬虫需要列表页和链接页面，然而用户也是必然需要的。

2018-12-18 09:11:59 +08:00

回复了 alwayshere 创建的主题 › 程序员 › 为防采集，如何将 URL 中的自增数字 id 换成无规律字符串？

@binux 我们不要放题了。
我们现在要讨论提混淆 id 能不能达到反爬的目的。
我讨论是有个默认前提的，就是普通中小型网站用户可以匿名访问的公开内容，爬虫这方也就是个小公司。
淘宝那种网站和百度那个爬虫不在讨论之列。

2018-12-17 19:39:12 +08:00

回复了 alwayshere 创建的主题 › 程序员 › 为防采集，如何将 URL 中的自增数字 id 换成无规律字符串？

@cdwyd 你才是先把问题带偏了好吧。
说爬虫你扯搜索引擎，要么拿极端情况例子来反驳理论普遍适用性问题。

2018-12-17 18:52:35 +08:00

回复了 ntuwang 创建的主题 › Python › 请教大神们

@ntuwang 这个只和你做什么项目和要解决问题有关系吧。

2018-12-17 18:49:29 +08:00

回复了 mortonnex 创建的主题 › Java › aop 和反射的关系?

AOP 是面向切面编程是框架级别的，反射是语言基础级别的。AOP 只是用到了 java.lang.reflect.Proxy 类和 java.lang.reflect.InvocationHandler 接口来实现动态代理。

2018-12-17 18:42:29 +08:00

回复了 ntuwang 创建的主题 › Python › 请教大神们

@OhYee django ORM 和 flask 用的 sqlalchemy 相比上手可容易多了，用着也简单，友好性可是强多了。

1 ... 16 17 18 19 20 21 22 23 24 25 ... 43

❮

❯