V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  YUX  ›  全部回复第 44 页 / 共 79 页
回复总数  1566
1 ... 40  41  42  43  44  45  46  47  48  49 ... 79  
2016-06-15 05:01:57 +08:00
回复了 xsxsxszs 创建的主题 分享创造 V 站第三方客户端 VeXplore 已上架
FYI. 那个免费的 V2EX 已经在 iOS10 出 bug 了。你这个完美兼容。
2016-06-15 00:21:09 +08:00
回复了 Jerry5850022 创建的主题 MacBook 大家觉得有必要买个移动硬盘做备份吗?
我觉得没必要 重要的东西 Dropbox +🌰☁️
2016-06-14 23:41:43 +08:00
回复了 shenfu1991 创建的主题 Linux 如何实现离线下载
三楼正解
2016-06-14 21:40:43 +08:00
回复了 aias 创建的主题 问与答 纯静态页面部署,各位有什么好的方案推荐吗?
hostker.com
用 FTP 上传就能直接用了
2016-06-14 20:58:29 +08:00
回复了 notgod 创建的主题 剧集 你最喜欢的一部美剧是哪部? 跟我分享下
疑犯追踪
2016-06-14 20:21:27 +08:00
回复了 pengbo37877 创建的主题 推广 罗永浩曾经赞不绝口的一个阅读类 APP 续集内测了
yu.xiao.fr@gmail.com
2016-06-14 18:15:52 +08:00
回复了 laoni 创建的主题 程序员 晚上 10 点后有点时间。。想做点啥项目挣点奶粉钱。。。
@JiShuTui 找不到 ipinfo.net 的服务器 DNS 地址。
2016-06-14 16:17:16 +08:00
回复了 xsxsxszs 创建的主题 分享创造 V 站第三方客户端 VeXplore 已上架
那些个喷子真讨厌 本来就是爱买买不买滚的事情 你们买一个用一下 觉得被坑了再来喷的有点技术含量好不好

你们一个最让人心寒的是什么么

楼主做这个显然不是为了糊口 是因为爱这个社区啊 而现在看到社区养了一帮这种人 要是我都后悔做这个 app 了

哎 T_T
2016-06-13 20:52:29 +08:00
回复了 omg21 创建的主题 Python 如何用正则或者 bs4 提取日期?
如五楼所说 re.findall("\d{4}-\d{2}-\d{2}",html_content) 就能拿到所有形如 yyyy-mm-dd 的日期
2016-06-13 20:47:33 +08:00
回复了 omg21 创建的主题 Python 如何用正则或者 bs4 提取日期?
意思是每个页面的 DOM 结构还不一样?其他页面还不是 li->span ?

最好是把每个页面的结构都看一下才好分析出共通的代码,但好像看题主的意思是只要提取每页形如 yyyy-mm-dd 的日期?拿着就没法 beautifulsoup 了 直接上正则匹配。
2016-06-13 16:21:10 +08:00
回复了 practicer 创建的主题 Python python 多线程爬虫问题
@JhOOOn 还有知乎 好像都想爬知乎 也不知道爬完了做什么 好像只有一个看知乎还有点意思
2016-06-13 16:19:01 +08:00
回复了 JiaFeiX 创建的主题 Swift Swift 和 iOS 快速入门公益免费课程 6 月线下班开课啦
希望每个月都有一次ꉂ ೭(˵¯̴͒ꇴ¯̴͒˵)౨”
2016-06-13 13:59:02 +08:00
回复了 practicer 创建的主题 Python python 多线程爬虫问题
@practicer requests futures 有 ThreadPoolExecutor 和 ProcessPoolExecutot 两个用法
用 max worker 直接控制频率多好
2016-06-13 07:01:44 +08:00
回复了 ericls 创建的主题 分享创造 初学 Elixir Phoenix 和 React, 写了个简陋的 Mailgun Web UI
@ericls 我还在用 flux
2016-06-13 06:34:15 +08:00
回复了 nonfu 创建的主题 PHP Laravel 5 岁了, Happy Birthday!
我用 python
2016-06-13 06:31:17 +08:00
回复了 ericls 创建的主题 分享创造 初学 Elixir Phoenix 和 React, 写了个简陋的 Mailgun Web UI
我也在学 React 也用 material ui
2016-06-13 03:46:05 +08:00
回复了 practicer 创建的主题 Python python 多线程爬虫问题
Python3.5 运行通过 需要 BeautifulSoup 和 requests_futures
max_workers=20 这里根据你的需要你自己改一下
我只写到了 data = fetchBookInfo(books)这一步,怎么弄这些个数据就看你了

其实有用的只有一句话 用 requests_futures
https://github.com/ross/requests-futures
2016-06-13 03:42:59 +08:00
回复了 practicer 创建的主题 Python python 多线程爬虫问题
from concurrent.futures import ThreadPoolExecutor
from requests_futures.sessions import FuturesSession
session = FuturesSession(executor=ThreadPoolExecutor(max_workers=20))
import requests
from bs4 import BeautifulSoup
import re

def fetchPages(first_page):
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
content = requests.get(first_page, headers=headers).text
soup = BeautifulSoup(content, "html.parser")
a_tags_final = soup.find("div", { "class" : "paginator" }).find_all("a")[-2].get("href")
page_max = int(re.findall("start=(.*)&",a_tags_final)[0])
pages = []
for k in range(0,page_max+20,20):
pages.append(first_page+"?start="+str(k))
return pages


def fetchBooks(pages):
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
books = []
for page in pages:
books.append(session.get(page, headers = headers))
def get_books_url(book):
soup = BeautifulSoup(book, "html.parser")
book_list = list(map(lambda li: li.find("div", { "class" : "info" }).find("h2").find("a").get("href"), soup.find_all("li", { "class" : "subject-item" })))
return book_list
books = list(map(lambda book: get_books_url(book.result().text), books))
books_url = []
for book in books:
books_url += book
return books_url



def fetchBookInfo(books):
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
books_info = []
for book in books:
books_info.append(session.get(book, headers = headers))
def get_books_data(book_info):
soup = BeautifulSoup(book_info, "html.parser")
info = soup.find("div", { "id" : "info" })
return info
book_data = list(map(lambda book: get_books_data(book.result().text), books_info))
return book_data



if __name__ == '__main__':
pages = fetchPages("https://book.douban.com/tag/%E7%BC%96%E7%A8%8B")
books = fetchBooks(pages)
data = fetchBookInfo(books)
1 ... 40  41  42  43  44  45  46  47  48  49 ... 79  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2728 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 55ms · UTC 06:36 · PVG 14:36 · LAX 22:36 · JFK 01:36
Developed with CodeLauncher
♥ Do have faith in what you're doing.