scrapy 如何才能请求 word 文件源链接后返回的内容保存到 mysql 数据库？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2653 天前的主题，其中的信息可能已经有所发展或是发生改变。

scrapy 如何才能请求 word 文件源链接后返回的内容保存到数据库？这么描述不知道对不对，就是想通过 scrapy 来把网上的 word 文档直接保存到 mysql 数据库中。我查询网上说的是可以以二进制形式保存进 mysql 数据库中。

由于爬取的网站需要登录，所以用的 Requset 传递 cookie，但麻烦的是，返回的 response 的 type 是'scrapy.http.response.html.HtmlResponse'，并没有 content 属性。那么问题是，返回的 response 如何转换成二进制？

同时，也想问一下，Spider 中模拟登录后一直传递的 cookiejar 怎么才能转换成 request 可以用的 cookie 格式？还是说可以直接拿来用？？这个解决了的话，那么我是不是在最后请求 word 文件源链接的时候，用 request 就可以返回 response.content 了？？

说的有点乱。。。抱歉

3 条回复 • 2017-08-21 08:43:59 +08:00

1

zhijiansha

OP

2017-08-20 11:53:17 +08:00

求大佬解惑啊

2

BooksE

2017-08-20 13:17:34 +08:00

好奇特的需求

3

zhijiansha

OP

2017-08-21 08:43:59 +08:00 via iPhone

@BooksE 项目要求的…已经解决了

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 938 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 24ms · UTC 21:18 · PVG 05:18 · LAX 13:18 · JFK 16:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.