分布式部署PySpider

环境 CentOS Linux release 7.4.1708 (Core) * 2 Python 2.7.5 pip 9.0.1 目标 在2台服务器上分布式部署PySpider爬虫框架,各服务器中PySpider组件如下: 主机 scheduler fetcher processor webui Master √ √ √ √ Slave √ √ 安装并配置Redis 配置Master,上一篇文章 →_

Read More...

Python爬虫模拟登录支付宝并获取订单信息

本文仅学习交流使用,记录学习用webdriver模拟登录支付宝保存cookie,再用requests.session()加载cookie并用Xpath获取订单信息,将订单存储到MySQL数据库中的过程。 本机主要运行环境及库 Arch Linux webdriver(Chrome或者FireFox) Python3.6 selenium 库 json 库 requests 库 lxml 库 MySQLdb 库 确保本机具有或类似的运

Read More...

selenium 模拟登录163邮箱

记录下简单使用selenium的过程 主要运行环境及库 selenium 库 webdriver (Chrome、Firefox等) 下载 webdriver并配置webdriver 下载连接如下 Chrome Firefox 将下载好的webdriver 放入到/usr/bin/目录下,这样做的目的是调用时可以不指明路径 模拟登录163邮箱123456browser = webdriver.Chrome()# 最大化窗口brow

Read More...

Python 模拟登录知乎

之前模拟登录pixiv时不需要验证码,知乎需要验证码,于是写这篇文章记录我学习模拟登录知乎的过程 需要的工具及环境 Python 3.6 requests 库 pillow 库 re 库 Chrome 浏览器 尝试登录打开知乎登录页面,按F12->选中‘preserve log’,登录界面如图,点击提交,获得post数据和网址 我们可以获得获得post URL 地址1post_url = 'https://www.zhihu.

Read More...

Python爬虫模拟登录pixiv

记录学习Python模拟登录的过程 需要的工具及运行环境 Python 3.6 requests 库 re 库 Chrome 浏览器 分析URL进入pixiv官网,按F12 开打开发者工具界面,点击官网上的LOGIN 按钮,跳转到登录界面,开发者工具界面依次选择“Network”->“Doc”,左侧Name栏有请求信息。如图可知三个重要信息: 请求方式:GET User-Agent get的请求参数 构建请求header

Read More...