全部商品分类

您现在的位置: 全部商品分类 > 电子电脑 > 计算机技术 > 程序与语言

零基础学Python网络爬虫案例实战全流程详解(高级进阶篇)

  • 定价: ¥89.8
  • ISBN:9787111684749
  • 开 本:16开 平装
  •  
  • 折扣:
  • 出版社:机械工业
  • 页数:270页
  • 作者:编者:王宇韬//吴...
  • 立即节省:
  • 2021-07-01 第1版
  • 2021-07-01 第1次印刷
我要买:
点击放图片

导语

  

内容提要

  

    网络爬虫是当今获取数据不可或缺的重要手段。本书讲解了Python爬虫的进阶理论与技术,帮助读者提升实战水平。
    全书共7章。第1~3章为常见反爬机制的应对手段,主要内容包括Cookie模拟登录、多种类型的验证码识别、Ajax动态请求破解。第4章为手机App内容爬取。第5章和第6章为Scrapy爬虫框架应用。第7章为爬虫云服务器部署。
    本书适合有一定Python网络爬虫编程基础的学生或相关从业人员,以及想要在Python网络爬虫开发、不同类型的反爬机制应对、爬虫框架开发、爬虫云端部署等方面进阶提高的读者。

目录

前言
本书学习资源
第1章  Cookie模拟登录
  1.1  Cookie模拟登录的原理
    1.1.1  客户端与服务端
    1.1.2  HTTP的无状态性
    1.1.3  Cookie的含义与作用
    1.1.4  Session的含义与作用
    1.1.5  Cookie与Session的交互
  1.2  案例实战1:模拟登录淘宝并爬取数据
    1.2.1  获取Cookie模拟登录淘宝
    1.2.2  爬取淘宝商品数据
  1.3  案例实战2:模拟登录新浪微博并爬取数据
    1.3.1  获取Cookie模拟登录新浪微博
    1.3.2  爬取新浪微博热搜榜信息
  课后习题
第2章  验证码反爬的应对
  2.1  图像验证码
    2.1.1  超级鹰平台注册
    2.1.2  超级鹰Python接口的使用
    2.1.3  案例实战:英文验证码和中文验证码识别
  2.2  计算题验证码
  2.3  滑块验证码
  2.4  滑动拼图验证码
    2.4.1  初级版滑动拼图验证码
    2.4.2  高级版滑动拼图验证码
  2.5  点选验证码
    2.5.1  本地网页识别
    2.5.2  bilibili点选验证码识别初探
    2.5.3  bilibili点选验证码识别升级:无限尝试版
  课后习题
第3章  Ajax动态请求破解
  3.1  Ajax简介
    3.1.1  不同的网页翻页方式的对比
    3.1.2  Ajax的基本概念与工作原理
  3.2  案例实战1:爬取开源中国博客频道
    3.2.1  分析Ajax请求
    3.2.2  爬取单页博客
    3.2.3  爬取多页博客
  3.3  案例实战2:爬取新浪微博
    3.3.1  模拟登录新浪微博
    3.3.2  分析单个微博页面
    3.3.3  破解Ajax请求爬取多页
  课后习题
第4章  手机App内容爬取
  4.1  相关软件安装
    4.1.1  安装夜神模拟器
    4.1.2  安装Node.js
    4.1.3  安装JDK
    4.1.4  安装Android Studio
    4.1.5  安装Appium
    4.1.6  安装Appium-Python-Client库
  4.2  手机模拟操作初步尝试
    4.2.1  用Android Studio连接夜神模拟器
    4.2.2  用Python连接微信App
  4.3  Appium基本操作与进阶操作
    4.3.1  Appium基本操作
    4.3.2  Appium进阶操作
  4.4  案例实战:爬取微信朋友圈内容
    4.4.1  获取微信朋友圈页面源代码
    4.4.2  提取微信朋友圈内容
  4.5  多开模拟器打开多个微信
    4.5.1  多开模拟器
    4.5.2  用Appium连接多个模拟器
  课后习题
第5章  Scrapy爬虫框架
  5.1  Scrapy框架基础
    5.1.1  Scrapy的安装方法
    5.1.2  Scrapy的整体架构
    5.1.3  Scrapy的常用指令
  5.2  案例实战1:百度新闻爬取
    5.2.1  Robots协议破解
    5.2.2  User-Agent设置
    5.2.3  百度新闻标题爬取
  5.3  案例实战2:新浪新闻爬取
    5.3.1  实体文件设置
    5.3.2  新浪新闻爬取:爬取一条新闻
    5.3.3  新浪新闻爬取:爬取多条新闻
    5.3.4  新浪新闻爬取:生成文本文件报告
  5.4  案例实战3:豆瓣电影海报图片爬取
    5.4.1  用常规方法爬取
    5.4.2  用Scrapy爬取
  5.5  知识拓展:Python类的相关知识
    5.5.1  类和对象的概念
    5.5.2  类名、属性和方法
    5.5.3  类的进阶知识
  课后习题
第6章  Scrapy应对反爬
  6.1  中间件技术概述
    6.1.1  下载器中间件
    6.1.2  爬虫中间件
  6.2  Scrapy IP代理:爬取搜狗图片
    6.2.1  用Requests库批量下载图片
    6.2.2  用Scrapy框架批量下载图片
  6.3  Scrapy Cookie:模拟登录淘宝
    6.3.1  在中间件文件中添加Cookie
    6.3.2  编写并运行爬虫文件:爬取淘宝网页
  6.4  Scrapy Selenium库:爬取财经新闻
    6.4.1  在中间件文件中添加Selenium库
    6.4.2  编写并运行爬虫文件:爬取新闻信息
  课后习题
第7章  爬虫云服务器部署
  7.1  HTML网页制作进阶
    7.1.1  表格
    7.1.2  列表
    7.1.3  样式设计
    7.1.4  背景设置
  7.2  Flask Web编程基础
    7.2.1  Flask入门
    7.2.2  用render_template()函数渲染页面
    7.2.3  用Flask连接数据库
  7.3  Flask Web编程实战
    7.3.1  展示单家公司的数据
    7.3.2  展示多家公司的数据
    7.3.3  展示舆情评分
    7.3.4  只展示当天新闻
    7.3.5  只展示负面新闻
  7.4  云服务器的购买和登录
  7.5  程序云端部署及网站搭建
    7.5.1  搭建程序的运行环境
    7.5.2  程序24小时运行及Flask项目部署
    7.5.3  域名申请和使用
  课后习题