全部商品分类

您现在的位置: 全部商品分类 > 电子电脑 > 计算机技术 > 程序与语言

Python爬虫开发实战教程(微课版)/互联网+职业技能系列

  • 定价: ¥49.8
  • ISBN:9787115527882
  • 开 本:16开 平装
  •  
  • 折扣:
  • 出版社:人民邮电
  • 页数:221页
  • 作者:编者:蜗牛学院//...
  • 立即节省:
  • 2020-06-01 第1版
  • 2020-06-01 第1次印刷
我要买:
点击放图片

导语

  

内容提要

  

    本书以Python语言为基础描述了网络爬虫的基础知识,用大量实际案例及代码,向读者介绍了编写网络爬虫所需要的相关知识要点及项目实践的相关技巧。本书共5章,介绍了爬虫的基本结构及工作流程、抓包工具、模拟网络请求、网页解析、去重策略、常见反爬措施,以及大型商业爬虫框架Scrapy的应用,最后介绍了数据分析及可视化的相关基础知识。
    本书可以作为高校计算机及相关专业的教材,也适合Python程序员及具备一定Python语言基础的读者自学使用。

作者简介

    蜗牛学院,IT与互联网人才孵化基地,采用独创的PBET教学模式,线上和线下相结合,以项目和任务为驱动采用“场景式”教学手段,保障学员的学习效果,突破职业瓶颈,实现高薪就业。只为成就更好的你。
    蜗牛学院目前在成都、上海、北京、重庆、武汉、西安等地提供线下培训,同时官网也提供在线学习辅导。

目录

第1章  静态网页爬虫
  1.1  爬虫的基本概念和工作原理
    1.1.1  什么是网络爬虫
    1.1.2  爬虫的结构与工作流程
  1.2  爬虫抓包分析
    1.2.1  使用Chrome浏览器进行抓包分析
    1.2.2  使用Fiddler进行抓包分析
  1.3  Requests库的基本使用方法
    1.3.1  安装Requests库
    1.3.2  通过Requests发送GET请求
    1.3.3  在GET请求中添加参数
    1.3.4  发送POST请求
    1.3.5  获取请求的状态码
    1.3.6  指定请求时使用的headers及动态更新headers
    1.3.7  指定Cookies和动态更新Cookies
    1.3.8  使用session对象保持会话状态
  1.4  网页解析利器XPath、CSS-Selector和正则表达式语法
    1.4.1  XPath的基本语法及使用
    1.4.2  常见相对路径引用
    1.4.3  XPath进阶应用
    1.4.4  CSS-Selector的基本语法及使用
    1.4.5  正则表达式的基本语法及使用
  1.5  常见爬虫爬取策略
    1.5.1  宽度优先搜索策略
    1.5.2  深度优先搜索策略
  1.6  常见网页URL和内容去重策略
    1.6.1  去重策略的使用场景
    1.6.2  常见爬虫去重策略
    1.6.3  BloomFilter算法
    1.6.4  内容去重策略的实现
  1.7  实战:编写一个基于静态网页的爬虫
第2章  常见反爬措施及解决方案
  2.1  常见反爬手段——身份验证
    2.1.1  使用登录的Cookies获取数据
    2.1.2  模拟登录请求
    2.1.3  使用Selenium模拟登录
  2.2  常见反爬手段——验证码
    2.2.1  验证码反爬原理
    2.2.2  常见验证码类型
    2.2.3  常见验证码处理方式
  2.3  常见反爬手段——速度、数量限制
    2.3.1  服务器对速度、数量限制反爬的原理和手段
    2.3.2  针对反爬限速、频次限制的突破手段
  2.4  自己动手搭建IP代理池
    2.4.1  创建IP代理池的基本要求
    2.4.2  IP代理池基本架构
    2.4.3  相关组件的安装
    2.4.4  同步I/O和异步I/O的概念和区别
    2.4.5  在Python中如何实现异步I/O
  2.5  常见反爬手段——异步动态请求
  2.6  常见反爬手段——JS加密请求参数
第3章  自己动手编写一个简单的爬虫框架
  3.1  简单爬虫框架的结构
  3.2  编写URL管理器
  3.3  编写资源下载器
  3.4  编写HTML解析器
  3.5  编写资源存储器
  3.6  编写爬虫调度器
第4章  Scrapy框架应用
  4.1  Scrapy的相关概念与原理
  4.2  安装Scrapy框架
    4.2.1  在Windows中安装Scrapy
    4.2.2  在Linux中安装Scrapy
    4.2.3  在MacOS中安装Scrapy
  4.3  创建第一个Scrapy项目
    4.3.1  创建Scrapy项目
    4.3.2  Scrapy项目的结构
    4.3.3  定义爬虫文件
  4.4  在PyCharm中运行和调试Scrapy项目
    4.4.1  在PyCharm中运行Scrapy项目
    4.4.2  在PyCharm中调试Scrapy项目
  4.5  使用Scrapy进行请求间数据传递
  4.6  Scrapy命令行用法详解
  4.7  常用Scrapy组件的用法
    4.7.1  定义数据Item
    4.7.2  利用Item Pipeline将数据持久化
    4.7.3  编写Item Pipeline
    4.7.4  中间件的用法
  4.8  Scrapy中对同一项目不同的Spider启用不同的配置
  4.9  Scrapy分布式爬虫的运行原理
    4.9.1  实现多机分布式爬取的关键
    4.9.2  源码解读之connection.py
    4.9.3  源码解读之dupefilter.py
    4.9.4  源码解读之pipelines.py
    4.9.5  源码解读之queue.py
    4.9.6  源码解读之scheduler.py
    4.9.7  源码解读之spider.py
  4.10  利用Scrapy+Redis进行分布式爬虫实践
    4.10.1  运行环境准备
    4.10.2  修改Scrapy项目配置及相关源码
    4.10.3  部署到不同的从机中
    4.10.4  其他可选配置参数
第5章  爬虫数据分析及可视化
  5.1  安装Jupyter Notebook和Highcharts库
    5.1.1  Jupyter Notebook
    5.1.2  使用Jupyter Notebook的原因
    5.1.3  Jupyter Notebook的安装和配置
    5.1.4  安装过程中可能遇到的错误
    5.1.5  Jupyter Notebook的常用设置
    5.1.6  Highcharts库的安装和配置
  5.2  熟悉Jupyter Notebook的基本用法
    5.2.1  创建一个新的Notebook文件
    5.2.2  在Jupyter Notebook中运行代码
    5.2.3  在Jupyter Notebook中编写Markdown格式文档
  5.3  熟悉Highcharts库的基本用法
    5.3.1  Highcharts的基本组成
    5.3.2  Python charts库的基本使用
    5.3.3  charts的option属性设置
  5.4  利用Jupyter Notebook和Highcharts实现数据分析和展示
    5.4.1  数据分析的流程
    5.4.2  数据分析实践
  5.5  利用词云实现可视化效果
    5.5.1  jieba分词器
    5.5.2  jieba分词器的特点及安装方法
    5.5.3  wordcloud词云组件
    5.5.4  利用蜗牛笔记数据生成词云
参考文献