全部商品分类

您现在的位置: 全部商品分类 > 电子电脑 > 计算机技术 > 程序与语言

Python3爬虫实战(数据清洗数据分析与可视化)

  • 定价: ¥59.8
  • ISBN:9787113260590
  • 开 本:16开 平装
  •  
  • 折扣:
  • 出版社:中国铁道
  • 页数:252页
  • 作者:编者:姚良
  • 立即节省:
  • 2019-10-01 第1版
  • 2019-10-01 第1次印刷
我要买:
点击放图片

导语

  

    1.从零开始,适合新手学习
    对于只有代码入门基础的新手来说,看文档学习使用工具是十分困难的一件事。因为对代码的不理解、没有编程思维,看文档简直就像是在看天书。另外大部分的新文档都是英文版的,国内的中文文档都是翻译过来的,在翻译过程中容易产生偏差。而本书基础知识篇中,从各官方文档中直接整理出爬虫爬取需要用到的部分。没有繁杂啰唆的文字,用简单的语言告诉你学习的重点知识,让你快速上手爬虫。在实战阶段,详细介绍每一个步骤,便于理解,让你也能靠自己写出爬虫。
    2.实例丰富,解决各种爬虫问题
    网上很多爬虫的各种教程,大部分都是爬取豆瓣电影、招聘网站职位进行分析。本书实战项目挑选的都是网上少有人爬取的网站,让你可以学习到各式各样的爬取方式。
    3.站得更高,设计自己的产品
    本书除了教你如何爬取网站外,还有很多以爬虫为基础的多功能设计教程,如爬虫机器人、爬虫网站、爬虫搜索功能。让你在学会爬取技术的同时,形成产品的思维去设计自己的产品。

内容提要

  

    作为一个自学爬虫的过来人,曾经走过很多弯路,在自学的道路上也迷茫过。每次面对一个全新的网站,都像是踏进一个未知的世界。你不知道前面有哪些反爬手段在等着你;你不知道你会踩进哪个坑里。我做爬虫的几年时间里,爬过很多的网站、遇到过很多的难题。这本书就是我这几年经验的总结,从开始的工具的学习使用,到实战项目的爬取,难度一步一步的升级,需求也越来越复杂,有各式各样的爬取方式。
    本书主要内容与数据爬取相关,包括编写爬虫所需要的基础编程知识,如Requests包、Scrapy框架和数据库的使用,到项目实战教程,适合Python基础入门的读者。如果你是其他行业的从业者,想进入IT行业成为一位爬虫工程师,又或者你已经是IT行业的从业者,本书在能够让你在对爬虫工程师的工作内容有所了解的同时,也能让你掌握作为一个爬虫工程师所需要具备的基础技能。

作者简介

    姚良,一个文科生、银行客户经理到自学Python编程成为经验丰富的爬虫工程师。通过自学掌握编程和爬虫技术。多年战斗在公司数据爬取的最前线,在各种各样的反爬技术过程中突破自我,积累了丰富的实践经验。

目录

第一篇  基础知识
  第1章  Python环境搭建
    1.1  Python的安装
      1.1.1  Windows下Python的安装
      1.1.2  Mac OS X下Python的安装
      1.1.3  Linux下Python的安装
      1.1.4  安装pip工具
    1.2  虚拟环境Virtualeny
      1.2.1  Virtualeny的安装
      1.2.2  创建虚拟环境
      1.2.3  激活虚拟环境
      1.2.4  创建指定Python版本的虚拟环境
    1.3  选择合适的编辑器
      1.3.1  Vim
      1.3.2  Atom
      1.3.3  Sublime Text
      1.3.4  Notepad++
      1.3.5  Pycharm
  第2章  常用爬虫库Requests
    2.1  安装Requests
      2.1.1  用pip安装
      2.1.2  用github源码安装
      2.1.3  用curl安装
    2.2  了解Requests的功能
      2.2.1  使用GET和POST发送请求
      2.2.2  通过URL传递参数
      2.2.3  设置超时
      2.2.4  查看返回内容
      2.2.5  设置请求头
      2.2.6  更多复杂的Post请求
      2.2.7  返回对象状态码
      2.2.8  设置代理IP
    2.3  BeautifulSoup的安装和使用
      2.3.1  使用pip安装BeaultifulSoup
      2.3.2  使用BeautifulSoup定位元素
    2.4  初识自动化测试工具Selenium
      2.4.1  Selenium安装
      2.4.2  使用Selnium爬取网站
    2.5  Seleniurn定位元素
      2.5.1  通过属性定位
      2.5.2  通过XDath定位
    2.6  SeIenium反爬设置
      2.6.1  设置请求头
      2.6.2  设置代理IP
  第3章  常用爬虫框架Scrapy
    3.1  认识Scrapy
      3.1.1  scrapyl爬取quotes简单示例
      3.1.2  安装所需依赖包
      3.1.3  使用虚拟环境
    3.2  Scrapy shell的使用
      3.2.1  运行shell
      3.2.2  使用Scrapy shell爬取Scrapy.org
    3.23  爬虫调用shell
    3.3  使用Scrapy爬取quotes
      3.3.1  创建Scrapy项目并新建爬虫
      3.3.2  爬取和提取数据
      3.3.3  通过脚本运行Scrapy爬虫
      3.3.4  在同一进程下运行多个爬虫
      3.3.5  简易的分布式爬虫思路
      3.3.6  防止爬虫被ban
    3.4  setting基本配置
    3.5  Pipeline模块
第二篇  实战案例