全部商品分类

您现在的位置: 全部商品分类 > 电子电脑 > 计算机技术 > 计算机网络

SRE生存指南(系统中断响应与正常运行时间最大化)

  • 定价: ¥79
  • ISBN:9787121371769
  • 开 本:16开 平装
  •  
  • 折扣:
  • 出版社:电子工业
  • 页数:226页
  • 作者:(美)纳特·韦尔奇...
  • 立即节省:
  • 2019-10-01 第1版
  • 2019-10-01 第1次印刷
我要买:
点击放图片

导语

  

内容提要

  

    站点可靠性工程(Site Reliability Engineering,简称SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深入浅出地介绍了关于SRE的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。
    本书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。

目录

1  简介
  SRE简史
  SRE是什么
  关于这本书
  以SRE作为新项目的框架
  小结
2  监控
  为什么要监控
  检测应用程序
    度量什么
    SLIs、SLOs和错误预算简介
    错误预算
  收集和保存监控数据
    轮询应用程序
    推送应用程序
  展示监控信息
    任意查询
    图表
    仪表板
    聊天机器人
  管理和维护监控数据
  沟通
    他们知道有监控吗
  小结
  参考资料
3  事故响应
  什么是事故
  什么是事故响应
  警报
    什么时候发起警报
    怎么发出警报
    向谁发出警报
  随时待命
  沟通
    事故指挥系统
    在哪里沟通
  恢复系统
  警报解除
  小结
4  事后回顾
  什么是事后回顾
  为什么写事后回顾报告
  何时写事后回顾报告
  开展事故分析
  如何写事后回顾报告
    总结
    影响
    时间
    根本原因
    行动项
    附录
  停止事后指责
  举行事后回顾会议
  分析以往的事后回顾报告
    MTTR与MTBF
    警报疲劳
    讨论过去的服务中断
  小结
  参考资料
5  测试和发布
  测试
    测试内容
  发布
    何时发布
    回滚
  自动化
    持续
  小结
6  容量规划
  企业财务简介
  为什么需要规划
    风险管理与期望管理
  定义一个规划
    当前的容量是多少
    何时达到容量极限
    应该如何更改容量
    执行规划
  架构——性能变化的根源
  技术作为利润中心和采购
  小结
7  构建工具
  寻找项目
  定义项目
    RDD
    设计文档
  项目计划
    例子
    回顾会与站会
    工作分配
  构建项目
    关于编写代码的建议
    关注点分离
    长期工作
    笔记本
  文档与维护项目
  小结
8  用户体验
  设计和用户体验简介
    现实世界的交互设计
  用户测试
    挑选一种体验
    设计测试
    寻找要测试的人
  开发者体验
  工具经验
  绩效预算
  安全性
    身份认证
    授权
    风险概况
    网络钓鱼
  ACM道德准则
  小结
  参考资料
9  网络基础
  互联网
  发送一个HTTP请求
    DNS
    以太网和TCP/IP
    HTTP
    curl与wget
  网络监控工具
    netstat
    nc
    tcpdump
  小结
  参考资料
10  Linux和云基础
  Linux基础
    一切皆是文件
    进程是什么
    syscalls
    构建自己的工具
  云基础
    虚拟机
    容器
    负载均衡
    自动伸缩
    存储
    队列与发布/订阅
  伸缩单元
  架构面试示例
  小结
  参考资料