理论+实战，为系统可靠性保驾护航

翁一磊观测云产品技术总监

当下 BAT、美团、字节跳动等一线大厂都在加速推进业务的容器化、云原生化。关注我的朋友，或多或少都跟云计算、容器、Kubernetes、云原生应用有过接触。

在这样的背景之下，很多问题成了开发、测试、运维同学的家常便饭：

1、某个新版本发布上线之后，发现主机的 CPU 使用率持续飙高，但不知道根本原因在哪，只能根据过往的经验一一排查；
2、新版本上线之后，很难判断功能是不是完全正常，只能等着用户找客服投诉之后，才知道哪个模块出现了报错；
3、基础设施方面，通过监控搞了一大堆稀奇古怪的仪表盘，看着花花绿绿一大片，可是又不能反映出业务的真实情况，也不能跟随业务的变化而灵活调整。
局面混乱，效率又不高。可以说，监控，被架到了一个不得不革自己命的位置。而可观测性（Observability）就是解决这些问题的关键。

可观测性适用于任何关心代码在生产环境中的运行质量的人。它可以监测和解决生产系统中复杂而新颖的问题。具体到岗位上：

可观测性能够架起开发人员和运维人员构建合作的桥梁：运维人员使用它来发现问题，给故障现场提供足够的数据让开发人员进行分析，而开发人员可以使用它来指导运维人员定位问题，并使用工具来质疑和验证假设。

此外，测试、DevOps 工程师、SRE 工程师等角色都可以了解和学习可观测性，以此提高产品质量和服务可靠性。
如何学习可观测性？

虽说，可观测性是云原生一个绕不开的话题，但是可观测性到底指的是什么？效果又是否真的能达到预期？到底是自建可观测性平台还是直接购买比较好？如何搭建可观测平台？……
网上关于上面的疑惑的解答很多，但资料非常驳杂，没有真正成体系化的知识。繁杂的数据中快速提炼有用的数据，高效解决可观测性的问题，是非常难的。在这里给大家推荐观测云的产品技术总监翁一磊总结的「可观测性学习路径」：
图片
上图内容来自，他在极客时间开设的新专栏《深入浅出可观测性》。专栏系统性地梳理可观测性的知识点，讲解了时下最热门的可观测性规范、产品和话题。而且，课程不止步于理论，而是从理论到实践，带领大家从 0 到 1 搭建起可观测平台。

为什么说翁一磊能讲好可观测性？

翁一磊，观测云的产品技术总监，主要负责售前技术和客户服务工作。他曾经就职于微软、HP、Dell EMC 等外企，从最初的技术支持，到售前以及项目交付，再到解决方案集成与验证，相关的工作可以说是做了一圈。

近几年的观察让他意识到，很多时候人们只是把原来传统的监控换了一个壳子，变成了可观测性。正所谓新瓶装旧酒，但其实这并不是真正意义上的可观测性。而为了矫正这种观点，看清可观测性的本质和价值，他结合自己在这一领域多年的经验和思考，带你直抵可观测性的内核，合理、高效地部署可观测平台。

这门专栏是如何设计的？

在这个可观测性的课程中，他会从下面几个方面为你展开讲解：

概念篇：首先带你理一理监控的发展历程。接着，他会详细解读可观测性相关的基本概念，包括你可能经常听到的可观测性三支柱。之后带你一起辨析可观测性和传统监控的区别。

基础篇：他会首先介绍一下 OpenTelemetry ，这是目前可观测领域非常成熟和热门的标准和规范，在此基础上，带你进一步了解如何实现和建立非某个供应商锁定的可观测性。接下来，还会给你分析购买或自己搭建可观测性的利弊，拥有全局观念，在有需求的时候理智下判断。

实战篇：这部分是专栏的重头戏，毕竟可观测性最重要的目标，就是保障系统和应用的服务可靠性。这个模块，会讲到团队协作，可观测驱动的开发，建立、跟踪SLO等话题，然后他会选取微服务架构的系统，带你搭建起这个系统的可观测性，让你在动手操练的过程中更好地掌握可观测性，并能够通过可观测性来分析和解决问题。

总结与展望篇：讲述如何构建可观测性的文化和框架，让你了解在企业中推广可观测性需要优先考虑的关键能力。还会给你介绍可观测性未来的发展趋势。

接下来，我们通过目录来看看具体内容吧：