
SRE
谈谈对 SRE 的理解
玻璃樽 发表了文章 • 0 个评论 • 1552 次浏览 • 2021-01-22 22:45
前言
在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。基于过往的技术研发和稳定性保障...
网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)
megrez 发表了文章 • 0 个评论 • 1358 次浏览 • 2020-11-15 21:48
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
使用3R原则来设计一个可靠的应用程序。
一文帮你理解整个SRE运维体系
翔宇 发表了文章 • 0 个评论 • 2744 次浏览 • 2020-08-26 21:11
SRE运维体系的构建和工作职责划分。
可观测性系统
在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:- 指标监控:即各种指标监控,比如...
一个小米SRE的日常工作
大卫 发表了文章 • 0 个评论 • 3079 次浏览 • 2019-03-08 18:11
【编者的话】本文主要介绍了小米SRE的日常工作及遇到的各方面问题和处理方法,值得借鉴。
1、日常巡检发现新扩容的一台Web转发服务器负载异常。比原来的稍高但仍然在正常范围内,but作为一个SRE是不能放过任何异常。
[attach]17698[/attach...
SRE vs DevOps:是敌是友?
yahoon 发表了文章 • 0 个评论 • 15004 次浏览 • 2018-06-05 23:14
【编者的话】网站可靠性工程(SRE)和DevOps是两个具有相当多重叠的热门学科。在过去,一些人认为SRE是与DevOps相竞争的一组实践。但我们不认为他们有那么大差别。
SRE是什么?它与DevOps有什么关系? 今年早些时候,我们([Liz Fong-J...
SRE在微服务中的角色
cleverlzc 发表了文章 • 0 个评论 • 4056 次浏览 • 2018-05-14 22:26
【编者的话】本文主要介绍了SRE与微服务的关系,以及SRE在微服务系统中应当如何扮演更好的角色,从而更好的改善系统的性能和提高运行效率,并且提升微服务系统的可靠性和可管理性。
你总是可以在技术领域找到热门的职位:它们一般是10年前不存在的。虽然站点可靠性工程...
云端的SRE发展与实践
李颖杰 发表了文章 • 0 个评论 • 3612 次浏览 • 2017-08-04 21:39
【编者的话】云是大势所趋,它能把很多底层的问题封装起来,让我们有更多精力去做更重要的事情。
***[【3 天烧脑式基于Docker的CI/CD实战训练营 | 北京站】本次培训围绕基于Docker的CI/CD实战展开,具体内容包括:持续集成与持续交付(CI/C...
DockOne微信分享(一一九):Elastic-Job-Cloud作业云在当当的SRE实践
gaohongtao 发表了文章 • 0 个评论 • 5252 次浏览 • 2017-05-16 21:27
【编者的话】本次分享面向对Mesos与SRE感兴趣的听众。随着容器技术在国内的持续流行,关注点已经由容器技术本身向运维方面逐渐过渡,Google一直安利的SRE经验正好契合了这个时代的运维节奏,由此契合SRE概念而衍生的Mesos,Kubernete服务也持续...
SRE/PE成长思考
尼古拉斯 发表了文章 • 0 个评论 • 4668 次浏览 • 2017-04-10 15:22
前言:自从发布上一篇文章《[互联网运维新时代](https://mp.weixin.qq.com/s%3F_ ... 0e...
面对大规模系统工程,看Facebook如何处理故障排查(一)
Dataman数人科技 发表了文章 • 0 个评论 • 3425 次浏览 • 2017-03-31 20:27
作者介绍:Ben Maurer是Facebook的网络基础团队的技术领先者,主要负责整个Facebook面向用户产品的性能和可靠性。Ben于2010年正式加入Facebook,基础设施团队的成员。在加入Facebook之前,他与Luis von Ahn共同创立...
谈谈对 SRE 的理解
玻璃樽 发表了文章 • 0 个评论 • 1552 次浏览 • 2021-01-22 22:45
前言
在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。基于过往的技术研发和稳定性保障...
网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)
megrez 发表了文章 • 0 个评论 • 1358 次浏览 • 2020-11-15 21:48
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
使用3R原则来设计一个可靠的应用程序。
一文帮你理解整个SRE运维体系
翔宇 发表了文章 • 0 个评论 • 2744 次浏览 • 2020-08-26 21:11
SRE运维体系的构建和工作职责划分。
可观测性系统
在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:- 指标监控:即各种指标监控,比如...
SRE vs DevOps:是敌是友?
yahoon 发表了文章 • 0 个评论 • 15004 次浏览 • 2018-06-05 23:14
【编者的话】网站可靠性工程(SRE)和DevOps是两个具有相当多重叠的热门学科。在过去,一些人认为SRE是与DevOps相竞争的一组实践。但我们不认为他们有那么大差别。
SRE是什么?它与DevOps有什么关系? 今年早些时候,我们([Liz Fong-J...
SRE在微服务中的角色
cleverlzc 发表了文章 • 0 个评论 • 4056 次浏览 • 2018-05-14 22:26
【编者的话】本文主要介绍了SRE与微服务的关系,以及SRE在微服务系统中应当如何扮演更好的角色,从而更好的改善系统的性能和提高运行效率,并且提升微服务系统的可靠性和可管理性。
你总是可以在技术领域找到热门的职位:它们一般是10年前不存在的。虽然站点可靠性工程...
云端的SRE发展与实践
李颖杰 发表了文章 • 0 个评论 • 3612 次浏览 • 2017-08-04 21:39
【编者的话】云是大势所趋,它能把很多底层的问题封装起来,让我们有更多精力去做更重要的事情。
***[【3 天烧脑式基于Docker的CI/CD实战训练营 | 北京站】本次培训围绕基于Docker的CI/CD实战展开,具体内容包括:持续集成与持续交付(CI/C...
DockOne微信分享(一一九):Elastic-Job-Cloud作业云在当当的SRE实践
gaohongtao 发表了文章 • 0 个评论 • 5252 次浏览 • 2017-05-16 21:27
【编者的话】本次分享面向对Mesos与SRE感兴趣的听众。随着容器技术在国内的持续流行,关注点已经由容器技术本身向运维方面逐渐过渡,Google一直安利的SRE经验正好契合了这个时代的运维节奏,由此契合SRE概念而衍生的Mesos,Kubernete服务也持续...
SRE/PE成长思考
尼古拉斯 发表了文章 • 0 个评论 • 4668 次浏览 • 2017-04-10 15:22
前言:自从发布上一篇文章《[互联网运维新时代](https://mp.weixin.qq.com/s%3F_ ... 0e...
DockOne微信分享(一零七):SRE工程实践——基于时间序列存储数据的报警
Dataman数人科技 发表了文章 • 0 个评论 • 7847 次浏览 • 2017-02-22 17:12
【编者的话】构建智能运维平台,运行监控和故障报警是两个绕不过去的重要部分。本次分享主要是介绍引入SRE理念后的基于时间序列数据存储的报警工程实践。
SRE报警介绍
今天我分享的主题是SRE基于时间序列数据的报警实践,既然是基于时间序列。首先,我先简单...
谈谈对 SRE 的理解
玻璃樽 发表了文章 • 0 个评论 • 1552 次浏览 • 2021-01-22 22:45
前言
在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。基于过往的技术研发和稳定性保障...
网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)
megrez 发表了文章 • 0 个评论 • 1358 次浏览 • 2020-11-15 21:48
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
使用3R原则来设计一个可靠的应用程序。
一文帮你理解整个SRE运维体系
翔宇 发表了文章 • 0 个评论 • 2744 次浏览 • 2020-08-26 21:11
SRE运维体系的构建和工作职责划分。
可观测性系统
在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:- 指标监控:即各种指标监控,比如...
一个小米SRE的日常工作
大卫 发表了文章 • 0 个评论 • 3079 次浏览 • 2019-03-08 18:11
【编者的话】本文主要介绍了小米SRE的日常工作及遇到的各方面问题和处理方法,值得借鉴。
1、日常巡检发现新扩容的一台Web转发服务器负载异常。比原来的稍高但仍然在正常范围内,but作为一个SRE是不能放过任何异常。
[attach]17698[/attach...
SRE vs DevOps:是敌是友?
yahoon 发表了文章 • 0 个评论 • 15004 次浏览 • 2018-06-05 23:14
【编者的话】网站可靠性工程(SRE)和DevOps是两个具有相当多重叠的热门学科。在过去,一些人认为SRE是与DevOps相竞争的一组实践。但我们不认为他们有那么大差别。
SRE是什么?它与DevOps有什么关系? 今年早些时候,我们([Liz Fong-J...
SRE在微服务中的角色
cleverlzc 发表了文章 • 0 个评论 • 4056 次浏览 • 2018-05-14 22:26
【编者的话】本文主要介绍了SRE与微服务的关系,以及SRE在微服务系统中应当如何扮演更好的角色,从而更好的改善系统的性能和提高运行效率,并且提升微服务系统的可靠性和可管理性。
你总是可以在技术领域找到热门的职位:它们一般是10年前不存在的。虽然站点可靠性工程...
云端的SRE发展与实践
李颖杰 发表了文章 • 0 个评论 • 3612 次浏览 • 2017-08-04 21:39
【编者的话】云是大势所趋,它能把很多底层的问题封装起来,让我们有更多精力去做更重要的事情。
***[【3 天烧脑式基于Docker的CI/CD实战训练营 | 北京站】本次培训围绕基于Docker的CI/CD实战展开,具体内容包括:持续集成与持续交付(CI/C...
DockOne微信分享(一一九):Elastic-Job-Cloud作业云在当当的SRE实践
gaohongtao 发表了文章 • 0 个评论 • 5252 次浏览 • 2017-05-16 21:27
【编者的话】本次分享面向对Mesos与SRE感兴趣的听众。随着容器技术在国内的持续流行,关注点已经由容器技术本身向运维方面逐渐过渡,Google一直安利的SRE经验正好契合了这个时代的运维节奏,由此契合SRE概念而衍生的Mesos,Kubernete服务也持续...
SRE/PE成长思考
尼古拉斯 发表了文章 • 0 个评论 • 4668 次浏览 • 2017-04-10 15:22
前言:自从发布上一篇文章《[互联网运维新时代](https://mp.weixin.qq.com/s%3F_ ... 0e...
面对大规模系统工程,看Facebook如何处理故障排查(一)
Dataman数人科技 发表了文章 • 0 个评论 • 3425 次浏览 • 2017-03-31 20:27
作者介绍:Ben Maurer是Facebook的网络基础团队的技术领先者,主要负责整个Facebook面向用户产品的性能和可靠性。Ben于2010年正式加入Facebook,基础设施团队的成员。在加入Facebook之前,他与Luis von Ahn共同创立...