差不多在两年前,阿里内部出现了很多运维中台、研发中台等等,那有没有后台呢?不好意思,我们只有中台,没有后台,会在中台上构建与业务相关的各个前台。目前阿里的业务几乎覆盖了所有行业,有着很多业务线,如果业务线的前台到中台全部都是我们自己去建设,会造成一个巨大的浪费。我们需要去构建整个集团、或是阿里巴巴经济体所需要的统一的平台,避免重复性的建设。


最近我们在思考运维的本质到底是什么,就突然联想到一部名叫《太空旅客》的电影。电影里的飞船装了5000个乘客和大约50多个机组人员,从地球飞往其他星球要飞120年。这意味着整艘飞船必须是无人驾驶的,因为没有人可以活120年,靠人去操控这样一艘飞船根本不可能。所以飞船里有一套运维系统,也就是靠这套系统的运作,整艘飞船才可以飞120年不出故障。


这和我们现在做的运维系统是一样的。我认为运维的本质就是在线,即如何让这种在线的业务能持续不断地运行,满足客户的需求。如果把业务比作一艘飞船,你能否让飞船持续运行?遇到了任何故障或问题时能否自动解决?我觉得这就是运维的作用——稳定性。


而随着业务复杂度越来越高,已经没有办法靠人来运维整个平台和业务了。可以试想,如果要靠人,那需要投入多少人力?当发生问题时,我们人为地去感知问题后排查问题、定位问题,这时业务可能已经挂了很长时间。所以这也是我今天想跟大家分享的,我们基于对运维的理解构建起的智能化运维平台。

阿里运维历程




阿里的运维和很多公司有相似之处,也经历了四个阶段:

*
使用命令行工具运维;

*
系统化工具运维;

*
自动化平台;

*
智能化平台与无人值守实践。



按照上图这个层次,我们把运维的工作进行划分。对于双十一这样大型的活动,承载这么大的流量就必须要有很多资源。我们每年在准备资源的过程中会花大量的人力和资源,并且持续时间长,大概需要提前半年准备。而在近几年,阿里云发展起来了,等到更加成熟了就会把这个业务往云上搬。我们会先把机器买进来,把阿里云的整个基础设施装起来后,就把阿里的所有电商业务部署到它上面。等双十一结束后,有很多业务其实不需要用那么多机器,我们就把这些资源重新做一个格式化,再还给阿里云,由阿里云做另外的售卖。这也是为什么阿里会做阿里云的原因。因为这种大促的时间比较短,但特别耗资源,且需要大量的运维人员和工程师,所以我们会在资源这个层面做大量工作。

原文链接 <https://yq.aliyun.com/articles/599229?utm_content=m_1000000205>

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:[email protected]
QQ群:637538335
关注微信