数据是我们分析问题的依据,算法是我们分析问题的手段,如果没有数据和算法,智能运维只能是空中楼阁。在秒云智能运维新版本MYLI v21.12中,秒云围绕业务来观察、分析、发现故障,寻找故障的根本原因,基于数据和算法的基础,以业务的视角出发,着力于解决客户业务运维中存在的故障根因难分辨、排查问题难定位、处理效率低、风险难预测等难题,做到更契合用户实际运维需求,真正做到帮助用户“一秒入云,一键智维”。 那么新版本有哪些变化?又给我们带来了哪些革新?下面的内容干货满满!
►►►内容摘要
-
全景运维关系视图,让业务更具可观测性
-
根因推导算法,快速排查定位业务故障原因
-
串联搜索,一键分析关联日志
-
更丰富的指标分析方法,深度挖掘业务数据异常
全景运维关系视图,让业务运维更具可观测性
IT环境中有成百上千的服务器、虚拟机、网络设备、安全设备、微服务、中间件、pod等,秒云将这些IT基础设施和上层业务功能组件通称为运维对象。在IT环境中运维对象不是独立的个体,它们的存在都是服务于用户的业务,它们因为业务而彼此存在某种关联关系。以业务的维度构建运维对象的关联关系,从业务的视角看运维是秒云新版本所倡导的理念。
关系视图功能既是这一理念的关键功能点。 应用关系视图功能,通过对接外部CMDB和手工调整,运维人员可以轻松绘制业务的逻辑关系视图和物理关系视图,反应业务与业务之间、业务与组件之间、业务与微服务之间的访问关系、依赖关系、从属关系等,反应软件服务组件运行在哪台虚拟机或哪台硬件服务器上、亦或业务访问经过了哪些网络设备、安全设备。点击图中运维对象,运维人员能够查看对象中和该业务相关的指标、事件、日志以及统计分析图表、预测趋势等。
Time Machine(时光机)功能甚至可查看任意时间段的数据和图表,捕捉故障时刻的蛛丝马迹,帮助用户定位分析问题。最终,系统根据运维对象中告警、事件、指标等信息从健康度和安全两方面为业务评分,让运维人员更直观把控业务状况,在一张全景运维关系视图中洞悉业务内部运行状态,让业务运维具有可观测性。
业务的全景运维关系视图是秒云的顶层展现逻辑,所有的数据、一切的分析方法和算法都围绕业务视图展开,下面让我们来看看围绕业务,秒云新版本带来了哪些新的分析方法。
根因推导算法,快速排查定位业务故障原因
根因定位是智能运维(AIOps)一个重要且难于实现的领域,涉及到关联分析、归纳分析、演绎推理的相互结合,是从大数定理到逻辑性完备链条推理的综合应用。这里我们要讲的是演绎推理,即根因推导。传统的根因推导过程是运维工程师通过对软件架构和调用关系的理解将异常发生时的告警、日志等信息联系在一起,应用运维知识经验来排查推导异常根因,相当于在大脑中存储和训练了一张知识图谱。其中最大的挑战在于,运维工程师的知识经验存在差异而且往往仅精通本领域知识,同时人脑存储的信息量也相对有限。
秒云新发布的根因推导算法,以故障告警为起点,依赖业务的全景运维关系视图构建的业务逻辑关系和物理关系信息,逐步分析推导和故障相关联的运维对象的指标、事件、日志等信息是否有异常,标注有异常的运维对象,直观展示,一目了然。 并围绕视图,引导用户逐一排查,定位故障的根本原因。相比于传统的方式,秒云的根因推导应用图形数据库,可以针对每个告警创建一个覆盖多业务及基础架构的专业图谱,沉淀运维知识进行因果推导。基于图数据库的知识图谱更利于开发维护,并且具备结合机器学习实现复杂推理和新知识发现的扩展性,可视化的推导链路也具有较好的可解释性易于复盘和优化。说到底,秒云的根因推导,能够降低运维的技术门槛,快速排查定位业务故障的根本原因。
图1 告警触发根因推导
图2 内部推导逻辑
串联搜索,一键分析关联日志
客户的业务往往不是由单一的组件或者服务组成,如手机银行业务,从访问前端,到经过api代理,再到ESB,再到某个服务,再到数据库,最后再返回,其间经过了N个组件,每经过一个组件都会产生相应的日志。如果访问某项业务出故障,在排查问题时,往往需要将一次访问所经过的所有组件产生的日志都查找出来,看是哪个组件日志出现故障。最原始的方式,运维人员可能登陆N个系统,经过N次搜索,来还原日志链条,这种方法耗时耗力。如果已经使用了日志管理系统,情况也好不到哪儿去,因为不可能通过一个搜索条件把一次访问所经过的所有组件的日志都搜索出来,实际操作方法是先搜索到第一个组件日志,再以搜索的结果作为第二个组件的搜索条件,搜索到第二个组件的日志,以此类推,进行N次搜索。
秒云串联搜索的原理既是将上一次的搜索结果作为下一次搜索的条件,依次串联起日志链条。对于用户来说,只需要输入初始条件,一次搜索,在一个页面上展示所有日志,哪个模块出问题了,一目了然。 不仅大大降低了排查问题的难度,更缩短了定位问题的时间。在版本测试时,我们对比传统方式和秒云的串联搜索,传统方式消耗1.5小时,秒云串联搜索几乎是秒级返回结果。
更丰富的指标分析方法,深度挖掘业务数据异常
指标反应了业务运行状态,是发现问题和定位问题的重要依据。在之前的版本中,我们对指标进行统计分析、规律学习、趋势预测,在新版本中,秒云支持对指标进行同比分析、环比分析、聚合分析。如果同环比增长或者降低达到设定的阈值则认为指标存在异常,和指标相关联的运维对象在关系视图中被显示为红色,提示运维人员数据存在异常。
►►►更多更新
除此之外,MYLI v21.12版本还支持:
► 高级暗黑风格,适用于大屏展示。
► 数据解析引擎支持计算时间差,用于发现设备时钟不同步问题。
► 优化数据解析引导界面,让用户根据唯一路径添加转换、清洗数据的规则。让用户配置更清晰。
► 安装数据采集代理支持容错机制,引导用户根据不同的操作系统使用dpkg,rpm,zip等不同的安装包,代理安装更容易。
看到这,你是不是已经跃跃欲试了呢,欢迎联系我们下载试用!
关于秒云
MiaoYun秒云(成都元来云志科技有限公司)于2019年成立, 是国内首家专注于云原生运维的公司,总部位于成都,在西安、上海、北京、南京分别设有研发中心和营销中心。秒云产品定位于云原生一体化智能管运平台,最大化降低企业在云原生环境上的运维投入,让企业能够更专注于自身应用的开发和交付。
秒云一体化的解决了云原生环境设备适配、多集群、多云等问题,让企业各分支环境也可以轻松统一运维!在K8s生态成为企业云原生系统常态化的时代,帮助企业统一管理、智能运维、快速构建分散的云原生系统环境,提升多个云原生统一管理性、易用性和可观测性。
秒云针对中国企业进行了深度定制,全面适配信创体系,支持国产化设备和x86 “一云七芯”的混合部署场景。自成立以来,凭借过硬的产品实力,已成功应用于电力、运营商、教育、金融、工业制造、政府、公安等多个行业标杆企业。