随着各行各业数字化转型的持续推进,以及信息化建设的不断深入,IT系统规模及复杂程度日趋增长。据IDC预测,2021年中国金融行业IT支出规模(包括:软件、硬件、IT服务等)达到2186.02亿元,到2025年将达到3359.36亿元。伴随着IT资源越来越丰富,监控数据量亦呈现出指数级增长态势,导致管理复杂度越来越高,智能运维需求随之加大。
互联网时代,各种各样的行为信息、状态信息、指标信息等都会以日志、指标、事件等形态记录存储下来,通常情况下,这些机器数据零散地分布在各个业务系统上,对其进行价值挖掘的难度较大。就金融业来讲,所有业务场景,数据作为各项业务活动的重要载体,以电子化的形态存储于海量运维数据之中,其价值不可估量。这些数据既包括了系统层面有关资源消耗的性能特征,还包括业务层面事关客户、账户的交易明细日志。
智能运维作为支撑金融机构数字化业务稳定持续运行的关键手段,在未来发展前景广阔。一方面,随着金融科技应用的持续深入,企业数据规模陡增,传统流程化管理的瓶颈不断凸显。日益增长的数据体量下,传统的运维手段已难以满足金融机构愈加复杂的业务监控和安全管理需求;另一方面,通过智能运维手段,金融机构能有效监控不同运维场景中的运维资源,并能通过大数据分析(Big Data Analytics)和人工智能(AI)等技术应用及时实现运维全生命周期的智能化管理,从而保障系统稳定性和业务连续性,这也是金融机构可持续发展的基础。
智能运维在金融领域应用已成刚需,银行、保险、证券等金融机构正加速建设智能运维体系,基于数据、利用算法、采用可观测性技术辅助运维成为当前金融及各行业的共识。将自动化运维、智能化运维的新技术与数据管理结合起来,势必要考虑到金融业机器数据分析面临的一些共性问题。
金融行业面临的运维难题与挑战
► 海量数据——难管理
IT环境中包括网络设备、安全设备、服务器、虚拟机、中间件、服务、业务系统等,从底层硬件到上层软件每时每刻都在产生数据,每天各类日志、告警、指标的数据可达几十TB,随着时间的推移,势必沉淀海量的数据。这些数据里蕴藏着大量关键信息,比如业务的交易日志,服务器指标信息,系统事件、异常告警等,这些数据是发现问题和定位故障的依据,如何保存海量数据,如何分析海量的数据,如何从海量的数据中找寻故障的根因是IT运维长期面临的问题。
► 数据分散——难统一
虽然目前大部分金融单位已有网络监控平台、日志管理平台、Zabbix、Prometheus等运维管理相关工具,但某个工具往往只专注某类特定数据或者某一场景。IT环境下分析定位问题往往需要多个工具配合,造成了使用不便,更重要的是造成日志数据、事件数据、指标数据、告警数据等多类运维数据分散存储,形成了数据孤岛,无法进行数据关联分析和统一展示。
► 数据多类——难分析
日志、事件、指标等运维数据,往往以文本(字符串)格式出现,没有固定格式,因厂商不同而各异,多属于非结构化数据。这些数据无法直接分析,甚至难以读懂,对运维人员来说无疑是非常大的挑战。随着人工智能技术的兴起,将AI运用于运维,使用算法来分析,代替人做出决策已然成为趋势,它能帮助企业快速洞察人力难以企及的故障和问题,准确预测风险,化被动运维为主动运维。但目前大部分的运维平台以监控为主,仅提供查询、展示和告警的功能,分析能力薄弱,更不具备智能算法的能力。其本质还是依赖于人工观察、分析和定位问题,要求运维人员具有丰富的运维经验和较高的技术能力。
► 故障排查——难定位
IT系统庞大而复杂,为了完成一个确定的任务,需要多个系统或服务之间的相互调用,故障发生时,许多系统或服务可能会同时产生告警。传统的监控运维平台以图表形式展示监控数据,仅仅只能反映某一类或某一种数据的异常,是以单一的数据视角来呈现问题,犹如盲人摸象,只能窥见局部,难以全面的观测整个业务系统的健康状态。这导致对于多层次的系统架构的故障定位愈发困难。在大面积故障中找到存在于多系统架构内的故障根本原因往往需要多部门,多位运维专家同时配合,逐个排查。期间耗时耗力,严重影响了业务体验。
秒云助力海富通基金破解运维难题
海富通基金管理有限公司成立于2003年4月,是中国首批获准成立的中外合资基金管理公司。截至2021年9月30日,海富通共管理89只公募基金,海富通管理的公募基金资产规模约1380亿元人民币。
同大多数金融行业类似,海富通基金运维同样面临海量、分散的运维数据,造成分析定位故障难的问题。在日常的运维中,经常出现这样的场景:业务出现故障时,需要登录网络设备排查网络设备问题;登录安全设备排除是否收到外部攻击;登录服务器,排查操作系统问题;搜索中间件、业务系统日志,查看是否有error、warning、exception等异常。这样逐一排查,对运维人员的的技术要求非常高,也需要多人的配合,定位时间长、投入成本高,严重影响了业务体验。
秒云金融行业解决方案介绍
为解决金融行业在运维过程中面临的上述问题,秒云从三个方面和层次入手:
首先建设统一的大数据运维平台,采集全量的日志、指标、告警、事件等运维数据,解决数据分散,数据孤岛的问题,为后续的数据分析和数据展示提供基础。
**其次,以数据平台为基础,集成有监督、无监督、半监督的机器学习算法。**根据运维常见问题,将算法运用于日常的运维场景中,如动态阈值告警、告警收敛、指标分析、告警关联分析、智能异常日志检测、根因定位等,构建开箱即用的运维场景算法分析平台。
最后,分析结果需要呈现出来,解决观察难的问题,方案围绕业务系统拓扑图,展示系统各组件的拓扑关系,展示和应用系统相关的日志、事件、指标、告警等数据,以业务的视角做运维,让业务运行状态具有可观测性。在全景的业务运维视图上观察、发现、探索、定位故障。
秒云基于海富通基金的运维现状和发展需求,为其提供的方案大致可归为三部分内容:
首先建设统一的运维数据平台,采集路由器、防火墙、VPN服务器、Linux服务器、Windows服务器、业务系统的日志、指标、事件等运维数据,为用户提供运维数据查询平台,解决数据分散,定位问题时登录多套系统的问题。
其次以可视化方式展示对VPN日志、Windows事件、防火墙事件、主机指标的分析效果。包括:VPN目的地址TOP10统计、VPN源地址TOP10统计、Windows登录分析、安全事件分类占比统计、攻击者排名、异常事件趋势等,以图形化方式展现数据中蕴含的信息,让用户从看数据转变为看图形。
最后以“海富通APP”、“基金超市”、“专户理财”等业务的视角构建业务拓扑图,在拓扑图上呈现和业务相关的组件、数据以及分析结果,标记有故障的组件,直观展示业务故障点。
秒云金融行业解决方案亮点
通过引入自动化等管理技术手段,实现对各类业务对象运维数据的统一查询和管理,解决了数据孤岛问题;通过机器学习算法,对各类分散的数据进行统一分析和统一展示,让用户在一个平台观测、发现和定位问题,极大降低了运维的技术难度和运维投入成本,提升了运维效率。