文 / 光大证券股份有限公司  晏强 杨超 刘嵩 吴昊

高效、灵敏、精准的运维管理体系建设是业务系统稳定运行、业务模式快速迭代的重要保障。光大证券本着科技赋能金融,智慧引领未来的发展理念,持续在IT技术领域加大自主研发投入,稳步增强金融业科技应用能力,高效发挥运维管理体系对业务的支持能力,进一步实现科技与业务的深度融合、协调发展,为业务创新、运维效率提高以及风险管控提供强大的助力。

网络运维工作是公司运维系统中最基础也是最重要的环节。如果网络系统无法高效稳定的运行,那么建设一流业务系统、为客户提供优质服务将成为一纸空谈。可以说,网络运维工作的效率与结果直接制约着业务的敏捷性与安全性,是光大证券运维体系建设中必须关注的重点。

智能安全多平台网络联动管理系统部署与应用实践

1.网络运维中亟需解决的问题

随着业务的快速发展,传统的网络运维方式已无法迅速有效地满足不同类型业务对于网络的差异化需求。并且随着网络规模的逐年扩张,网络设备的种类以及数量的增长不仅对网管系统和网络运维人员带来了较大的压力与挑战,同时也凸显了一些亟需解决的问题。

首先,网络策略开通工作量较大,且策略管理难度较高。光大证券现有数十台防火墙,策略数量超过万条,相关的配置工作全部由网络运维人员手动编写,策略变更较频繁,日变更工作量较大。2020年全年变更流程达3000条以上,平均每周变更在几十条。策略变更工作量占网络运维整体工作量的35%以上。防火墙之间的网络访问策略关联性较高,配置复杂,随着变更工作量迅速增加,现行的人工模式势必无法满足未来的需求。同时网络安全等级保护2.0(以下简称等保2.0)中对控制策略集中化与精细化管理有着明确的要求。我司网络策略数量大、变更较多,以及风险评估与审核工作难度较大。

其次,设备种类多,没有统一管理平台,效率难以提升。光大证券网络中部署有四种品牌的防火墙,三种品牌的负载均衡设备以及两种品牌的交换机和路由器设备,且相似的命令格式给网络运维人员在修改配置时增加难度。在处理较为复杂,涉及设备较多的变更流程时,运维人员需要花费较多时间登陆多台设备。并且为确保配置的正确性,运维人员需在不同设备之间频繁切换以校验信息,影响变更效率。

第三,网络拓扑蓝图展示及实时故障排查有待完善。网络运维人员虽然有完整的网络拓扑图,但是为静态图形,各种标注信息较为简练,当监控系统产生报警时,运维人员需要根据自己的经验以及对网络的熟练掌握程度来进行排障工作。随着业务的拓展和新的网络区域建设,网络拓扑日趋复杂,并且由于某些业务的特殊需求,部分区域的网络结构进行了针对性的调整,防火墙、交换机或路由器设备做过特别功能配置。简单的注释已无法准确描述网络现状,仅凭运维人员记忆较易出现偏差。亟需一套系统能在告警产生时迅速展示故障点以便运维人员高效排查。

针对上述问题,光大证券联合光大科技共同开发部署了智能安全多平台网络联动管理系统(以下简称网络联动管理系统)。该系统以智能运维为切入点,在解决上述问题的同时,拓宽运维思路,改进运维方法,体现了网络运维的集中化、自动化、服务化和系统化的管理思路。

2.系统特性

该系统为分层模块化设计,解耦了模块之间的依赖,支持各模块独立部署,提升了系统的扩展能力和可维护性,减少了部署和升级的风险。基本架构如下图所示。

图 网络联动管理系统架构

系统采用微服务架构设计,可以做到灵活的拆分各模块,便于扩展系统功能。结合敏捷开发管理,系统可以高效率快速迭代,模块变更影响范围可以得到有效的控制。前后端分离设计,既增强前端的易维护性和减少部署风险,又可以将后端模块分离独自集群部署,并支持横向扩展,提升系统并行处理能力。

3.系统部署过程

防火墙在光大证券网络中有着广泛的使用,它作为安全设备是整个公司网络安全的第一道屏障。在网络运维中有着重要的地位。防火墙策略的开通也占用了整个网络运维工作近35%的工作量。由于对防火墙进行了异构性设计、行业经验案例等,不同区域特性引入了不同厂商的防火墙,这些防火墙有不同的使用方式和特点,增加了运维难度。光大证券以防火墙策略自动开通为切入点,先对现网八十余台防火墙设备进行了适配工作,实现了防火墙策略自动下发,提高了策略交付效率;又针对交换机和路由器设备进行了适配性开发,使系统能够对其配置进行解析和修改;最后对负载均衡设备进行纳管。自此基本实现了网络设备的集中化管理。

4.实际运维中实现的效果

首先,网络配置自动化。通过网络联动管理系统,光大证券实现了交换机换和路由器配置自动化、防火墙配置自动化以及负载均衡设备配置自动化,基本完成了全网设备的自动化统一管理。系统能够根据业务请求,自动计算策略相关设备,并生成配置脚本,待管理员批准后下发。下发完成后,系统还会进行二次校验以确认配置是否下发成功。系统内部的自动化以及多重验证机制杜绝了人为失误,突破了传统网络变更周期长的瓶颈,大幅度提高了策略变更的交付效率。

其次,策略管理集中化、精细化。等保2.0针对防火墙策略管理明确提出了集中化和精细化的要求。由于不同厂商设备的配置语法不同,且策略条目众多,几乎不可能人工完成分析。网络联动管理系统实现了对不同设备命令语法的支持,屏蔽设备的差异性。通过先进的分析算法,高效准确的识别每条策略,最终形成标准化的数据存入数据库。在每次变更操作前系统自动分析设备最新配置,计算可复用的元素、可复用的策略、可复用的NAT、新建策略的插入位置等,根据条件进行脚本的灵活创建,确保新策略开通精准有效。

第三,故障应对场景化。随着网络结构的复杂化,实现业务系统在网络层面的高可用性变得愈发困难。仅靠网络设备本身的高可用性机制(例如:主备、VRRP、vPC、动态路由等)虽然可以应对较为简单的故障场景(例如:链路故障、设备故障等),但当面对多重故障并发的情况就显得捉襟见肘,网络联动管理系统通过场景化编排解决这一问题。针对重要核心业务的实际部署情况进行复杂网络故障场景推演,并提炼出1~2组行之有效的解决方案部署于网络联动管理系统,使系统按场景动态完成网络变更需求,保证业务系统平稳切换。

第四,网络路径可视化。通过将网络策略、服务器IP地址以及业务系统名称相结合,准确掌握业务从哪里来,到哪里去,走哪条路。网络联动管理系统首先根据设备的连接数据完成物理层的组网拓扑计算,结合可视化技术完成设备的按区域可视化拓扑展示,再通过平台中已采集的路由、接口、策略、NAT等信息完成逻辑拓扑的分析,通过结合物理拓扑与逻辑拓扑完成网络通达性验证,直观的显示出当前网络真实可达路径。拓扑结构与业务请求数据结合,绘制出业务在网络中的流转路径。路径中经过了哪些设备,以及相关的接口信息、放行策略、转换NAT信息等都可在路径可视化结构中体现。

此外,我们正在开发一些功能:(1)与其他网络管理系统的数据对接。公司已经部署有网络运维管理平台、IP地址管理系统,以及CMDB。这些系统经过多年的功能优化和运维升级,早已具备较完整的现网设备数据信息、IP地址相关信息以及设备日志处理和分析能力。本着物尽其用、提高效率的原则,新建的网络联动管理系统无需再对已有功能和信息进行重复部署或收集。可直接从以上系统中获取相关信息并加以整合,用于自身功能的提升与优化。(2)智能化策略补全。网络联动管理系统根据流程单中写明的需求来进行策略的调整。运维人员在提请流程单时难免会有遗漏或错误,当发现系统无法正常上线时,需要经过排查才能找出问题点,然后再补提策略流程单,造成时间上的浪费。通过长期的运维实践发现,一些重要业务系统的IP地址、策略端口是有规律的。可通过流程单中涉及的系统名称,自动检测策略IP和端口是否全面。对于可能有问题的流程单进行提示。

未来展望

智能安全多平台网络联动管理系统的部署使运维人员具备了对网络相关设备进行统筹规划和统一管理的能力,极大的提高了工作效率及安全合规能力、降低了运维风险,使整个网络系统始终处于安全可控状态。

除此之外,网络联动管理系统还将探索通过算法对网络进行管控,通过人工智能分析,实现网络流量预测、通信质量预测、故障预警,力争提前感知并降低问题发生的风险。

声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表士冗科技立场,转载目的在于传递更多信息。如有侵权,请联系 service@expshell.com。