今年,中证协下发了《证券公司网络和信息安全三年提升计划》 征求意见稿 (详见 https://www.doc88.com/p-40959715591002.html ) ,提出33项重点工作 ,与运维直接相关的有6项工作。这6 项工作要求与我对行业运维重点工作十分相似,可以看出是身处一线运维工作专家编写而成,值得细细品读。本篇是对第1项的“加强系统上下线管理”作的个人解读。
变更管理通常会划分为重要变更、一般变更、简易变更等类型,其中新系统、重要模块/组件上下线、重大业务逻辑变更、重大基础设施变更归属于重要变更。指导意见中将新系统上线与下线从变更管理中单独提出来,加以强调,突显对这两个环节的重视程度。
新系统上线是从0到1的过程,具体的工作通常包括:上线准备工作、制定技术方案、评估测试管控、上线文档准备、风险评估、安全保障措施、运维监控准备、上线过程协同、上线发布、系统验收、上线试运行等。
新系统上线给企业带来机会与挑战。一方面,作为项目重要里程碑,新系统将为企业业务发展或运营管理助力,通常业务需求方会投入大量精力在上线后的运营推广工作,以期望更好地给业务及客户带来价值;另一方面,新系统上线带来众多的不确定性因素,需要对不确性因素进行管理,不确定性包括:新业务流程的合规性、数据安全、隐私安全等问题;新业务对现有上下游系统在业务及性能层面的影响;新系统在设计上是否满足业务活动的性能、容量要求;配套的稳定性相关的监控、日志、应急、数据备份等非功能性需求是否就绪;功能已知缺陷的影响是否评估;发布上线、环境部署、下线方案是否就绪;对系统业务运行情况的观测能力等。
对于运维组织,通过聚焦上线阶段,做好运维工作左移,提前做好资源交付能力建设提高系统上线速度,利用运维平台能力建设帮助业务研发专注业务逻辑,提前参与到架构及非功能性需求的研发与验收,能够让系统上线后融入平台化管理模式。
相应的,系统下线需要评估对存量业务开展、系统运行、数据安全等影响,以及围绕成本上资源释放的管理,通常的退出工作包括:
指导意见中,围绕系统上下线的风险,我归纳为4点提升:系统业务的风险评估、可运维性的准入评估、上线后的专项运行保障、下线技术保障方案。下面从这四点做个简要梳理。
指导意见的描述是 “ 组织对重要信息系统上线的业务流程合规性、权限设置清晰度、对其它业务的影响、测试遗留问题对系统上线后的影响等方面进行全面评估。 ”
指导意见首先强调了业务风险,即基于业务流程产生的影响,从新系统自身的业务风险与对存量业务流程的影响。在加强风险评估工作上,可以考虑加强:
针对上述业务风险的评估工作,运维可能考虑推动以下工作:
指导意见的描述是“ 对重要信息系统的备份能力要求、信息安全防护措施、测试报告、验收报告、风险评估报告、应急预案、系统运维非功能需求以及上线方案等运维方面进行全面评估 。 ”
运维工作关键主线是为了应对运行风险,新系统上线的可运维性评估重点是为了更好地应对技术风险、业务风险、设计风险、数据风险、安全风险,从事前防范,事后快速止损的思路推动可运维性工作。可运维性的评估工作可以考虑如下:
(1) 稳定性架构设计评估
系统的稳定性架构可以考虑从高可用、故障恢复、数据完整性、部署环境角度推进工作。
高可用是运维管理的一条底线保障要求,运维主要工作是消灭单点风险,提升系统韧性,比如数据库中提到的主备、主从、分布式,数据中心的两地三中心、分布式多活,以及将一个应用系统同一个服务组件部署在多个数据中心机房、不同物理机的多个虚拟机上、为应用的负载均衡提供网络硬件或软件负载均衡器等。为了更好地推进评估工作,运维需要主动建立相关架构高可用的规范与可应用的参考模式。
故障恢复可借鉴最佳实践、具体信息系统的特点等,制定相应的故障恢复能力要求,比如应用拆分、服务或系统交互解耦、服务无状态、减少总线节点服务依赖、增加异步访问机制、多层次的缓存、数据库优化、限流与削峰机制、基础设计快速扩容等。
数据完整性是运维保障的底线要求,持久化数据的生命周期通常会比系统与硬件的生命周期长很多,很多新系统上线或架构调整都考虑数据迁移工作。同时,还要关注一些复杂性数据处理,比如:批次、清算、对账等操作,这些操作极易受数据问题影响,运维侧需要关注数据处理的异常中断原因定位、哪些环节是可以应急中断、中断后是否支持多次重试、与第三方系统约定数据不一致时以哪方为基准等等应急处置机制。
选择合适的技术和部署方式是系统可运维性的关键,需要选择性能稳定、易于维护的技术,并根据业务需求选择合适的部署方式,如云计算、容器化等。
(2) 非功能性需求的评估
运维的非功能性设计是主动应对可运维性问题的切入点,直接决定系统在生产环境的成本与收益,甚至决定系统生命周期的长短。以下罗列运维侧需要推动的非功能设计。
(3) 运维保障准备工作评估
指导意见的描述是 “ 在系统上线时密切关注业务运行情况,做好业务保障工作。 ”
新系统运行评估是指在新系统上线后,安排一个重点保障阶段,组织不同角色的团队进行专项运行评估与保障,确保新系统满足设计要求并具备投入商业运行的能力。
在组织形式上,如果系统可进行功能、流量、用户等控制,可以考虑建立一周或一个月的试运行,在试运行评估达标后才转为正式上线,如果系统无法控制,则考虑建立一周的特别保障工作。在此阶段,需要根据保障方式内容,召集业务、产品、项目、研发、测试、运维等角色,做好分工进行全面的运营管理工作,并按日、周、月发布运行评估情况。
在评估与保障方案上,此阶段的重点保障业务可用、数据完整性、性能指标、安全性、可靠性、稳定性等维度的稳定性,进行主动的技术运营保障。不同维度涉及的保障方案需要提前召集专家商讨制定,以业务可用为例,需要产品、研发、测试、运维参与,明确有哪些重要业务功能、如何主动监控首笔业务发生、如何监控重要业务的交易量与交易成功率、业务日志报错情况、批处理任务状态等关注点,并提前将关注点转化为技术指标,实现在线业务监控或业务运行看板等。
指导意见的描述是 “ 运用技术手段开展重要信息系统下线的技术和业务影响评估,制定完整的系统停用和数据迁移保管方案,并组织评审及进行系统停用后的安全检查 。”
系统下线通常包括整体下线与部分模块下线,下线前不仅要明确系统承载业务与风险评估,还要明确下线对上下游关联系统的影响。以下是常见的注意事项:
总的来说,新系统 从0到1,伴随着风险与挑战。运维组织 需要从组织、流程、平台、场景角度打造一个完整的系统上下线协同工作机制,评估各种风险,制定相关技术方案,主动应对突发风险,确保系统业务安全稳定,并避免对存量业务系统产生影响。同时,运维组织还要以系统上下线作为事件驱动的切入点,推动可运维性的相关工作的落地。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞7
添加新评论1 条评论
2023-12-29 14:47