某银行结合自身影像数据增长、监管和信创需求,通过区分生命周期基于分布式存储架构实现长期数据保存,分享了该场景下成功的选型经验,选型评估维度包括业务涉及的文件大小以及读写IO比例、故障应急响应速度、分布式存储灾备能力等等,以确保选型符合实际需求并具备一定的前瞻性。
随着我行大数据以及业无纸化业务的发展,信息系统逐步拆分细化,我们发现传统NAS存储以及光盘塔的容量和存储方案以及不能满足数据备份归档、影像文件和日志文件、数据库高并发备份的需求。例如,现有共享存储设备的功能和性能存在一定局限性,一是单租户最大吞吐量为2Gb/s,日常使用率已达到1.3Gb/s,二是例如该设备底层设定的存储快照的最大个数为4096个,随着接入系统与文件目录的数量增加,目前快照个数已经无法满足使用需求。另外,考虑到该存储设备已经使用了超过5年,设备制造商即将对该型号产品结束生命周期,后续将不再提供官方的扩容支持。我行综合考虑认为继续进行扩容的投资意义较小,性价比较低。因此,我行亟待引入新一代的共享存储产品解决以上需求和问题。
目前我行使用共享存储设备的主要业务场景是各个前端业务系统对产生的相关非结构化数据进行归档,用于日志大数据分析、历史数据查询、业务凭证存储等业务场景。从三个指标分析现有需求:第一是需要留存的影像文件大小150KB左右,每天前端系统产生总量约150G影像;第二是目录层级低于10级,文件存储的路径比较复杂,执行IO时对性能资源消耗更多,同时一个业务系统挂载多个共享文件系统,每个共享文件系统大约提供10TB可用容量;第三是各个业务系统还需要归档留存应用交易日志,日志文件大小几百MB不等,每日的日志总量大小约110G,约300个压缩日志文件。综合考虑以上业务需求特征,我行的共享存储面对的场景相对复杂,从零碎文件类型到大容量文件均有存储需求,同时目录层级较深,所需的运行处理性能较高。随着影像系统改造、日志易等系统使用S3协议的业务场景越来越多,规划和部署支持S3协议的分布式存储也势在必行。
为了满足我行未来业务增长所需日志和影像存储空间,同时满足监管对相关数据的保留周期需求,并且随着数据容量持续增长,需要存储设备具有极优的平滑扩容能力,提供高性能的文件访问能力。
弹性的分布式存储集群,具有高扩展性、高性能、高可用、操作简单、成本低廉等优点,是解决上述问题的一个可选方案,分布式存储具有性能和容量线性扩展能力,消除系统瓶颈,单一命名空间可管理文件量数百倍于传统存储,扩容时可以实现随节点数增加而达到性能接近线性增加,扩容过程中也能让上层业务无感知 。
经分析研究目前市场上的主流存储产品,有以下三类产品可以满足我行的需求场景:分布式存储、集中式nas、蓝光光盘塔。从适用场景、产品优势等方面考虑,我行最终选择了分布式存储加蓝光光盘塔的组合方式满足业务需求。
我行选择的分布式存储加蓝光光盘塔的组合方案中,因为蓝光光盘塔产品成熟度和集成度较高,选型难度不高,因此在本文中不再赘述。而各个厂商的分布式存储产品不管是从产品定位、产品架构、还是成熟度、可用性方面都有着比较大的差异,因此我行从软硬件部署架构的角度出发,梳理对比了两种方案不同维度的优劣势。
A公司
分布式存储为软硬一体。支持信创设备。
完全自主研发,元数据管理为分布式,集群规模增大,不会出现短板,读性能排第三,写性能最好,数据是追加写入,写性能是第二名D公司的1.5倍,符合我行使用场景,读少写多。无块设备功能,无双活功能,nfs快照个数约10w个。重构1TB数据耗时约15分钟。
B公司
分布式存储为软硬一体,不支持信创设备。
基于gpfs更改,元数据管理为分布式,集群节点规模大之后,瓶颈在于元数据更新,每个节点元数据都需要更新,每个节点都能提供读写元数据服务,集群节点数小于30节点,读性能排第二,写性能排第三。无块设备功能,无双活功能,满足功能及性能需求。快照个数约20w个,重构1TB数据耗时约15分钟。
C公司
分布式存储为纯软,支持信创设备。
基于ceph更改,元数据管理为分布式,集群规模增大,不会出现短板,有块设备功能,无双活功能。满足功能需求,nfs读、写、混合读写性能低于A/B/D公司,nfs快照个数约12w个。重构1TB数据耗时约13分钟。
D公司
分布式存储为纯软,支持信创设备。
基于ceph更改,元数据管理是集中式。集群规模扩大之后,瓶颈在于元数据主节点,一个集群只能只有一个元数据节点提供服务,其他元数据节点是standby模式,读性能排第一,写性能排第二,有块设备功能,有双活功能,nfs快照个数最大8096个。重构1TB数据耗时约5分钟。
根据上述POC测试结果,A公司产品特性更满足我行业务需求。同时因为其产品架构自研,而其他三家公司均使用开源产品改造,有可能存在一定的技术路线风险(例如开源产品出现底层问题而存储厂商难以修复,开源产品版本更新后设备厂商适配不及时等风险)。综合考虑以上因素,我行选择了A公司的OceanStor Pacific分布式存储,满足历史数据归档数据及票据影像需求,投产效果如下:
核心数据库备份时间从40分钟缩短到15分钟内。
数据全生命周期管理:海量的票据影像文件数据可实现永久保存,账务类系统交易日志实现永久保存,日志易系统把重要系统交易日志写入分布式存储,提高日志查询效率,同时实现亿级文件全生命周期管理。
高可靠:提高存储系统性风险的防范能力,分布式架构支持2节点、2个存储节点上1个硬盘同时故障,业务不中断,数据无丢失;重要文件系统使用快照加异步复制至同城灾备数据中心,实现最大程度数据异地容灾。
易运维&高扩展性:在线扩容,分布式架构性能线性扩展,降低运维难度和减少运维工作量。
结合自身业务增长、监管和新创的需求,对未来5年存储空间的规划,以下是分布式存储选型总结。
协作专家:
1、黄波 某城商行 存储架构师
2、张健 某银行 资深工程师
3、杨金平 某银行 技术主管
4、霍玉亮 某银行 资深工程师
顾问专家:
曾光明 某省农信 分布式存储架构师
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞8
添加新评论4 条评论
2024-01-22 09:47
2024-01-21 19:00
2024-01-16 14:53
2024-01-15 17:33