“三位一体”超级混沌工程解决方案

icon
案例推荐
行业背景

大规模分布式软件系统的发展正在改变软件工程。网络安全、数据保护、架构可靠性等质量特征不断被外界流量、事件等突发因素冲击,在这种环境下,如何建立质量信心、风险前置、有效的应急措施将成为企业、组织和政府关心的要点。

应用移动化的普及,敏捷开发模式的转变,混合云、微服务架构的逐步流行,以及用户访问的随机性提升,导致故障的触发点不仅仅来源于系统本身,更可能来源于用户压力、业务错误、依赖的节点服务、数据库、中间件等等。单一维度的故障演练已经不足建立系统整体的质量信心,构建有效的应急保障方案。

行业痛点

1、一个多元化、架构复杂的系统,未知的错误往往发生在系统脆弱的地方。而缺少主动发现故障的方法和对应经验,将无法及时针对系统脆弱点进行整改和备案。

2、缺少业务层级的故障注入。根据反脆弱性理论,IT组织的脆弱性来自于内部随机事件,和外部压力事件,但现阶段混沌方案,只侧重于来自内部,面向架构的故障注入;而欠缺来自外部,面向业务的故障注入。

3、在“软件定义一切”的大背景下,绝大多数的故障注入,又都会对IaaS,PaaS和SaaS产生影响,但由于历史原因,大部分混沌工程方案,并未形成跨架构的能力,缺少跨平台可观测性。

方案优势
01
实现业务压测、混沌工程和性能监控完美融合
“三位一体”超级混沌工程包括X-Chaos 故障注入工具、X-UniEye 跨架构全栈监控平台和X-UniEye 跨架构全栈监控平台。是业界首次将业务压测、混沌工程、统一的性能监控指标完美融合,完美契合了CNCF的可观测行标准,从“反脆弱性”方法论的高度,实现了三位一体的统一。
02
跨架构、全栈的可观测性
从传统架构,网络,到云IaaS,PaaS,再到SaaS业务级的Metrics和Tracing的可观测性能力;简单可靠,方法统一,对租户和业务无扰,对云网环境无压力。
03
丰富的故障模块支持库
专业的混沌工程工具,适用于对IT环境内部随机事件的故障注入;具备高达117个故障注入用例。另外含有业务级别错误注入,压力负载等多维度的故障触发点。
04
具备信创能力的故障注入用例
对符合混沌实施原则的传统架构,可以实施具备信创能力的故障注入用例。
价值
  • No.1
“三位一体”超级混沌工程是一套拥有多维度故障注入的自动化平台,通过在生产分布式系统上进行实验,主动找出系统中薄弱环节的反脆弱性解决方案
  • No.2
其意义在于主动暴露实验对象的脆弱性,赋予稳态系统赋予更多弹性特征。将风险事件实例化,并根据混沌工程的输出,完善系统应急措施,降低故障发生时爆炸影响,强化系统“自愈”能力。
  • No.3
混沌变量反映了现实世界中的事件,从内部IT到业务错误事件的模拟注入,可以快速了解他们正在构建的服务是否健壮,是否可以弹性扩容,是否可以处理计划外的故障。
  • No.4
沉淀通用的故障模式,以可控成本在线上重放,以持续性的演练和回归方式运营来暴露问题,不断推动系统、工具、流程、人员能力的不断前进。
  • No.5
提前进行混沌工程,进行预警备案,提高事故预测和预警能力,有效降低事故率。
  • No.6
采用自动化故障注入,追踪观测,节省人力资源,降低成本。
应用案例

对某集团客户业务支撑系统(BBOSS)进行应急演练。了解当系统出现一些特定故障时对系统产生的影响,以及针对不好的影响进行备案,提高系统“自愈能力”和相关团队的应急效率。

解决方案:

1)X-Chaos 故障注入工具:专业的混沌工程工具,适用于对IT环境内部随机事件的故障注入,具备高达117个故障注入用例

2)X-UniEye 跨架构全栈监控平台:跨架构,全栈的可观测性平台;可以统一的测量标准和单位,实现从网络,应用,到业务的一体化性能级观测

3)X-Runner 业务测试工具:专业的业务测试工具,可以模拟压力测试,错误测试,攻击测试,和网络故障测试

客户收益:

1)完善系统故障应急方案,促进系统结构,人员,流程不断优化,加强应急效率

2)暴露系统脆弱性,进行整改备案,增强鲁棒性,减少上线后故障发生率

3)大幅度缩短故障演练时间,节省人员投入

4)有效缩短新项目上线验证时间

5)显著提升整体测试效率