“三位一体”超级混沌工程解决方案
大规模分布式软件系统的发展正在改变软件工程。网络安全、数据保护、架构可靠性等质量特征不断被外界流量、事件等突发因素冲击,在这种环境下,如何建立质量信心、风险前置、有效的应急措施将成为企业、组织和政府关心的要点。
应用移动化的普及,敏捷开发模式的转变,混合云、微服务架构的逐步流行,以及用户访问的随机性提升,导致故障的触发点不仅仅来源于系统本身,更可能来源于用户压力、业务错误、依赖的节点服务、数据库、中间件等等。单一维度的故障演练已经不足建立系统整体的质量信心,构建有效的应急保障方案。
1、一个多元化、架构复杂的系统,未知的错误往往发生在系统脆弱的地方。而缺少主动发现故障的方法和对应经验,将无法及时针对系统脆弱点进行整改和备案。
2、缺少业务层级的故障注入。根据反脆弱性理论,IT组织的脆弱性来自于内部随机事件,和外部压力事件,但现阶段混沌方案,只侧重于来自内部,面向架构的故障注入;而欠缺来自外部,面向业务的故障注入。
3、在“软件定义一切”的大背景下,绝大多数的故障注入,又都会对IaaS,PaaS和SaaS产生影响,但由于历史原因,大部分混沌工程方案,并未形成跨架构的能力,缺少跨平台可观测性。
- No.1
- No.2
- No.3
- No.4
- No.5
- No.6
对某集团客户业务支撑系统(BBOSS)进行应急演练。了解当系统出现一些特定故障时对系统产生的影响,以及针对不好的影响进行备案,提高系统“自愈能力”和相关团队的应急效率。
解决方案:
1)X-Chaos 故障注入工具:专业的混沌工程工具,适用于对IT环境内部随机事件的故障注入,具备高达117个故障注入用例
2)X-UniEye 跨架构全栈监控平台:跨架构,全栈的可观测性平台;可以统一的测量标准和单位,实现从网络,应用,到业务的一体化性能级观测
3)X-Runner 业务测试工具:专业的业务测试工具,可以模拟压力测试,错误测试,攻击测试,和网络故障测试
客户收益:
1)完善系统故障应急方案,促进系统结构,人员,流程不断优化,加强应急效率
2)暴露系统脆弱性,进行整改备案,增强鲁棒性,减少上线后故障发生率
3)大幅度缩短故障演练时间,节省人员投入
4)有效缩短新项目上线验证时间
5)显著提升整体测试效率