MTBF什么?标准是什么?
发布时间:2022-03-11
中国移动2017版的MTBF的标准是:
每轮5台终端并行连续循环执行以下用例7X24小时,期间记录系统级问题,包括死机、重启、白屏、脱 网等严重问题。最终计算终端的无故障运行时间
T:T = 5X7X24 /(故障数)
如果终端支持稳定性中对应的本地及通信类业务,则要求终端对于支持的业务满足稳定性中,在 TD-S ** 、TD-LTE 网络下平均无故障运行时长指标不低于 250 小时。北美电信运营商AT&T的MTBF指标是这样定义的:7台手机每天24小时不间断运行AT&T规定的,内容包括2G/3G语音呼叫、短彩信、浏览器上网、电话本操作。过程中出现的用例失败情况都会记录下来,然后用7台手机总的运行时间除以全部手机出现的失败次数,即得到MTBF值。整个过程全部采用自动化方式,并且都在AT&T的现网环境下进行,该已经成为所有与AT&T合作的终端厂商都必须通过的,而且是所有厂商公认的最难通过的。
YunOS的MTBF是由YunOS系统团队执行的,同时制定了更为严格的通过标准。
MTBF与系统可靠性:
可以看出,MTBF标准的定义与上文介绍的System Availability的概念不是完全一致,因为移动终端毕竟与服务端从架构,实现方法,到用户群体都不尽相同;严格来讲MTBF是终端可靠性其中的稳定性部分。然而有不少地方是两者是相通和可以借鉴的。比如:
• MTBF中的故障数可以近似理解为Outage,系统重启属于Total Outage, 模块Crash属于Partial Outage
• 提升可靠性都是需要降低故障数减小downtime
• 在系统和应用设计中都需考虑如何减少错误,或者出现错误如何恢复。
• 终端上的一些后台服务可以近似理解为服务端应用,虽然不能完全照搬上文中提到容灾和恢复的场景,但是可以借鉴其中的一些思路。
• 终端上可以通过参考DPM的概念增加数据衡量指标,但可能不需要也不现实每个场景都执行100万次操作,可以依据实际情况调整标准要求
• 可以参考Failover策略中错误探测,隔离,恢复的操作在出现错误时及时发现,快速恢复重新启动来减少对用户造成的负面影响,恢复时间即Failover Recovery Time就成了一个关键指标。