从Excel管理的蛮荒时代到云原生FinOps的精细化运营,一览超大规模系统下的成本优化之道。
核心诉求是稳定性,资源管理粗放,成本意识缺失。
引入CMDB,以“应用分组”为核心,但资源仍是孤岛。
调度器(K8s等)成为核心,资源管理进入新台阶。
视角从单一计算资源扩展至所有云产品,精细化成本运营。
一个量化资源管理水平的框架,揭示了从付费到有效使用的层层损耗。
成本的起点,无论是否使用。
被统一调度器管理的资源。衡量指标:池化率 (PR)
已分配给业务的资源。衡量指标:分配率 (AR)
业务真实消耗的资源。衡量指标:利用率 (UR)
归一化后的有效资源消耗。衡量指标:有效利用率 (EUR)
全局有效利用率 (EUTR)
EUTR = PR * AR * UR * EUR
衡量公司整体资源管理水平的CTO级指标。
核心在于解决资源碎片化问题,目标是让池内资源尽可能被业务申请走。
推荐合理规格,避免为凑规格而浪费资源。
通过离线重调度,将碎片资源整合成可用大块资源。
分析容器`内存/CPU`比例 (α) 的分布,是规格整理的依据。规格过于分散是碎片的主要来源之一。
注:数据显示α=4和α=8是主流规格,但长尾分布依然造成碎片。
利用率是降本的核心。通过在线、离线任务混部,榨干CPU资源,实现成本的极大节约。
离线任务几乎 免费使用 了 500万核以上 的CPU资源,极大节省了成本。
当CPU优化到极致,其他成本(存储、网络)成为新的大头。需要系统化的成本管理平台(HCRM)进行全局优化。
成本不是唯一。研发团队必须在稳定性、资源效率和迭代速度之间做出权衡。
不可能三角
一段时间内,三者只能取其二
生产效率模型
a = S · R · R'
在技术水平(a)不变时,稳定性(S)、资源利用率(R)、迭代速度(R')三者相互制约。