Потеря истинности исполнения в многоуровневой облачной оркестрации: разбор инцидента на примере OpenStack и Kubernetes при переподписке CPU
ORCID: 0009-0002-7724-5762
15 января 2026
Оригинальный язык статьи: Английский
Аннотация
Многоуровневые инфраструктурные стеки обычно сочетают оркестрацию виртуальных машин (например, OpenStack) с оркестрацией контейнеров (например, Kubernetes), развернутой внутри виртуальных машин. Хотя это административно удобно, такая архитектура создает несколько независимых плоскостей управления, конкурирующих за общий субстрат исполнения. В данном отчете анализируется инцидент в промышленной эксплуатации, при котором переподписка CPU и насыщение кластера привели к потере управляемости: виртуальные машины оставались логически в состоянии ACTIVE, будучи физически неотзывчивыми; живая миграция стала невозможной; а восстановление потребовало принудительной перезагрузки гипервизора. Мы формализуем этот режим отказа как потерю истинности исполнения — расхождение между состоянием плоскости управления и реальностью плоскости исполнения — и моделируем его усиление через многоуровневую переподписку. Далее мы показываем, что это расхождение имеет принципиально наблюдательный характер, и вводим перспективу на основе COE/GOP для обнаружения несогласованности исполнения между независимыми локальностями системы. В совокупности эти результаты дают единое объяснение того, почему механизмы автоматизации и самовосстановления отказывают при насыщении в современных многоуровневых облачных платформах.
Ключевые слова: OpenStack; Nova; Kubernetes-in-VM; многоуровневая оркестрация; overcommit; oversubscription; SRE; control plane; execution plane; observability; live migration; CPU starvation; наблюдательная когерентность; несогласованность исполнения; COE; GOP.