Потеря истинности исполнения в многоуровневой облачной оркестрации: разбор инцидента на примере OpenStack и Kubernetes при переподписке CPU

Алексей Алексеевич Неклюдов

ORCID: 0009-0002-7724-5762

DOI: 10.5281/zenodo.18252976

15 января 2026

Оригинальный язык статьи: Английский

PDF
Canonical Version (Zenodo DOI):
Local Mirror (Astraverge.org):

Аннотация

Многоуровневые инфраструктурные стеки обычно сочетают оркестрацию виртуальных машин (например, OpenStack) с оркестрацией контейнеров (например, Kubernetes), развернутой внутри виртуальных машин. Хотя это административно удобно, такая архитектура создает несколько независимых плоскостей управления, конкурирующих за общий субстрат исполнения. В данном отчете анализируется инцидент в промышленной эксплуатации, при котором переподписка CPU и насыщение кластера привели к потере управляемости: виртуальные машины оставались логически в состоянии ACTIVE, будучи физически неотзывчивыми; живая миграция стала невозможной; а восстановление потребовало принудительной перезагрузки гипервизора. Мы формализуем этот режим отказа как потерю истинности исполнения — расхождение между состоянием плоскости управления и реальностью плоскости исполнения — и моделируем его усиление через многоуровневую переподписку. Далее мы показываем, что это расхождение имеет принципиально наблюдательный характер, и вводим перспективу на основе COE/GOP для обнаружения несогласованности исполнения между независимыми локальностями системы. В совокупности эти результаты дают единое объяснение того, почему механизмы автоматизации и самовосстановления отказывают при насыщении в современных многоуровневых облачных платформах.

Ключевые слова: OpenStack; Nova; Kubernetes-in-VM; многоуровневая оркестрация; overcommit; oversubscription; SRE; control plane; execution plane; observability; live migration; CPU starvation; наблюдательная когерентность; несогласованность исполнения; COE; GOP.

Полная версия статьи доступна по ссылке: https://astraverge.org/en/p/10055 (на языке Английский).