Pérdida de la verdad de ejecución en la orquestación en capas de la nube: un estudio de caso de OpenStack y Kubernetes bajo sobresuscripción de CPU

Alexey A. Nekludoff

ORCID: 0009-0002-7724-5762

DOI: 10.5281/zenodo.18252976

15 enero 2026

Idioma original del artículo: Inglés

PDF
Canonical Version (Zenodo DOI):
Local Mirror (Astraverge.org):

Resumen

Las pilas de infraestructura en capas combinan de forma rutinaria la orquestación de máquinas virtuales (p. ej., OpenStack) con la orquestación de contenedores (p. ej., Kubernetes) desplegada dentro de máquinas virtuales. Aunque administrativamente conveniente, esta arquitectura crea múltiples planos de control independientes que compiten por un sustrato de ejecución compartido. Este informe analiza un incidente en producción en el que la sobresuscripción de CPU y la saturación a nivel de clúster condujeron a una pérdida de controlabilidad: las máquinas virtuales permanecieron lógicamente ACTIVE mientras eran físicamente no responsivas; la migración en vivo se volvió imposible; y la recuperación requirió un reinicio forzado del hipervisor. Formalizamos este modo de fallo como pérdida de la verdad de ejecución —una divergencia entre el estado del plano de control y la realidad del plano de ejecución— y modelamos su amplificación a través de la sobresuscripción en capas. Además, mostramos que esta divergencia es fundamentalmente observacional e introducimos una perspectiva basada en COE/GOP para detectar incoherencia de ejecución a través de localidades independientes del sistema. En conjunto, estos resultados proporcionan una explicación unificada de por qué los mecanismos de automatización y autorrecuperación fallan bajo saturación en plataformas modernas de nube en capas.

Palabras clave: OpenStack; Nova; Kubernetes-en-VM; orquestación en capas; sobreasignación; sobresuscripción; SRE; plano de control; plano de ejecución; observabilidad; migración en vivo; inanición de CPU; coherencia observacional; incoherencia de ejecución; COE; GOP.

La versión completa del artículo está disponible en: https://astraverge.org/en/p/10055 (en Inglés).