Как работает автоматический ремонт в AKS

AKS постоянно отслеживает состояние здоровья рабочей и при необходимости выполняет автоматический ремонт. Обслуживание выполняется на виртуальных машинах, испытывающих проблемы.

Перебои в обслуживании кластеров можно свести к минимуму с помощью AKS и виртуальных машин Azure.

В этой статье мы узнаем, как работает функция автоматического ремонта для узлов Windows и Linux.

Как AKS проверяет нездоровые узлы

Следующие правила используются AKS для определения наличия проблем с узлами.

  • Статус NotReady сообщается при последовательных проверках.

  • Статус не сообщается в течение 10 минут.

Состояние здоровья узлов можно проверить вручную с помощью kubectl.

kubectl get nodes
Войти в полноэкранный режим Выход из полноэкранного режима

Как работает автоматический ремонт

AKS предпринимает следующие действия, если находит нездоровый узел в течение 10 минут:

  1. Перезагрузить узел.
  2. Если перезагрузка не удалась, переизобразите узел.
  3. Если переимиджирование не удалось, переразверните узел.

Если автовосстановление не увенчалось успехом, инженеры AKS изучают альтернативные способы устранения неполадок.

Если во время проверки работоспособности AKS обнаружит много нездоровых узлов, они будут восстанавливать их по отдельности.

Автодренаж узла

Существуют запланированные события, которые могут произойти на базовых виртуальных машинах в любом из наших пулов узлов. Для пулов точечных узлов запланированные события могут дополнительно вызвать совпадение узла с узлом-вытеснителем.

Определенные события, такие как preempt, заставляют AKS попытаться оцепить и осушить затронутые узлы, что позволяет плавно перепланировать любую затронутую рабочую нагрузку на этом узле.

Когда это происходит, мы можем заметить, что узел получает сообщение «remediator.aks.microsoft.com/unschedulable» из-за «kubernetes.azure.com/scalesetpriority: spot».

Действия, которые они вызывают для AKS, показаны в следующей таблице.

Событие Описание Действие
Заморозка ВМ останавливается на несколько секунд. При приостановке сеть не влияет на память или открытые файлы. Нет действия
Перезагрузить ВМ будет перезагружена. Непостоянная память будет потеряна. Нет действий
Развернуть ВМ будет развернута. Эфемерные диски потеряны. Оцепить и слить
Вытеснить Место удаляется. Эфемерные диски потеряны. Кордон и слив
Завершить ВМ будет удалена. Кордон и слив

Ограничения

Во многих случаях AKS может определить, здоров ли узел, и попытаться его починить, но в некоторых случаях AKS не может обнаружить проблему и не может ее устранить. AKS не может обнаружить проблему, если статус не сообщается из-за ошибки в конфигурации сети, или если узел не смог зарегистрироваться как здоровый.

Спасибо, что дочитали мою статью до конца. Надеюсь, сегодня вы узнали что-то особенное. Если вам понравилась эта статья, пожалуйста, поделитесь с друзьями, а если у вас есть предложения или мысли, которыми вы хотите поделиться со мной, пожалуйста, напишите в поле для комментариев.

Оцените статью
Procodings.ru
Добавить комментарий