Перейти к основному содержимому

Linux

Решение по мониторингу Linux

CMDB

Сервисно-ресурсная модель (СРМ) состоит из одного TKE — Linux, который описывает операционную систему на хосте. В иерархии типов конфигурационных единиц он располагается так:

Конфигурационная единица
└─ Программное обеспечение
└─ ОС
└─ Linux

TKE

  • Linux – Linux-сервер.

Атрибуты

  • Версия
  • Название (Hostname)
  • Операционная система
  • IP адрес

Дашборды

Обзор состояния ОС

dashboard

Содержит основные метрики системы:
Операционная система и версия
Загрузка ЦПУ (CPU Usage)
Загрузка ОЗУ (Memory Usage)
Использование диска (Disk Usage) по точкам монтирования
Входящий и исходящий трафик

Метрики

  • CPU Usage – доля занятой CPU (user, system, idle, iowait).
  • Load Average – усреднённая нагрузка на систему за 1/5/15 мин.
  • Memory Usage – объём используемой и свободной оперативной памяти, включая cache и buffer.
  • Swap Usage – объём использования swap-пространства.
  • Disk Usage – процент заполнения каждого тома.
  • Inode Usage – процент использования inode-структур на файловых системах.
  • Disk IO – количество операций чтения/записи в секунду (read/s, write/s) и среднее время ожидания IO.
  • Filesystem Read/Write Bytes – байты, прочитанные и записанные на диск.
  • Network Traffic – скорость входящего и исходящего трафика (bytes/sec, packets/sec) по интерфейсам.
  • Network Errors/Drops – количество ошибок и дропов пакетов на интерфейсах.
  • TCP Connections – число текущих TCP-соединений в разных состояниях (ESTABLISHED, TIME_WAIT и т.д.).
  • Process Count – общее количество процессов и потоков в системе.
  • File Descriptor Usage – количество открытых дескрипторов и максимально доступных.
  • Context Switches – количество переключений контекста в секунду.
  • Interrupts – число аппаратных прерываний в секунду.
  • Entropy Available – количество байт энтропии в пуле /dev/random.
  • Uptime – время работы сервера с момента последнего запуска.
  • System Boot Time – метка времени последней загрузки.

Индикаторы здоровья

  • Высокое использование диска
    – WARNING, если > 80% заполнения более 5 мин
    – CRITICAL, если > 95% заполнения более 5 мин
    Контролирует уровень заполнения файловых систем.

  • Высокое использование процессора
    – ERROR, если использование CPU > 80% более 5 мин
    Помогает выявить перегрузку сервера.

  • Высокое использование ОЗУ
    – ERROR, если использование памяти > 80% более 5 мин
    Отслеживает нехватку оперативной памяти.

Файлы