Linux
Решение по мониторингу Linux
CMDB
Сервисно-ресурсная модель (СРМ) состоит из одного TKE — Linux, который описывает операционную систему на хосте. В иерархии типов конфигурационных единиц он располагается так:
Конфигурационная единица
└─ Программное обеспечение
└─ ОС
└─ Linux
TKE
- Linux – Linux-сервер.
Атрибуты
- Версия
- Название (Hostname)
- Операционная система
- IP адрес
Дашборды
Обзор состояния ОС
Содержит основные метрики системы:
— Операционная система и версия
— Загрузка ЦПУ (CPU Usage)
— Загрузка ОЗУ (Memory Usage)
— Использование диска (Disk Usage) по точкам монтирования
— Входящий и исходящий трафик
Метрики
- CPU Usage – доля занятой CPU (user, system, idle, iowait).
- Load Average – усреднённая нагрузка на систему за 1/5/15 мин.
- Memory Usage – объём используемой и свободной оперативной памяти, включая
cache
иbuffer
. - Swap Usage – объём использования swap-пространства.
- Disk Usage – процент заполнения каждого тома.
- Inode Usage – процент использования inode-структур на файловых системах.
- Disk IO – количество операций чтения/записи в секунду (read/s, write/s) и среднее время ожидания IO.
- Filesystem Read/Write Bytes – байты, прочитанные и записанные на диск.
- Network Traffic – скорость входящего и исходящего трафика (bytes/sec, packets/sec) по интерфейсам.
- Network Errors/Drops – количество ошибок и дропов пакетов на интерфейсах.
- TCP Connections – число текущих TCP-соединений в разных состояниях (ESTABLISHED, TIME_WAIT и т.д.).
- Process Count – общее количество процессов и потоков в системе.
- File Descriptor Usage – количество открытых дескрипторов и максимально доступных.
- Context Switches – количество переключений контекста в секунду.
- Interrupts – число аппаратных прерываний в секунду.
- Entropy Available – количество байт энтропии в пуле
/dev/random
. - Uptime – время работы сервера с момента последнего запуска.
- System Boot Time – метка времени последней загрузки.
Индикаторы здоровья
-
Высокое использование диска
– WARNING, если > 80% заполнения более 5 мин
– CRITICAL, если > 95% заполнения более 5 мин
Контролирует уровень заполнения файловых систем. -
Высокое использование процессора
– ERROR, если использование CPU > 80% более 5 мин
Помогает выявить перегрузку сервера. -
Высокое использование ОЗУ
– ERROR, если использование памяти > 80% более 5 мин
Отслеживает нехватку оперативной памяти.