Перейти к содержанию

Мониторинг

Общие данные

В качестве системы мониторинга используются сервисы Prometheus и Grafana.

Prometheus собирает сведения о работе платформы и ресурсах.

Grafana выводит данные сведения на следующие приборные панели:

  • Общий мониторинг – мониторинг основных параметров Платформы Радар;
  • Поток событий – мониторинг параметров потока событий;
  • Kafka – мониторинг параметров системы обмена сообщениями «Kafka»;
  • Статистика потока – мониторинг показателей обработки потока событий;
  • OpenSearch – мониторинг параметров поисковой системы «OpenSearch».

Сервисы Node-exporter, Kafka-exporter, Opensearch-exporter отвечают за сбор метрик с узлов платформы, службы Kafka и хранилища обработанных событий, соответственно.

Рекомендации по установке сервисов для обеспечения сбора метрик и мониторинга платформы:

  • Prometheus – устанавливается на сервер с ролью "Monitoring" и собирает метрики с использованием различных экспортеров:
  • Node_exporter – устанавливается на каждый узел платформы и позволяет собирать метрики операционной системы;
  • Kafka_exporter – устанавливается на сервер с ролью "Balancer" и позволяет собирать метрики Kafka;
  • Opensearch-exporter – устанавливается на сервер с ролью "Data" и позволяет собирать метрики OpenSearch.

Примечание: В Платформе Радар предусмотрена возможность передачи метрик производительности во внешние системы мониторинга.

Платформа Радар обеспечивает многострочный вывод метрик производительности в формате строки «Prometheus» (ключ, значение), что позволяет экспортировать метрики в систему «Zabbix».

Элементы управления мониторингом

Для просмотра приборных панелей перейдите в раздел Мониторинг и из выпадающего списка выберите необходимый пункт: Общий мониторинг, Поток событий, Kafka,Статистика потока или OpenSearch. Откроется выбранная приборная панель.

Для отображения информации в приборных панелях используются виджеты.

В общем случае используются следующие типы виджетов:

  • Первый тип – виджет, отображающий конкретное значение метрики:

  • Второй тип – виджет, отображающий тенденцию изменения показателя за период времени в виде графика:

  • Третий тип – виджет, отображающий тенденцию изменения показателя за период времени в виде графика с таблицей:

При наведении курсора мыши на виджет с графиком будет выведена дополнительная информация:

При клике на наименование виджета, откроется выпадающий список со следующими действиями:

  • View – открыть виджет на весь экран;
  • Share – поделиться виджетом. Будет предоставлен механизм по извлечению ссылки на виджет, созданию снимка (snapshot) или копированию виджета в буфер обмена;
  • Inspect – просмотр подробного журнала виджета, который при необходимости можно скачать в формате .csv;
  • More... – доступ к дополнительным действиям над виджетом, например скрыть/показать легенду.

По клавише Esc открывается панель инструментов сервиса Grafana, которая предоставляет следующие дополнительные функции:

  • выбрать источник данных для отображения метрик;
  • выбрать конкретный хост;
  • задать период формирования информации на виджетах;
  • задать период автоматического обновления информации на виджетах.

Чтобы скрыть панель инструментов сервиса Grafana нажмите кнопку .

Общий мониторинг

В наборе приборных панелей «Общий мониторинг» представлена подробная информация по собираемым метрикам с хоста, на котором установлена платформа. Информация сгруппирована по следующим блокам:

  • Quick CPU / Mem / Disk – мониторинг текущих значений таких показателей как потребление памяти, нагрузка центрального процессора и т.д.;
  • Basic CPU / Mem / Net / Disk – мониторинг базовой информации о динамике изменения показателей потребления памяти, нагрузки центрального процессора, сетевого траффика и т.д.;
  • CPU / Memory / Net / Disk – мониторинг расширенной информации о динамике изменения показателей потребления памяти, нагрузки центрального процессора, сетевого траффика и т.д.;
  • Memory Meminfo – мониторинг информацию об использовании памяти в реальном времени, а также о буферах и разделяемой памяти, используемой ядром;
  • Memory Vmstat – мониторинг информации о памяти, процессоре, процессах и операциях ввода-вывода;
  • System Timesync – мониторинг состояния синхронизации времени локальной системы по протоколу NTP с внешними NTP-серверами;
  • System Processes мониторинг информации об операциях и ресурсах на системном уровне;
  • System Misc – мониторинг состояния программной части архитектуры;
  • Hardware Misc – мониторинг состояния аппаратной части архитектуры;
  • Systemd – мониторинг состояния подсистемы инициализации и управления службами в Linux;
  • Storage Disk – мониторинг состояния мест хранения;
  • Storage Filesystem – мониторинг состояния файловой системы;
  • Network Traffic – мониторинг состояния сетевого траффика ;
  • Network Sockstat – мониторинг статистики работы сетевых сокетов;
  • Network Netstat – мониторинг сетевых подключений;
  • Node Exporter – мониторинг работы сервиса Node Exporter и информации с узлов кластера.

Пример приборной панели "Общий мониторинг" приведен на рисунке 1.

Рисунок 1 – Раздел "Мониторинг". Общий мониторинг

Поток событий

Приборная панель "Поток событий" предназначена для мониторинга метрик обрабатываемых событий в секунду (EPS). Пример приборной панели приведен на рисунке 2.

Рисунок 2 – Раздел "Мониторинг". Поток событий

На панелях отображаются следующие метрики:

  • Суммарный поток событий – метрика показывает текущую скорость потока событий (EPS) со всех доступных источников и тенденцию изменения EPS за период времени;
  • Поток событий от конкретного источника – набор метрик показывает текущую скорость потока событий от каждого конкретного источника, подключенного к платформе. Например, «microsoft windows eventlog», «microsoft windows dns» и т.д.

Метрики делятся на два виджета:

  • Слева – виджет с отображением информации о текущем потоке событий;
  • Справа – виджет по потоку событий в виде линейных графиков, построенных на основе исторических данных.

Kafka

Приборная панель "Kafka" предназначена для мониторинга состояния производительности сервиса Kafka, который отвечает за передачу данных и событий между сервисами платформы.

Перечень виджетов приборной панели приведен в таблице 1.

Таблица 1 – Перечень виджетов приборной панели "Kafka"

Метрика рус. Метрика англ. Назначение метрики Визуализация
Топики Topics Метрика отображает количество топиков (каналов), в которых производители (продюсеры) публикуют сообщения, а потребители (консьюмеры) читают их
Разделы Partitions Метрика показывает количество разделов в топиках. Разделы - это логические единицы топика, каждая из которых представляет отдельную очередь событий
Сообщения в секунду Messages in per second Эта метрика отображает количество сообщений, которые производители публикуют в топик за одну секунду (скорость записи данных в топик)
Сообщения, обработанные в секунду Messages consumed per second Эта метрика показывает количество сообщений, которые потребители (консьюмеры) считывают из топика за одну секунду (скорость чтения данных из топика)
Отставание по группе потребителей Lag by Consumer Group Отставание - это разница между последним смещением (offset) сообщения, записанным в топике, и последним смещением, прочитанным потребителем. Эта метрика показывает, насколько сильно группа потребителей отстает от текущего состояния топика
Смещение группы потребителей Consumer Group Offsets Смещение - это уникальный идентификатор каждого сообщения в топике. Для каждой группы потребителей Kafka хранит информацию о последних смещениях, которые были прочитаны этой группой
Задержка группы потребителей Consumer Group Lag Задержка группы потребителей — это суммарное отставание по всем потребителям, входящим в определенную группу потребителей. Метрика показывает, насколько группа потребителей отстает от конца топика
Количество разделов Number of Partitions Общее количество разделов во всех топиках на кластере Kafka. Эта метрика отражает разбиение топиков на более мелкие единицы для обеспечения масштабируемости и параллельной обработки данных
Последние смещения Latest Offsets Это значение смещения (offset), которое соответствует последнему доступному сообщению в каждом разделе топика. Каждый раздел имеет своё собственное последнее смещение, которое указывает на конец данных в данном разделе
Наименьшие смещения Oldest Offsets Это значение смещения (offset), которое соответствует самому старому доступному сообщению в каждом разделе топика. Каждый раздел имеет своё собственное наименьшее смещение, которое указывает на начало данных в данном разделе

Статистика потока

Приборная панель Статистика потока предназначена для мониторинга статистики потока событий и содержит четыре раздела:

Общая информация

Перечень виджетов блока Общая информация приведен в таблице 2.

Таблица 2 – Перечень виджетов приборной панели "Статистика потока". Блок "Общая информация"

Метрика рус. Метрика англ. Назначение метрики Визуализация
Суммарный поток событий Total flow of events Это количество событий, которые поступают в платформу за одну секунду. Эта метрика показывает общую интенсивность поступления событий и помогает определить, насколько нагружена система
Задержка разбора входящего потока событий Delay in parsing the incoming event flow Это общее время, требуемое для разбора всех входящих событий и преобразования их в структурированные сообщения (message). Эта метрика предоставляет информацию о производительности разбора в целом
Задержка обработки событий на корреляцию Delay in event processing for correlation Это время, затрачиваемое на обработку событий перед отправкой их на этап корреляции. Задержка измеряется в процессе преобразования событий в структурированные сообщения
Задержка ответа обращения к табличным спискам Delay in the response of accessing RVS Это время, необходимое для выполнения запроса к табличным спискам. Эта метрика показывает производительность базы данных или других хранилищ данных, используемых для хранения информации о списке правил или других данных
Задержка разбора входящего потока событий по источнику Delay in parsing the incoming event flow by source Это время, требуемое для разбора (обработки) события с момента его поступления в систему до создания структурированного сообщения (message). Задержка измеряется для каждого источника событий отдельно

Обработчик событий

Перечень виджетов блока Общая информация приведен в таблице 3.

Таблица 3 – Перечень виджетов приборной панели "Статистика потока". Блок "Обработчик событий"

Метрика рус. Метрика англ. Назначение метрики Визуализация
Скорость чтения событий из балансировщика The speed of reading events from the balancer Эта метрика отражает скорость, с которой термит читает события из балансировщика
Суммарный поток событий на этапе разбора The total flow of events at the parsing stage Метрика показывает производительность термита и отображает количество событий, которые обрабатываются на этапе разбора
Общая производительность Overall performance Метрика показывает общую производительность термита и отображает количество событий, которые обрабатываются термитом на каждом инстансе
Суммарный поток событий на этапе нормализации Total flow of events at the normalization stage Метрика показывает количество событий, которые проходят через процесс нормализации данных
Суммарный поток событий на этапе обогощени The total flow of events at the stage of enrichment Метрика показывает количество событий, которые проходят процесс обогащения данных. Обогащение позволяет дополнить события дополнительной информацией, которая может быть полезна при анализе событий
Скорость обработки событий по источнику The speed of event processing by source Эта метрика указывает на скорость обработки событий для каждого источника. Это позволяет выявить источники с наибольшей интенсивностью событий
Суммарный лаг записи на хранение The total record lag for storage Это задержка, которая может возникнуть при записи обработанных событий в хранилище данных

Коррелятор

Перечень виджетов блока Коррелятор приведен в таблице 4.

Таблица 4 – Перечень виджетов приборной панели "Статистика потока". Блок "Коррелятор"

Метрика рус. Метрика англ. Назначение метрики Визуализация
Поток правил корреляции (EPS) Correlation Rule Flow (EPS) Это количество "сработок" правил корреляции, которые применяются в платформе за одну секунду
Суммарный поток событий на этапе корреляции The total flow of events at the correlation stage Это количество событий, которые проходят через процесс корреляции, где анализируется связь между различными событиями для выявления потенциальных угроз или аномалий

Табличные списки

Перечень виджетов блока Табличные списки приведен в таблице 5.

Таблица 5 – Перечень виджетов приборной панели "Статистика потока". Блок "Табличные списки"

Метрика рус. Метрика англ. Назначение метрики Визуализация
Задержка ответа обращения к табличным спискам Delay in the response of accessing RVS Это время, которое требуется для выполнения запроса к табличным спискам.
Суммарный поток запросов к табличным спискам (QPS) The total flow of queries to RVS (QPS) Это количество запросов, которые выполняются к табличным спискам за одну секунду.

OpenSearch

Приборная панель OpenSearch предназначена для мониторинга состояния производительности сервиса OpenSearch, отвечающим за хранение и поиск событий, по следующим категориям:

  • Cluster – информация об общем влиянии служб OpenSearch на состояние кластера и его узлов;
  • Shards – информация о состоянии шардов. Шард представляет собой основную единицу данных в OpenSearch и может быть либо основным шардом (хранит первоначальную копию данных), либо репликой (копия основного шарда для обеспечения отказоустойчивости);
  • Node – информация о состоянии узлов кластера;
  • Documents – информация о состоянии хранящихся в сервисе записей и документов;
  • System – информация о влиянии служб OpenSearch на состояние системы, на которой он развернут.

Cluster

Перечень виджетов блока Cluster приведен в таблице 6.

Таблица 6 – Перечень виджетов приборной панели OpenSearch. Блок "Cluster"

Метрика рус. Метрика англ. Назначение метрики Визуализация
Состояние кластера Cluster Status Эта метрика показывает общее состояние кластера:
– зеленый" (green) – все функционирует нормально;
– желтый" (yellow) – некоторые реплики данных недоступны, но кластер все равно работоспособен;
– красный" (red) – некоторые основные шарды недоступны, что приводит к потере данных и нарушению работы сервиса.
Индексы Indices Эта метрика отображает количество индексов в кластере. Индекс представляет собой набор документов с похожими характеристиками, которые хранятся вместе. Мониторинг этой метрики помогает отслеживать рост данных и организацию в кластере
Работающие узлы Running Nodes Метрика "Работающие узлы" показывает количество узлов, которые в настоящее время активны и участвуют в кластере. Узлы – это отдельные экземпляры OpenSearch, которые содержат данные и выполняют операции с данными. Мониторинг этой метрики гарантирует, что все узлы работоспособны и способствуют производительности кластера
Активные узлы с данными Active Data Nodes Метрика "Активные узлы с данными" указывает количество узлов, которые содержат данные в кластере. Не все узлы в кластере обязательно хранят данные, так как некоторые могут служить только как координаторы или узлы-мастера. Отслеживание этой метрики помогает понять распределение и баланс данных в кластере
Ожидающие задачи Pending Tasks Эта метрика показывает количество задач, ожидающих выполнения в кластере OpenSearch. Задачи могут включать операции, такие как индексирование, поиск или обслуживание кластера. Большое количество ожидающих задач может указывать на то, что кластер перегружен или испытывает проблемы с производительностью

Shards

Перечень виджетов блока Shards приведен в таблице 7.

Таблица 7 – Перечень виджетов приборной панели OpenSearch. Блок "Shards"

Метрика рус. Метрика англ. Назначение метрики Визуализация
Активные шарды Active Shards Метрика "Активные шарды" отражает количество шардов, которые в настоящее время активны и функционируют в кластере OpenSearch. Шард представляет собой основную единицу данных в OpenSearch и может быть либо основным шардом (хранит первоначальную копию данных), либо репликой (копия основного шарда для обеспечения отказоустойчивости). Мониторинг этой метрики помогает обеспечить доступность и распределение данных
Активные основные шарды Active Primary Shards Эта метрика представляет собой количество активных основных шардов в кластере. Основные шарды отвечают за обработку операций чтения и записи данных, которые они содержат
Инициализирующиеся шарды Initializing Shards Метрика показывает количество шардов, которые в настоящее время находятся в процессе инициализации. Шарды проходят эту фазу при создании или при восстановлении после сбоя. Большое количество инициализирующихся шардов может указывать на то, что кластер все еще восстанавливается после недавнего события
Перемещающиеся шарды Relocating Shards Эта метрика показывает количество шардов, которые перемещаются с одного узла на другой внутри кластера. OpenSearch автоматически балансирует распределение данных, перемещая шарды, когда добавляются или удаляются узлы или происходит перебалансировка кластера
Не назначенные шарды Unassigned Shards Метрика отображает количество шардов, которые в настоящее время не назначены ни на один узел в кластере. Это может происходить во время инициализации кластера или когда возникают проблемы с распределением узлов

Node

Перечень виджетов блока Node приведен в таблице 8.

Таблица 8 – Перечень виджетов приборной панели OpenSearch. Блок "Node"

Метрика рус. Метрика англ. Назначение метрики Визуализация
Базовый уровень загрузки центрального процессора CPU Basic Метрика показывает процент загрузки центрального процессора системными и пользовательскими узлами OpenSearch
Базовый уровень загрузки сетевого траффика Network Traffic Basic Метрика показывает нагрузку на сетевой траффик узлами кластера OpenSearch

Documents

Перечень виджетов блока Documents приведен в таблице 9.

Таблица 9 – Перечень виджетов приборной панели OpenSearch. Блок "Documents"

Метрика рус. Метрика англ. Назначение метрики Визуализация
Индексированные документы Documents Indexed Эта метрика показывает общее количество документов, проиндексированных (т.е. добавленных или обновленных) в кластере OpenSearch. Она позволяет оценить рост данных и активность индексации.
Размер индекса Index Size Метрика отображает общий размер всех индексов в кластере OpenSearch. Мониторинг этой метрики важен для управления хранилищем и понимания объема данных в кластере
Скорость индексации документов Documents Indexed Rate Метрика показывает скорость добавления новых документов в кластер OpenSearch. Это помогает понять пропускную способность индексации и производительность
Скорость запросов Query Rate Метрика показывает частоту выполнения поисковых запросов в кластере OpenSearch. Мониторинг этой метрики важен для оценки производительности поиска и выявления возможных узких мест
Количество запросов в очереди Queue Count Метрика отображает количество ожидающих поисковых и индексирующих запросов в очереди. Большое количество запросов в очереди может указывать на то, что кластер испытывает трудности с обработкой поступающих запросов

System

Перечень виджетов блока System приведен в таблице 10.

Таблица 10 – Перечень виджетов приборной панели OpenSearch. Блок "System"

Метрика рус. Метрика англ. Назначение метрики Визуализация
Общая память Total Memory Метрика показывает общий объем памяти, доступной процессу OpenSearch. Важно отслеживать эту метрику, чтобы убедиться, что кластер располагает достаточным объемом памяти для обработки своей нагрузки
Свободная память Total Memory Free Метрика показывает, сколько из общей памяти в настоящее время не используется процессом OpenSearch. Важно иметь достаточно свободной памяти для оптимальной производительности
Доступная память Total Memory Available Метрика показывает, сколько из общей памяти в настоящее время доступно OpenSearch. Важно иметь достаточно свободной памяти для оптимальной производительности
Доступные диски Total Disk Available Метрика показывает, сколько из общей памяти в настоящее время доступно OpenSearch на всех дисках
Пулы потоков Thread Pools Метрика показывает информацию о пулах потоков, используемых OpenSearch для различных операций, таких как поиск, индексирование и пакетные запросы. Мониторинг использования пулов потоков помогает оценить состояние системы и производительность
Отказы пулов потоков Thread pool rejections Метрика показывает количество раз, когда пулы потоков отклонили входящие запросы из-за высокой нагрузки или ограничений ресурсов. Отказы могут привести к снижению производительности или проблемам с обслуживанием
Использование центрального процессора Avg. CPU Usage Метрика показывает сколько процентов загрузки центрального процессора занято процессами OpenSearch
Средний объем кучи за 15 минут Avg Heap in 15min Метрика показывает использование объема кучи (heap) памяти за 15-минутный интервал. Куча памяти важна для производительности OpenSearch, и мониторинг среднего использования помогает обеспечить эффективное управление памятью
Скорость RX/TX 5м RX/TX Rate 5m Метрика "Скорость RX/TX 5м" отображает скорость приема (RX) и передачи (TX) данных кластером OpenSearch за период в 5 минут. Эта метрика важна для мониторинга сетевого трафика и выявления возможных проблем с сетью
Время работы сборщика мусора GC seconds Метрика показывает время, затраченное сборщиком мусора на освобождение памяти от объектов, которые больше не используются. Длительное время работы сборщика мусора может повлиять на производительность кластера, поэтому мониторинг этой метрики важен