Мониторинг
Общие данные
В качестве системы мониторинга используются сервисы Prometheus и Grafana.
Prometheus собирает сведения о работе платформы и ресурсах.
Grafana выводит данные сведения на следующие приборные панели:
- Общий мониторинг – мониторинг основных параметров Платформы Радар;
- Поток событий – мониторинг параметров потока событий;
- Kafka – мониторинг параметров системы обмена сообщениями «Kafka»;
- Статистика потока – мониторинг показателей обработки потока событий;
- OpenSearch – мониторинг параметров поисковой системы «OpenSearch».
Сервисы Node-exporter, Kafka-exporter, Opensearch-exporter отвечают за сбор метрик с узлов платформы, службы Kafka и хранилища обработанных событий, соответственно.
Рекомендации по установке сервисов для обеспечения сбора метрик и мониторинга платформы:
- Prometheus – устанавливается на сервер с ролью "Monitoring" и собирает метрики с использованием различных экспортеров:
- Node_exporter – устанавливается на каждый узел платформы и позволяет собирать метрики операционной системы;
- Kafka_exporter – устанавливается на сервер с ролью "Balancer" и позволяет собирать метрики Kafka;
- Opensearch-exporter – устанавливается на сервер с ролью "Data" и позволяет собирать метрики OpenSearch.
Примечание: В Платформе Радар предусмотрена возможность передачи метрик производительности во внешние системы мониторинга.
Платформа Радар обеспечивает многострочный вывод метрик производительности в формате строки «Prometheus» (ключ, значение), что позволяет экспортировать метрики в систему «Zabbix».
Элементы управления мониторингом
Для просмотра приборных панелей перейдите в раздел Мониторинг и из выпадающего списка выберите необходимый пункт: Общий мониторинг, Поток событий, Kafka,Статистика потока или OpenSearch. Откроется выбранная приборная панель.
Для отображения информации в приборных панелях используются виджеты.
В общем случае используются следующие типы виджетов:
-
Первый тип – виджет, отображающий конкретное значение метрики:
-
Второй тип – виджет, отображающий тенденцию изменения показателя за период времени в виде графика:
-
Третий тип – виджет, отображающий тенденцию изменения показателя за период времени в виде графика с таблицей:
При наведении курсора мыши на виджет с графиком будет выведена дополнительная информация:
При клике на наименование виджета, откроется выпадающий список со следующими действиями:
- View – открыть виджет на весь экран;
- Share – поделиться виджетом. Будет предоставлен механизм по извлечению ссылки на виджет, созданию снимка (snapshot) или копированию виджета в буфер обмена;
- Inspect – просмотр подробного журнала виджета, который при необходимости можно скачать в формате
.csv
; - More... – доступ к дополнительным действиям над виджетом, например скрыть/показать легенду.
По клавише Esc открывается панель инструментов сервиса Grafana, которая предоставляет следующие дополнительные функции:
- выбрать источник данных для отображения метрик;
- выбрать конкретный хост;
- задать период формирования информации на виджетах;
- задать период автоматического обновления информации на виджетах.
Чтобы скрыть панель инструментов сервиса Grafana нажмите кнопку .
Общий мониторинг
В наборе приборных панелей «Общий мониторинг» представлена подробная информация по собираемым метрикам с хоста, на котором установлена платформа. Информация сгруппирована по следующим блокам:
- Quick CPU / Mem / Disk – мониторинг текущих значений таких показателей как потребление памяти, нагрузка центрального процессора и т.д.;
- Basic CPU / Mem / Net / Disk – мониторинг базовой информации о динамике изменения показателей потребления памяти, нагрузки центрального процессора, сетевого траффика и т.д.;
- CPU / Memory / Net / Disk – мониторинг расширенной информации о динамике изменения показателей потребления памяти, нагрузки центрального процессора, сетевого траффика и т.д.;
- Memory Meminfo – мониторинг информацию об использовании памяти в реальном времени, а также о буферах и разделяемой памяти, используемой ядром;
- Memory Vmstat – мониторинг информации о памяти, процессоре, процессах и операциях ввода-вывода;
- System Timesync – мониторинг состояния синхронизации времени локальной системы по протоколу NTP с внешними NTP-серверами;
- System Processes мониторинг информации об операциях и ресурсах на системном уровне;
- System Misc – мониторинг состояния программной части архитектуры;
- Hardware Misc – мониторинг состояния аппаратной части архитектуры;
- Systemd – мониторинг состояния подсистемы инициализации и управления службами в Linux;
- Storage Disk – мониторинг состояния мест хранения;
- Storage Filesystem – мониторинг состояния файловой системы;
- Network Traffic – мониторинг состояния сетевого траффика ;
- Network Sockstat – мониторинг статистики работы сетевых сокетов;
- Network Netstat – мониторинг сетевых подключений;
- Node Exporter – мониторинг работы сервиса Node Exporter и информации с узлов кластера.
Пример приборной панели "Общий мониторинг" приведен на рисунке 1.
Рисунок 1 – Раздел "Мониторинг". Общий мониторинг
Поток событий
Приборная панель "Поток событий" предназначена для мониторинга метрик обрабатываемых событий в секунду (EPS). Пример приборной панели приведен на рисунке 2.
Рисунок 2 – Раздел "Мониторинг". Поток событий
На панелях отображаются следующие метрики:
- Суммарный поток событий – метрика показывает текущую скорость потока событий (EPS) со всех доступных источников и тенденцию изменения EPS за период времени;
- Поток событий от конкретного источника – набор метрик показывает текущую скорость потока событий от каждого конкретного источника, подключенного к платформе. Например, «microsoft windows eventlog», «microsoft windows dns» и т.д.
Метрики делятся на два виджета:
- Слева – виджет с отображением информации о текущем потоке событий;
- Справа – виджет по потоку событий в виде линейных графиков, построенных на основе исторических данных.
Kafka
Приборная панель "Kafka" предназначена для мониторинга состояния производительности сервиса Kafka, который отвечает за передачу данных и событий между сервисами платформы.
Перечень виджетов приборной панели приведен в таблице 1.
Таблица 1 – Перечень виджетов приборной панели "Kafka"
Метрика рус. | Метрика англ. | Назначение метрики | Визуализация |
---|---|---|---|
Топики | Topics | Метрика отображает количество топиков (каналов), в которых производители (продюсеры) публикуют сообщения, а потребители (консьюмеры) читают их | ![]() |
Разделы | Partitions | Метрика показывает количество разделов в топиках. Разделы - это логические единицы топика, каждая из которых представляет отдельную очередь событий | ![]() |
Сообщения в секунду | Messages in per second | Эта метрика отображает количество сообщений, которые производители публикуют в топик за одну секунду (скорость записи данных в топик) | ![]() |
Сообщения, обработанные в секунду | Messages consumed per second | Эта метрика показывает количество сообщений, которые потребители (консьюмеры) считывают из топика за одну секунду (скорость чтения данных из топика) | ![]() |
Отставание по группе потребителей | Lag by Consumer Group | Отставание - это разница между последним смещением (offset) сообщения, записанным в топике, и последним смещением, прочитанным потребителем. Эта метрика показывает, насколько сильно группа потребителей отстает от текущего состояния топика | ![]() |
Смещение группы потребителей | Consumer Group Offsets | Смещение - это уникальный идентификатор каждого сообщения в топике. Для каждой группы потребителей Kafka хранит информацию о последних смещениях, которые были прочитаны этой группой | ![]() |
Задержка группы потребителей | Consumer Group Lag | Задержка группы потребителей — это суммарное отставание по всем потребителям, входящим в определенную группу потребителей. Метрика показывает, насколько группа потребителей отстает от конца топика | ![]() |
Количество разделов | Number of Partitions | Общее количество разделов во всех топиках на кластере Kafka. Эта метрика отражает разбиение топиков на более мелкие единицы для обеспечения масштабируемости и параллельной обработки данных | ![]() |
Последние смещения | Latest Offsets | Это значение смещения (offset), которое соответствует последнему доступному сообщению в каждом разделе топика. Каждый раздел имеет своё собственное последнее смещение, которое указывает на конец данных в данном разделе | ![]() |
Наименьшие смещения | Oldest Offsets | Это значение смещения (offset), которое соответствует самому старому доступному сообщению в каждом разделе топика. Каждый раздел имеет своё собственное наименьшее смещение, которое указывает на начало данных в данном разделе | ![]() |
Статистика потока
Приборная панель Статистика потока предназначена для мониторинга статистики потока событий и содержит четыре раздела:
- Общая информация – блок содержит данные о потоке событий;
- Обработчик событий – блок содержит данные о работе сервиса Termite;
- Коррелятор – блок содержит данные о работе коррелятора;
- Табличные списки – блок содержит данные о тенденции использования RVS.
Общая информация
Перечень виджетов блока Общая информация приведен в таблице 2.
Таблица 2 – Перечень виджетов приборной панели "Статистика потока". Блок "Общая информация"
Метрика рус. | Метрика англ. | Назначение метрики | Визуализация |
---|---|---|---|
Суммарный поток событий | Total flow of events | Это количество событий, которые поступают в платформу за одну секунду. Эта метрика показывает общую интенсивность поступления событий и помогает определить, насколько нагружена система | ![]() |
Задержка разбора входящего потока событий | Delay in parsing the incoming event flow | Это общее время, требуемое для разбора всех входящих событий и преобразования их в структурированные сообщения (message). Эта метрика предоставляет информацию о производительности разбора в целом | ![]() |
Задержка обработки событий на корреляцию | Delay in event processing for correlation | Это время, затрачиваемое на обработку событий перед отправкой их на этап корреляции. Задержка измеряется в процессе преобразования событий в структурированные сообщения | ![]() |
Задержка ответа обращения к табличным спискам | Delay in the response of accessing RVS | Это время, необходимое для выполнения запроса к табличным спискам. Эта метрика показывает производительность базы данных или других хранилищ данных, используемых для хранения информации о списке правил или других данных | ![]() |
Задержка разбора входящего потока событий по источнику | Delay in parsing the incoming event flow by source | Это время, требуемое для разбора (обработки) события с момента его поступления в систему до создания структурированного сообщения (message). Задержка измеряется для каждого источника событий отдельно | ![]() |
Обработчик событий
Перечень виджетов блока Общая информация приведен в таблице 3.
Таблица 3 – Перечень виджетов приборной панели "Статистика потока". Блок "Обработчик событий"
Метрика рус. | Метрика англ. | Назначение метрики | Визуализация |
---|---|---|---|
Скорость чтения событий из балансировщика | The speed of reading events from the balancer | Эта метрика отражает скорость, с которой термит читает события из балансировщика | ![]() |
Суммарный поток событий на этапе разбора | The total flow of events at the parsing stage | Метрика показывает производительность термита и отображает количество событий, которые обрабатываются на этапе разбора | ![]() |
Общая производительность | Overall performance | Метрика показывает общую производительность термита и отображает количество событий, которые обрабатываются термитом на каждом инстансе | ![]() |
Суммарный поток событий на этапе нормализации | Total flow of events at the normalization stage | Метрика показывает количество событий, которые проходят через процесс нормализации данных | ![]() |
Суммарный поток событий на этапе обогощени | The total flow of events at the stage of enrichment | Метрика показывает количество событий, которые проходят процесс обогащения данных. Обогащение позволяет дополнить события дополнительной информацией, которая может быть полезна при анализе событий | ![]() |
Скорость обработки событий по источнику | The speed of event processing by source | Эта метрика указывает на скорость обработки событий для каждого источника. Это позволяет выявить источники с наибольшей интенсивностью событий | ![]() |
Суммарный лаг записи на хранение | The total record lag for storage | Это задержка, которая может возникнуть при записи обработанных событий в хранилище данных | ![]() |
Коррелятор
Перечень виджетов блока Коррелятор приведен в таблице 4.
Таблица 4 – Перечень виджетов приборной панели "Статистика потока". Блок "Коррелятор"
Метрика рус. | Метрика англ. | Назначение метрики | Визуализация |
---|---|---|---|
Поток правил корреляции (EPS) | Correlation Rule Flow (EPS) | Это количество "сработок" правил корреляции, которые применяются в платформе за одну секунду | ![]() |
Суммарный поток событий на этапе корреляции | The total flow of events at the correlation stage | Это количество событий, которые проходят через процесс корреляции, где анализируется связь между различными событиями для выявления потенциальных угроз или аномалий | ![]() |
Табличные списки
Перечень виджетов блока Табличные списки приведен в таблице 5.
Таблица 5 – Перечень виджетов приборной панели "Статистика потока". Блок "Табличные списки"
Метрика рус. | Метрика англ. | Назначение метрики | Визуализация |
---|---|---|---|
Задержка ответа обращения к табличным спискам | Delay in the response of accessing RVS | Это время, которое требуется для выполнения запроса к табличным спискам. | ![]() |
Суммарный поток запросов к табличным спискам (QPS) | The total flow of queries to RVS (QPS) | Это количество запросов, которые выполняются к табличным спискам за одну секунду. | ![]() |
OpenSearch
Приборная панель OpenSearch предназначена для мониторинга состояния производительности сервиса OpenSearch, отвечающим за хранение и поиск событий, по следующим категориям:
- Cluster – информация об общем влиянии служб OpenSearch на состояние кластера и его узлов;
- Shards – информация о состоянии шардов. Шард представляет собой основную единицу данных в OpenSearch и может быть либо основным шардом (хранит первоначальную копию данных), либо репликой (копия основного шарда для обеспечения отказоустойчивости);
- Node – информация о состоянии узлов кластера;
- Documents – информация о состоянии хранящихся в сервисе записей и документов;
- System – информация о влиянии служб OpenSearch на состояние системы, на которой он развернут.
Cluster
Перечень виджетов блока Cluster приведен в таблице 6.
Таблица 6 – Перечень виджетов приборной панели OpenSearch. Блок "Cluster"
Метрика рус. | Метрика англ. | Назначение метрики | Визуализация |
---|---|---|---|
Состояние кластера | Cluster Status | Эта метрика показывает общее состояние кластера: – зеленый" (green) – все функционирует нормально; – желтый" (yellow) – некоторые реплики данных недоступны, но кластер все равно работоспособен; – красный" (red) – некоторые основные шарды недоступны, что приводит к потере данных и нарушению работы сервиса. |
![]() |
Индексы | Indices | Эта метрика отображает количество индексов в кластере. Индекс представляет собой набор документов с похожими характеристиками, которые хранятся вместе. Мониторинг этой метрики помогает отслеживать рост данных и организацию в кластере | ![]() |
Работающие узлы | Running Nodes | Метрика "Работающие узлы" показывает количество узлов, которые в настоящее время активны и участвуют в кластере. Узлы – это отдельные экземпляры OpenSearch, которые содержат данные и выполняют операции с данными. Мониторинг этой метрики гарантирует, что все узлы работоспособны и способствуют производительности кластера | ![]() |
Активные узлы с данными | Active Data Nodes | Метрика "Активные узлы с данными" указывает количество узлов, которые содержат данные в кластере. Не все узлы в кластере обязательно хранят данные, так как некоторые могут служить только как координаторы или узлы-мастера. Отслеживание этой метрики помогает понять распределение и баланс данных в кластере | ![]() |
Ожидающие задачи | Pending Tasks | Эта метрика показывает количество задач, ожидающих выполнения в кластере OpenSearch. Задачи могут включать операции, такие как индексирование, поиск или обслуживание кластера. Большое количество ожидающих задач может указывать на то, что кластер перегружен или испытывает проблемы с производительностью | ![]() |
Shards
Перечень виджетов блока Shards приведен в таблице 7.
Таблица 7 – Перечень виджетов приборной панели OpenSearch. Блок "Shards"
Метрика рус. | Метрика англ. | Назначение метрики | Визуализация |
---|---|---|---|
Активные шарды | Active Shards | Метрика "Активные шарды" отражает количество шардов, которые в настоящее время активны и функционируют в кластере OpenSearch. Шард представляет собой основную единицу данных в OpenSearch и может быть либо основным шардом (хранит первоначальную копию данных), либо репликой (копия основного шарда для обеспечения отказоустойчивости). Мониторинг этой метрики помогает обеспечить доступность и распределение данных | ![]() |
Активные основные шарды | Active Primary Shards | Эта метрика представляет собой количество активных основных шардов в кластере. Основные шарды отвечают за обработку операций чтения и записи данных, которые они содержат | ![]() |
Инициализирующиеся шарды | Initializing Shards | Метрика показывает количество шардов, которые в настоящее время находятся в процессе инициализации. Шарды проходят эту фазу при создании или при восстановлении после сбоя. Большое количество инициализирующихся шардов может указывать на то, что кластер все еще восстанавливается после недавнего события | ![]() |
Перемещающиеся шарды | Relocating Shards | Эта метрика показывает количество шардов, которые перемещаются с одного узла на другой внутри кластера. OpenSearch автоматически балансирует распределение данных, перемещая шарды, когда добавляются или удаляются узлы или происходит перебалансировка кластера | ![]() |
Не назначенные шарды | Unassigned Shards | Метрика отображает количество шардов, которые в настоящее время не назначены ни на один узел в кластере. Это может происходить во время инициализации кластера или когда возникают проблемы с распределением узлов | ![]() |
Node
Перечень виджетов блока Node приведен в таблице 8.
Таблица 8 – Перечень виджетов приборной панели OpenSearch. Блок "Node"
Метрика рус. | Метрика англ. | Назначение метрики | Визуализация |
---|---|---|---|
Базовый уровень загрузки центрального процессора | CPU Basic | Метрика показывает процент загрузки центрального процессора системными и пользовательскими узлами OpenSearch | ![]() |
Базовый уровень загрузки сетевого траффика | Network Traffic Basic | Метрика показывает нагрузку на сетевой траффик узлами кластера OpenSearch | ![]() |
Documents
Перечень виджетов блока Documents приведен в таблице 9.
Таблица 9 – Перечень виджетов приборной панели OpenSearch. Блок "Documents"
Метрика рус. | Метрика англ. | Назначение метрики | Визуализация |
---|---|---|---|
Индексированные документы | Documents Indexed | Эта метрика показывает общее количество документов, проиндексированных (т.е. добавленных или обновленных) в кластере OpenSearch. Она позволяет оценить рост данных и активность индексации. | ![]() |
Размер индекса | Index Size | Метрика отображает общий размер всех индексов в кластере OpenSearch. Мониторинг этой метрики важен для управления хранилищем и понимания объема данных в кластере | ![]() |
Скорость индексации документов | Documents Indexed Rate | Метрика показывает скорость добавления новых документов в кластер OpenSearch. Это помогает понять пропускную способность индексации и производительность | ![]() |
Скорость запросов | Query Rate | Метрика показывает частоту выполнения поисковых запросов в кластере OpenSearch. Мониторинг этой метрики важен для оценки производительности поиска и выявления возможных узких мест | ![]() |
Количество запросов в очереди | Queue Count | Метрика отображает количество ожидающих поисковых и индексирующих запросов в очереди. Большое количество запросов в очереди может указывать на то, что кластер испытывает трудности с обработкой поступающих запросов | ![]() |
System
Перечень виджетов блока System приведен в таблице 10.
Таблица 10 – Перечень виджетов приборной панели OpenSearch. Блок "System"
Метрика рус. | Метрика англ. | Назначение метрики | Визуализация |
---|---|---|---|
Общая память | Total Memory | Метрика показывает общий объем памяти, доступной процессу OpenSearch. Важно отслеживать эту метрику, чтобы убедиться, что кластер располагает достаточным объемом памяти для обработки своей нагрузки | ![]() |
Свободная память | Total Memory Free | Метрика показывает, сколько из общей памяти в настоящее время не используется процессом OpenSearch. Важно иметь достаточно свободной памяти для оптимальной производительности | ![]() |
Доступная память | Total Memory Available | Метрика показывает, сколько из общей памяти в настоящее время доступно OpenSearch. Важно иметь достаточно свободной памяти для оптимальной производительности | ![]() |
Доступные диски | Total Disk Available | Метрика показывает, сколько из общей памяти в настоящее время доступно OpenSearch на всех дисках | ![]() |
Пулы потоков | Thread Pools | Метрика показывает информацию о пулах потоков, используемых OpenSearch для различных операций, таких как поиск, индексирование и пакетные запросы. Мониторинг использования пулов потоков помогает оценить состояние системы и производительность | ![]() |
Отказы пулов потоков | Thread pool rejections | Метрика показывает количество раз, когда пулы потоков отклонили входящие запросы из-за высокой нагрузки или ограничений ресурсов. Отказы могут привести к снижению производительности или проблемам с обслуживанием | ![]() |
Использование центрального процессора | Avg. CPU Usage | Метрика показывает сколько процентов загрузки центрального процессора занято процессами OpenSearch | ![]() |
Средний объем кучи за 15 минут | Avg Heap in 15min | Метрика показывает использование объема кучи (heap) памяти за 15-минутный интервал. Куча памяти важна для производительности OpenSearch, и мониторинг среднего использования помогает обеспечить эффективное управление памятью | ![]() |
Скорость RX/TX 5м | RX/TX Rate 5m | Метрика "Скорость RX/TX 5м" отображает скорость приема (RX) и передачи (TX) данных кластером OpenSearch за период в 5 минут. Эта метрика важна для мониторинга сетевого трафика и выявления возможных проблем с сетью | ![]() |
Время работы сборщика мусора | GC seconds | Метрика показывает время, затраченное сборщиком мусора на освобождение памяти от объектов, которые больше не используются. Длительное время работы сборщика мусора может повлиять на производительность кластера, поэтому мониторинг этой метрики важен | ![]() |