Перейти к содержанию

Диагностика состояния Платформы Радар

Диагностика состояния Платформы Радар осуществляется с помощью специального скрипта диагностики. Скрип диагностики cluster_diagnostic.sh обеспечивает проверку состояния всех сервисов и компонентов Платформы Радар. Скрипт проводит диагностику установок как на один сервер, так и распределенную (кластер).

В случае обнаружения ошибок скрипт собирает данные диагностики, относящие к данному сервису и окружению узла, на котором обнаружены ошибки работы, при этом не собирая данные с других узлов кластера или узлов, не относящихся к проблеме.

Скрипт не собирает данные диагностики, относящиеся к работе лог-коллектора, как Linux так и Windows.

Параметры командной строки скрипта

  • -h - вывести список доступных параметров;
  • --diag - собрать данные диагностики по всем сервисам и узлам кластера Платформы Радар;
  • --elastic-err - выгрузить в архив ошибки парсинга. В случае использования ключа --diag данные так же выгружаются;
  • --export-rule - экспортирует активные правила корреляци;
  • --export-prometheus- экспортирует данные диагностики в архив;
  • --encrypted - шифрование архива данных диагностики;
  • --diag-data - сбор данных диагностики с data nodes;
  • --diag-master - сбор данных диагностики c master node;
  • --diag-monitoring - сбор данных диагностики c monitoring;
  • --diag-worker - сбор данных диагностики c worker nodes;
  • --diag-infra - сбор данных диагностики c infra node;
  • --diag-balancer - сбор данных диагностики c balancer node;
  • --diag-correlator - сбор данных диагностики c correlator nodes;
  • --diag-eventsrouter - сбор данных диагностики c eventsrouter nodes.

Перечень сведений выгружаемых скриптом диагностики

Сервисы

  • cтатус сервиса (systemctl status);
  • журнал работы (journalctl);
  • доступность портов.

Дополнительные журналы по сервисам (ролям):

  • Data - Журналы работы ноды (/var/log/elasticsearch/)
  • Data - Ошибки парсинга и нормализации (при использовании соответствующих параметров)
  • Worker - Журналы работы и ошибки
  • Correlator - Журналы работы (без журналов работы правил корреляции)
  • Веб-сервер - Журналы доступа и ошибки
  • Master (База данных) - Журналы работы и ошибки

Сбор данных на узле с ролью master

  • Доступность серверов и их IP адреса
  • Список ролей и их IP адреса
  • Контрольные суммы установленных пакетов Платформы радар
  • Параметры настройки Платформы Радар
  • Шаблоны файлов конфигурации Платформы Радар
  • SSH список известных хостов (known_hosts)
  • Состояние (размер очереди) уведомлений правил корреляции
  • Открытые ключи доступа SSH (закрытые ключи не затрагиваются)

Окружение для всех узлов

  • Информация о используемом процессоре
  • Информация об оперативной памяти и ее использовании
  • Файлы конфигурации сервисов Платформы Радар
  • Файлы конфигурации системы (/etc/)
  • Журналы работы (journalctl)
  • Список активных процессов
  • Версию операционной системы
  • Журнал установки компонентов Платформы Радар
  • Список примонтированных устройств и файловой системе
  • Историю выполняемых команд
  • Журналы установки пакетов (APT, DPKG)
  • Список установленных пакетов
  • Текущие маршруты (route)
  • Настройки сети
  • Доступную память
  • Информацию о дисковом пространстве и именах дисков
  • Журналы авторизации
  • Информация о настройках окружения (env)
  • Ошибки работы скрипта диагностики (в случае использования параметра --diag)
  • Список подключенных репозиториев Debian (etc/apt/sources.list)
  • Настройки ядра Linux (sysctl)
  • Список запланированных задач (Cron)