Система мониторинга ИТ-сервисов
Назначение
Современный бизнес все сильнее и сильнее зависит от информационных технологий. Как результат, качество услуг, предоставляемых ИТ подразделениями, становится жизненно важным. Обеспечение качества невозможно без его постоянного контроля, и для решения этой задачи был создан новый класс систем – системы мониторинга.
Система мониторинга KP3100EX представляет собой автономный программно-аппаратный комплекс, не требующий обслуживания, и обеспечивающий непрерывный контроль качества предоставляемых ИТ-службой сервисов, и, в случае обнаружения проблемы, ее немедленную эскалацию.
Особенности
Система построена по зонтичной архитектуре с реализацией как PUSH, так и PULL- механизмов контроля. Основой системы является диспетчерское ядро, дополненное модулями, обеспечивающими непосредственный контроль технических параметров.
Отличительной особенностью системы является отсутствие необходимости в обслуживании – после настройки она функционирует абсолютно автономно и не требует регулярного техобслуживания.
Важным фактором, позволяющим нам предлагать столь эффективное по цене решение, является широкое использование ПО с открытым исходным кодом (Open Source Software), доказавшего свою эффективность и жизнеспособность в крупнейших датацентрах мира.
Состав системы
Система построена по модульному принципу, что позволяет создавать комплексы под различные задачи - от контроля серверной комнаты малого предприятия до контроля работоспособности всего ИТ-хозяйства крупного холдинга.

Основные модули:
- Диспетчерский модуль определяет перечень контролируемых показателей и периодичность их проверки.
- Модуль отчетности генерирует отчеты о качестве оказанных ИТ услуг (процент доступности сервисов, количество инцидентов за период и т.д.)
- Модуль уведомления позволяет немедленно уведомлять ответственных сотрудников с помощью SMS и электронной почты.

Дополнительные модули:
- Модуль контроля прикладных систем позволяет контролировать состояние бизнес процессов с помощью анализа информации, доступной из базы данных приложения.
- Модуль контроля СУБД контролирует состояние и основные параметры реляционных СУБД, таких как MS SQL и Oracle.
- Модуль контроля серверов – контролируются наиболее важные параметры серверов, такие как загрузка CPU и RAM, количество свободного места на дисках, запущенные процессы и сервисы
- Модуль контроля Storage систем контролирует состояние дисковых массивов и дисков, состояние батарей и вентиляторов.
- Модуль контроля систем резервного копирования контролирует наличие всех запланированных резервных копий, статус оборудования резервного копирования
- Модуль контроля рабочих станций – контролируются наиболее важные параметры рабочих станций (активный пользователь, запущенные приложения, место на диске и т.п)
- Модуль контроля СКС и ЛВС – контроль качества кабельных каналов и доступность активного сетевого оборудования
- Модуль контроля окружающей среды – контроль таких параметров, как влажность, температура, шум, задымление, затопление, контроль датчиков физического доступа
- Графический модуль позволяет в наглядном виде отражать текущее состояние на географических картах, поэтажных планах, схемах серверных помещений и т.п.
Характеристики комплекса мониторинга KP3100EX
Общие параметры:
- централизованный контроль и мониторинг показателей оборудования и программного обеспечения, установленного в локальной сети, в том числе мониторинг загрузки ресурсов и производительности;
- доступ к средствам мониторинга и управления через WEB интерфейс с рабочей станции администратора;
- возможность просмотра в хронологическом порядке событий, предшествующих инциденту;
- анализ корреляции событий на основе топологической информации (RCA - root cause analysis);
- возможность разграничения прав доступа операторов;
- передача сообщений о сбоях в центральную систему обработки событий
- оповещение операторов и ответственных лиц о событиях через электронную почту и SMS
- возможность интеграции с системами автоматизации Help Desk (Service Desk): для выявляемых программным обеспечением мониторинга аварий возможно автоматически формировать наряды на устранение аварии сервисной службой
- полная поддержка мониторинга распределенных систем.
- используя данные, собираемые агентами модуля мониторинга и управления серверами и приложениями, комплекс производит:
- автоматизированный анализ тенденций и создание отчетов по показателям производительности;
- выделение назревающих проблем до того, как они негативно повлияют на уровень обслуживания;
- предупреждение о непредвиденной нехватке ресурсов;
- ускорение цикла обнаружения проблем;
- Для всех контролируемых параметров отслеживаемых систем:
- определяются граничные значения, превышение которых считается критичным;
- имеется набор готовых ситуаций (пороговых значений мониторинга, правил их сопоставления с данными мониторинга, правил уведомлений);
- при наличии одновременного наличия нескольких критичных превышений система мониторинга производит автоматический поиск первопричины аварии, и блокирует «ложные срабатывания».
Контроль аппаратной части серверов:
- инвентаризационные данные аппаратуры: серийные номера серверов, жестких дисков, устройств расширения (контроллеров), объем установленной оперативной памяти;
- состояние сервера (включен/выключен), выходные напряжения блоков питания, температуры, состояния датчиков открытия крышек корпуса, обороты вентиляторов;
Контроль операционных систем:
- контроль параметров операционных систем (IBM AIX, Linux for x86, SUSE Linux, Microsoft Windows) и работающих процессов:
- доступность сетевых сервисов, предоставляемых данным сервером,
- активность процессов, которые должны выполняться в системе, включая контроль наличия обязательных процессов и контроль отсутствия запрещенных процессов, список подключенных пользователей,
- текущие характеристики подсистемы памяти, включая количество страниц pgin/pgout за отчетный период, размер используемой виртуальной и физической памяти,
- процент загрузки процессоров,
- контроль внеплановых перезагрузок операционной системы,
- размер свободного места на дисках,
- процент загрузки дисковой подсистемы, включая количество IPS и OPS за отчетный интервал;
- контроль над удаленной системой; выполнение команд и запуск приложений (активный режим монитора);
- просмотр экранов на удаленных системах и мониторинг деятельности (пассивный режим монитора);
- возможность перезагрузки удаленной рабочей станции, сервера, операционной системы, виртуальной машины;
- возможность обмена сообщениями - режим обмена сообщениями с выбранным объектом;
- возможность обмена файлами - отправка и/или получение файлов/каталогов;
- возможность и наличие средств записи и воспроизведения сессии;
- средства регистрации событий в ОС и средства построения отчетов по результатам мониторинга;
Контроль состояния систем хранения:
- (включен/выключен),
- наличие сбоя или отказа,
- значения датчиков температуры,
- исправность вентиляторов, состояние контроллеров,
- статус исправности отдельных дисков,
- статус консистентности массивов;
Контроль ленточных библиотек:
- контроль наличия ошибок ввода-вывода,
- контроль состояния компонент системы.
Контроль сетевого оборудования:
- контроль состояния сбоя или отказа, состояние вентиляторов;
- для всего доступного по ЛВС оборудования, включая серверы, системы хранения, активное сетевое оборудование, системы архивирования: наличие отклика интерфейса по сети (ICMP), время прохождения пакета, процент потерь пакетов;
- мониторинг состояния активного сетевого оборудования и критичного к сбою оборудования сетевой инфраструктуры, включая поддерживающие SNMP протокол источники бесперебойного питания;
- построение и отображение топологических карт сети на рабочей станции администратора или оператора при помощи WEB интерфейса в стандартном браузере Интернет;
- активный мониторинг состояния активного сетевого оборудования и устройств через активный опрос сетевой инфраструктуры по протоколам ICMP, SNMP v1, SNMP v2, SNMP v3;
- пассивный мониторинг состояния активного сетевого оборудования и устройств через SNMP прерывания (SNMP traps) и сообщения протокола SYSLOG;
Контроль источников бесперебойного питания:
- контроль процента заряда батареи,
- наличие сбоя или отказа,
- температура батареи и окружающей среды,
- факт работы от батаре.
Контроль веб-серверов:
- контроль активности процессов (включая контроль по заданным признакам с помощью специализированных скриптов)
- контроль количества одновременно открытых сессий,
- контроль времени формирования заданного набора страниц,
- контроль объема виртуальной памяти, занимаемой веб-сервером.
Контроль серверов баз данных:
- контроль активности процессов (включая контроль по заданным признакам с помощью специализированных скриптов)
- контроль проведения последнего резервного копирования, отклик сервера на команды подключения, выборки и изменения данных, количество невалидных объектов в базах;
- набор агентов для баз данных Oracle, MS SQL Server, IBM DB2.
Контроль почтовых серверов:
- контроль активности процессов (включая контроль по заданным признакам с помощью специализированных скриптов)
- мониторинг и управление промышленными системами почты
- отслеживание прохождения почтовых сообщений (тестовые сообщения)
Контроль серверов резервного копирования:
- контроль активности процессов (включая контроль по заданным признакам с помощью специализированных скриптов);
- контроль на наличие ошибок;
- контроль состояния всех пулов хранения, состояние ленточных томов, количество свободного места в пулах хранения;
- контроль наличия запросов от системы резервного копирования.
Диспетчерский модуль:
- система обработки, реагирования и корреляции событий;
- централизованная обработка и корреляция аварийных сообщений, поступающих от разнородных источников, включая оборудование и управляющие программы различных производителей;
- хранение исторических данных модуля с использованием реляционных СУБД или других средств хранения информации;
- передача информации о сбоях, в том числе поступившей из других подсистем в подсистему диспетчерской службы;
- возможность организовывать двухсторонний информационный обмен с внешними системами;
- полнофункциональный графический WEB интерфейс администраторов и операторов;
- немедленная визуализация в виде графиков или диаграмм текущих значений параметров контролируемой подсистемы по контексту произошедшего события;
- централизованное конфигурирование и распространение параметров и настроек мониторинга;
- штатная поддержка агентами мониторинга возможности контроля параметров доступных по протоколам и интерфейсам: SNMP, Microsoft WMI, Perfmon и Eventlog, ODBC (SQL запросы), HTTP (доступность и время отклика);
- анализ тенденций и создание отчетов о доступности и производительности ресурсов;