Кто отвечает за то, чтобы сеть "Таттелекома" работала без сбоев, и разбирает до 125 различных ситуаций в сутки
Отрасли связи в регионе и "Таттелекому", как преемнику КГТС, сегодня исполнилось 136 лет. Один из старейших операторов связи в Поволжье уже прошел долгий путь. По понятным причинам, самый мощный рост технологического развития произошел за последнее десятилетие. "Реальное время" отправилось в "Таттелеком", чтобы посмотреть, как сегодня устроена система мониторинга сети связи по всей республике и кто отвечает за то, чтобы с мобильной сетью, с домофонией и с телесигналом все всегда было в порядке. Выяснилось, что в компании уже прошла "третья мониторинговая революция" и теперь система находится на высшем этапе развития. Подробности — в нашем репортаже.
Полет нормальный! А благодаря кому?
С 2018 года официально, а с 2021 года в обновленном формате в ПАО "Таттелеком" работает Единый центр управления и мониторинга сети. Здесь аккумулируется информация о техническом состоянии более 200 тысяч единиц оборудования на сети и почти 370 тысяч абонентских устройств. В режиме реального времени снимаются более 4,6 миллиона параметров, которые должны "укладываться" в границы нормальности. На случай, если что-то идет не так, в системе настроены триггеры — события, которые вызывают автоматическую реакцию сети.
— Мы снимаем более 4,6 миллиона различных параметров — это могут быть отклонения в части электропитания, уровня оптического сигнала, перезагрузка сервера, высокая нагрузка на канал связи и так далее. На основании этих показателей в сутки мы фиксируем порядка 20 тысяч различных сообщений — так называемых триггеров. Они могут быть предупредительными или аварийными, и на их основании сотрудники центра фиксируют в среднем до 125 событий в сутки. Наши инженеры локализуют проблему, выделяют географию повреждения, технологию, на которой произошла авария, и передают информацию далее, направляя на место аварийную бригаду, — объясняет Михаил Лозовой, руководитель центра.
Между инцидентами и повреждениями, которые регистрируются в центре управления и мониторинга сети, есть разница. Инциденты — события, которые не повлияли на абонентов (таких — половина). К примеру, поднялась температура в техническом помещении. Или было отключено внешнее электроснабжение, а телекоммуникационное оборудование перешло на резервный источник. Оно еще работает, абоненты еще ничего не почувствовали, но операторы центра уже получили автоматическое извещение, что там оборудование работает от аккумуляторной батареи или дизельного генератора. А повреждение — это когда у абонентов уже есть перебои в работе связи.
Всего в центре работают 48 человек, из них одновременно на дежурстве находятся до 20 сотрудников (в зависимости от нагрузки на сеть). Ночью работа тоже не останавливается: дежурят до 10 специалистов. Операторы центра контролируют состояние сети и качество услуг связи по всей республике, занимаются поддержкой систем мониторинга и координацией плановых и аварийных работ.
Михаил Лозовой сравнивает работу своего подразделения с диспетчерской вышкой в аэропорту. Авиадиспетчер ведет самолет в пределах рабочего пространства, за которое отвечает. Так и специалисты центра управления и мониторинга "Таттелекома" фиксируют события, анализируют их, передают техническим специалистам и сопровождают до момента устранения, постоянно находясь на связи с бригадами.
Когда работа окончена, операторы проверяют в системе мониторинга, все ли аварийные сообщения отработаны, в норме ли исходные параметры. И только потом закрывают инцидент, составляют отчет по событию — он отправляется в общую базу знаний "Таттелекома".
"Опергруппа" с генераторами, ловля вандалов и борьба с DDoS-атаками
Большую часть среди причин инцидентов занимает отключение внешнего электроснабжения — то есть события, на которые связисты никак повлиять не могут. Отключение электричества приводит к тому, что "падает" телекоммуникационное оборудование, которое не имеет гарантированного автономного источника питания.
Но зачастую используется превентивный подход. Михаил Лозовой рассказывает:
— При получении сообщений предупредительного характера мы можем организовать выезд сотрудников. Например, если речь идет о переходе на альтернативное питание по причине аварийных работ на электросети и не установлены сроки устранения, организуется выезд с бензогенератором или переносными аккумуляторами, чтобы большой узел связи не обесточился. Недавно из-за массового отключения электричества в районе организовали передвижение наших сотрудников с электрогенераторами по узлам связи на протяжении нескольких дней. В результате связь для жителей этой локации не прерывалась ни на минуту. И все это благодаря в том числе налаженному процессу мониторинга и управления в компании.
Еще одна частая причина того, что "падает" связь, — порывы на сети: при земляных работах или в силу погодных условий. Интересное статистическое наблюдение: в разы меньше инцидентов и повреждений, а иногда и их полное отсутствие, фиксируется в продолжительные выходные, например в майские праздники и в новогодние каникулы.
Иногда сотрудники центра выступают не только как технические специалисты. В прошлом году с их помощью ловили одного вредителя, серийно выводившего из строя домофоны в Набережных Челнах: рисовали маршрут его передвижения, отслеживая по камерам видеонаблюдения, информацию передавали сотрудникам полиции, и в результате его настигли.
К стандартным ситуациям специалисты центра подходят подготовленными, но бывают и нетиповые проблемы. К примеру, во время масштабных DDoS-атак на систему фиксируется резкое повышение трафика и массовое срабатывание различных триггеров по всей сети. В этих случаях операторы начинают подключать к проблеме специалистов смежных подразделений.
"Пока не разобрана вся информация, инцидент обработанным не считается"
Михаил Лозовой показывает дашборд, наглядно отражающий работу центра. Здесь — графики, диаграммы, цифры. Всего с конца 2021 года (когда был организован единый центр) зафиксировано 165 000 различных событий. Большая часть из них "закрывается" день в день — по внутреннему регламенту компании, связисты должны устранять проблемы не позже чем через сутки после их обнаружения.
Сразу после того, как фиксируется инцидент, первичный анализ информации осуществляется в автоматическом режиме. Зафиксированное событие попадает в программу учета, и через специально написанный телеграм-бот в специализированную рабочую группу уходит информация о количестве затронутых абонентов, о территории, на которой локализуется проблема, к какому узлу связи она относится.
Порой не требуется отправлять на место бригаду. То, что можно починить удаленно — изменить настройки, выполнить переключение, — все это делают операторы центра управления и мониторинга сети прямо со своего рабочего места. Таким образом можно решить до половины инцидентов.
Но если на место выезжает бригада, ее работу контролируют операторы центра. Инженеры групп эксплуатации пишут с места устранения аварии, присылают фотографии, а инженеры координационного центра консолидируют, "причесывают" эти отчеты и передают дальше. Михаил Лозовой описывает дальнейший формат работы:
— По завершении каждое событие разбирается по полочкам. Мы присваиваем им поочередно три статуса: открыто, закрыто и обработано. Статус "Обработан" имеет инцидент, который полностью разобран. Мы знаем его причину, знаем, сколько абонентов по какой технологии недополучили услуги и из-за чего это произошло. Пока вся эта информация не проанализирована, инцидент решенным не считается. Процесс в этой части выполняется вручную.
Мониторинг, правильное построение системы реагирования и разбор для последующего предотвращения — вот эти три шага, которые должны быть грамотно выстроены в компании!
Глава ПАО "Таттелеком" Айрат Нурутдинов объясняет "генеральную линию" всей системы мониторинга и управления:
— После того как авария устранена, ее надо разобрать. Почему она возникла? Как действовали руководители разного уровня? Что сделать, чтобы впоследствии такая проблема не возникла? То есть мы имеем три этапа работы: настроить процесс выявления проблем, научиться правильно реагировать на них и устранять и в последующем должным образом анализировать. Конечно, есть типы событий, на которые мы повлиять не можем. Например, летом идет активное строительство и минимум раз в день происходит порыв наших сетей. Мы не знаем, где это может произойти завтра. Это сильно бьет по абонентским услугам. Если порван кабель, страдает большое количество абонентов. Мониторинг, правильное построение системы реагирования и разбор для последующего предотвращения — вот эти три шага, которые должны быть грамотно выстроены в компании!
"Это и есть третья стадия развития системы — когда мы действительно управляем ситуацией"
Как объясняет Айрат Нурутдинов, создание и развитие Единого центра управления и мониторинга сети отвечает глобальной философии закономерного развития любой компании. Идею центров мониторинга разделяют на три этапа зрелости.
Первый этап управления системами — когда конечный результат достигается путем усилий огромной армии людей. Руководитель получает в лучшем случае окончательный отчет. Наглядный пример построения такой системы — "человеческий компьютер" из 30 миллионов воинов с флажками, описанный в романе Лю Цысиня "Задача трех тел". В нем роль "единиц" и "нулей" выполняют люди, поднимающие флажки определенного цвета.
— При этом надо понимать, что задачи в такой системе будут решаться, но менее эффективно и без уведомления руководства о реальных проблемах. При этом руководитель будет уверен, что все держит под контролем, — рассказывает Айрат Нурутдинов.
Второй этап развития системы топ-менеджер "Таттелекома" сравнивает с кабиной шаттла или с центром управления полетами в космических структурах. Образно ее можно представить как огромный машинный зал, в котором работает множество механизмов, а люди постоянно отслеживают большое количество мониторов, ламп, индикаторов. Детекция событий и реагирование на них происходит в ручном режиме. Такой подход все еще требует вовлечения большого количества персонала, но в нем уже задействуется "машинная" компонента.
И наконец, третий этап развития системы управления и мониторинга — когда процесс эффективен за счет внутренних информационных систем, выстроенных в компании.
— Они дают человеку только ту информацию, которую ему требуется знать для принятия решений. Остальные задачи система умеет выполнять самостоятельно на основании мониторинга — информация эскалируется, только когда процесс действительно требует внимания. Как у нас сейчас: одновременно в автоматическом режиме ведется мониторинг более чем 200 тысяч единиц оборудования и почти 370 тысяч абонентских устройств, но наше внимание направлено только на те ситуации, когда срабатывает триггер и какой-то параметр отклоняется от нормы. У операторов все равно остается некоторое количество мониторов, но на них выводится только та часть информации, которая им нужна для оперативной реакции. Это и есть та самая третья стадия — мы действительно управляем ситуацией, — заключает Айрат Нурутдинов.
"Наш центр управления и мониторинга сети — залог здорового отдыха руководителя!"
Заместитель генерального директора ПАО "Таттелеком" по техническим вопросам Дмитрий Фролов начинал работать в компании много лет назад, когда система находилась еще только на первом уровне развития.
Сейчас руководители подразделений и филиалов компании могут позволить себе здоровый сон или отпуск — за нас работает центр управления и мониторинга сети
Он рассказывает, что первой службой, "прабабушкой" и "бабушкой" центра управления и мониторинга, был сначала узловой пункт управления, а потом служба оперативно-технического управления. Ее сотрудники принимали звонки и вносили информацию сначала на бумагу, потом в компьютер (со временем). Отдельно существовали службы мониторинга — в каждом из 43 районов Татарстана в отделениях компании круглые сутки сидели десятки людей. Их основной задачей было следить за индикаторами, лампочками в технологических помещениях. Если загоралась какая-либо из них, оператор должен был зафиксировать это и позвонить в Казань, в службу оперативно-технического управления, после этого приступить к устранению аварии.
Второй этап развития начался с внедрения микроэлектроники. Это привело к использованию персональных компьютеров в простейших системах мониторинга. Сначала были системы телемеханики, позволяющие управлять оборудованием удаленно. Потом появились более интеллектуальные системы, но еще 10 лет назад люди продолжали мониторить на местах, потому что было страшно: вдруг что-то случится в их отсутствие. Сейчас этот страх преодолен.
— "Таттелеком" находится на третьей стадии развития систем: у нас появились интеллектуальные системы, позволяющие фильтровать события не человеческим мозгом, а установкой правил в автоматической системе. Это позволило замкнуть принятие сложных решений на одном специалисте — благодаря тому, что система отбирает только действительно важную информацию, — объясняет Дмитрий Фролов. — Когда мы объединили управление и мониторинг в одну службу, решили сразу несколько задач. Во-первых, сделали единый источник информации для всех служб: нет ни одного способа исказить или скрыть информацию о тех или иных событиях в сети. Во-вторых, решили задачи организационного характера. Сейчас руководители подразделений и филиалов компании могут позволить себе здоровый сон или отпуск — за нас работает центр управления и мониторинга сети. Мы спокойны не потому, что нам безразлично, а потому, что знаем: если что-то случится, это будет вовремя обнаружено и ситуация будет исправлена. Наш центр — залог здорового отдыха руководителя!
Реклама. ПАО "Таттелеком"