Um pouco de história
Olhando para trás, não foi há muito tempo que a operação e manutenção (O&M) de grandes redes, tais como as de um fornecedor de serviços de comunicações (CSP), foi feita de uma forma monolítica. Inicialmente, foram detectados problemas de rede quando já era demasiado tarde. O operador de serviço intuiu que sistemas estavam relacionados com o problema e foi, um a um, analisando os registos de cada um dos elementos para encontrar a origem do problema. Isto tornou o trabalho do operador muito mais difícil e aumentou drasticamente o MTTR (Mean Time To Repair).
Posteriormente, apareceram o EMS (Element Management System) e o NMS (Network Management System). O EMS, específico para cada fabricante, é responsável pela gestão de uma fábrica de equipamento relacionado com uma tecnologia, são responsáveis pela monitorização de alarmes, inventário, dados de desempenho e informação de configuração e pelo fornecimento dos elementos de rede que gerem. Os NMS, vulgarmente chamados ferramentas de monitorização, fornecem tanto à O&M, como ao Planeamento e Otimização uma visão segmentada, uma vez que os NMS não executam todas as funções da estrutura FCAPS (Fault, Configuration, Account, Performance, Security), pelo que encontramos uma grande variedade de ferramentas, cada uma delas centrada numa função específica.
Com a chegada de tecnologias como o Acesso Móvel, Mobile Core, SDH, PON, FTTH, Packet Microwave, IP/MPLS, etc., o número de EMS cresceu. Face à grande variedade de NMS e EMS existentes no mercado, cada um dedicado ou especializado numa determinada tecnologia ou camada de rede, surgiram ferramentas encarregadas de integrar com o resto de NMS, EMS e centralizar a informação numa única consola para facilitar o trabalho do operador e fornecer uma visão de serviço. Permite-se a correlação entre as diferentes camadas da rede e a capacidade de relacionar um problema final com a origem (RCA ou Root Cause Analysis), mesmo quando são elementos de diferentes tecnologias. Isto proporcionou grande visibilidade aos CSPs, podendo reduzir o MTTR a falhas e interrupções da rede, melhorando a experiência do utilizador, minimizando a famosa “rotatividade” e aumentando indiretamente os lucros. Além disso, alguns fabricantes de ferramentas de monitorização começaram a incorporar mecanismos para desencadear automatismos no equipamento após a ocorrência de um alarme, permitindo resolver o problema automaticamente e reduzir ainda mais o MTTR.
O diagrama seguinte ajuda-nos a compreender como as diferentes camadas interagem na prestação e qualidade do serviço:
Figura 1. Diagrama de relação BSS/OSS
Podemos ver os sistemas de apoio às operações (OSS) como a camada que fornece a visão de serviço ao conjunto de elementos EMS e NMS. Acima dela, a camada de suporte dos sistemas empresariais (BSS), a partir da qual as diferentes ordens são geridas. A provisão (Fulfillment) é feito através dos sistemas BSS e passa por cada uma das camadas até chegar aos elementos de rede (NE ou Network Elements). Em contrapartida, a qualidade do serviço (Assurance) é assegurada começando com a monitorização dos recursos da rede e subindo cada uma das camadas até se obter uma visão de serviço. A figura refere-se, entre parênteses, às diferentes camadas definidas pela União Internacional das Telecomunicações (UIT-T) no modelo TMN (Telecom Management Network): BML (Business Management Layer), SML (Service Management Layer), NML (Network Management Layer), EML (Element Management Layer) e NEL (Network Element Layer).
Voltando à evolução das redes, a automatização com ambientes de contentores, redes SDN (Software Defined Networks) e a virtualização das funções de rede (NFC, Network Function Virtualization) têm vindo a ganhar importância, tanto na arquitetura, como na automatização da implementação. Esta é uma peça-chave quando se trata do próximo passo, que é tentar antecipar uma possível situação de problema ou congestão da rede e resolvê-la automaticamente através da orquestração.
O Futuro
OSS para a nuvem?
De acordo com um estudo do TMForum, parece que, por enquanto, o futuro do OSS não estará inteiramente na nuvem. Muitos CSPs querem manter as operações de rede nos seus próprios centros de dados (on-premise) ou na sua nuvem privada, devido a preocupações sobre a latência e a segurança fornecidas por aplicações que funcionam em nuvens públicas. Por outras palavras, a informação contida no OSS é tão crítica que as empresas acreditam que devem manter o controlo do HW sobre o qual o SW funciona.
Figura 2. Inquérito sobre a migração de OSS para a nuvem em CSPs
Na figura anterior, vê-se como 60% não moveria ou moveria apenas uma parte dos seus sistemas OSS para a nuvem, e 28% estão indecisos, enquanto os demais o têm claro.
A união de BSS e OSS
Embora vejamos os CSPs, que procuram transformar os sistemas de apoio às operações (OSS), serem orientados a dados e automatizados, tais transformações têm, frequentemente, impacto nos processos BSS que são, geralmente, orientados pelo cliente.
Por exemplo, num ambiente orientado a dados, os sistemas OSS que são capazes de identificar a degradação do serviço devem ligar-se a bases de dados de clientes para identificar quem é afetado por essa degradação. Esta união, em muitos casos, não está a ser realizada ao nível que deveria ser.
Os CSPs terão de entregar e assegurar em tempo real os serviços que prestam aos seus clientes de grandes contas, e esperam ter visibilidade em tempo real desses serviços. Da mesma forma, uma foto em tempo real da rede também permite à equipa de vendas dos CSPs fixar preços e desenvolver serviços para os clientes.
Em última análise, a focalização no cliente é uma estratégia necessária, mas não pode ser realizada sem uma melhor integração entre os sistemas OSS e BSS.
Automatização
As operadoras, além de necessitarem de soluções flexíveis, abertas e de baixo custo, também querem que eles apoiem a automatização, de modo a alcançar os denominados processos de Close-Loop Fulfillment, Close-Loop Assurance e Close-Loop Optimization.
Inicialmente, estes processos poderiam levar à eliminação dos postos de trabalho de alguns operadores, mas a longo prazo e com a chegada de 5G, verificar-se-á que este apoio é absolutamente necessário para acompanhar o ritmo, a velocidade e o volume destas redes.
Os processos Close-Loop serão completamente necessários para a implantação de serviços 5G para clientes de grandes contas, o que é feito através do network slicing, em que os serviços E2E (End-to-End) para clientes são implantados de forma orquestrada, com impacto na provisão dos elementos que compõem as redes de Acesso Móvel (RAN), Transporte, e Core através da Virtualização das Funções de Rede (NFV).
IA aplicado às operações IT
Durante os últimos anos temos visto como os CSPs têm vindo a investir na análise de dados e, agora, querem dar mais um passo adicionando inteligência artificial para melhorar a experiência de usuário, aumentar a agilidade, melhorar a eficiência e a fiabilidade.
Até hoje, a monitorização da rede como um todo estava focada em dar visibilidade, mas após décadas de progresso no campo da inteligência artificial, estamos perante o desafio de escolher e aplicar diferentes algoritmos de aprendizagem de máquinas nos dados OSS e de sermos capazes de detectar possíveis falhas antes que elas ocorram. Para tal, estes sistemas devem ser integrados com várias fontes de informação: meteorologia, alarmes, KPIs, registos, incidências registadas em ferramentas de ticketing, etc. e treinar os algoritmos com estes dados para depois detectar anomalias.
Esta união dos três mundos: BSS/OSS, inteligência artificial e automatização, dá lugar ao marco de referência AIOps(Artificial Intelligence for IT Operations).
O que é a AIOps?
AIOps é a aplicação da inteligência artificial às operações de TI, utilizando a análise e a aprendizagem de máquinas em grandes volumes de dados recolhidos por ferramentas e dispositivos, para detecção e reação automática em tempo real.
Segundo Gartner, a AIOps consiste em dois componentes principais, Big Data e IA e requer uma correlação de dados OSS juntamente com dados BSS (CRM ou Trouble Ticketing). Juntando tudo isto, o que se pretende fazer é detectar anomalias e agir em conformidade através da automatização. A AIOps pode ser considerada como uma integração e implementação contínua (CI/CD) para funções centrais de TI.
Figura 3. Visualização de Gartner da plataforma AIOPS
AIOps une três disciplinas de TI diferentes para alcançar os objetivos de melhoria continua: gestão de serviços, gestão do desempenho e automatização.
Que forças estão a conduzir a AIOps?
A IA destina-se a melhorar, agilizar e “dimensionar” o trabalho realizado por um humano. A abordagem AIOps centra-se nos seguintes pontos para enfrentar os desafios da agilidade, escala e complexidade da transformação digital:
- A dificuldade das operações de TI para gerir, manualmente, a sua infra-estrutura;
- A quantidade de dados que as operações de TI necessitam reter está a aumentar exponencialmente;
- O tempo de resposta perante problemas de infra-estrutura devem ser cada vez menor;
- Está a mover-se mais potência de cálculo para o edge computing.
As camadas que compõem AIOps
A AIOps consiste nas seguintes camadas, que se mostram na figura seguinte:
Figura 4. As camadas que formam uma plataforma AIOps
- Vastas e diversas fontes de dados TI (eventos, métricas, registos, trabalhos programados, tickets, monitorização, etc.);
- Plataformas modernas de Big Data que permitem o processamento de dados TI em tempo real;
- A aplicação de regras e detecção de anomalias em dados armazenados;
- Algoritmos de domínio que aproveitam a experiência no ambiente informático;
- Aprendizagem automática baseada na própria produção e em novos dados introduzidos no sistema;
- Inteligência artificial que se pode adaptar a padrões novos e desconhecidos num ambiente;
- Automatização, que utiliza os resultados gerados pela aprendizagem mecânica ou IA para criar e aplicar, automaticamente, uma resposta ou melhoria aos problemas e situações identificados.
A adopção de inteligência artificial na AIOps é incipiente em comparação com a aprendizagem mecânica. Neste momento, os casos de uso mais urgente são melhor tratados com automatização simples ou uma combinação de ML e automatização. Resta saber como a IA irá evoluir e que novos casos de utilização irá permitir. Em qualquer caso, uma base sólida de AIOps em Operações de TI, tal como existe agora, deve ser estabelecida antes de podermos começar a modelar o comportamento humano para utilização em Operações de TI.
Outro artigo que poderá ser do seu interesse: Teleassistência Preventiva para Lutar contra o Coronavírus
Onde estamos nós?
A SATEC trabalha há muitos anos no mundo do OSS, graças ao qual adquirimos uma grande experiência, tanto em termos de necessidades dos clientes, como de ferramentas específicas do mercado. Tudo isto, juntamente com as nossas capacidades de desenvolvimento de aplicações, particularmente com ferramentas no mundo do processamento e gestão de dados (Big Data, AI/ML), permitiu-nos construir uma proposta com as nossas próprias soluções no campo dos sistemas OSS de nova geração.
As nossas soluções são capazes de integrar qualquer tipo de fonte, fazendo uso de um conjunto de peças poderosas e modernas centradas na gestão e armazenamento de dados, que de uma forma integrada oferecem grande flexibilidade e funcionalidades avançadas. A tudo isto acrescentamos a análise de dados e as capacidades de aprendizagem da máquina, para permitir, por exemplo, a detecção de anomalias (tanto para modelos supervisionados, como não supervisionados), ou o lançamento de ações para resolver problemas detectados automaticamente, alcançando o chamado processo Close-Loop.
Finalmente, para aqueles de nós que trabalham na área BSS/OSS há vários anos, há uma oportunidade de nos renovarmos e elevarmos os nossos conhecimentos. Até agora o nosso papel era dar visibilidade, mas com a chegada da AIOps, seremos capazes de aplicar algoritmos de aprendizagem de máquinas juntamente com inteligência artificial e, em resposta, lançar automatismos tanto para a implementação automática, como para a resolução de problemas. Conceitos que até agora estavam fora do nosso âmbito, mas que agora se tornam muito importantes. Afinal de contas, quem não sonha em ter o seu próprio Skynet?