Un peu d’histoire
Si l’on regarde en arrière, il n’y a pas si longtemps que l’exploitation et la maintenance (OEM) de grands réseaux, comme ceux d’un fournisseur de services de communications (CSP), se faisaient de manière monolithique. Au départ, les problèmes de réseau étaient détectés lorsqu’il était trop tard. L’opérateur de service pressentait quels systèmes étaient liés au problème et analysait un par un les journaux de chacun des éléments jusqu’à ce qu’il trouvait l’origine du problème. Cela rendait le travail de l’opérateur extrêmement difficile et augmentait considérablement le MTTR (Mean Time To Repair).
Plus tard, les EMS (Element Management System) et les NMS (Network Management System) sont apparus. Les EMS, propres à chaque constructeur, sont en charge de la gestion d’un groupe d’équipements liés à une technologie, ils sont en charge de la collecte des alarmes, de l’inventaire, des données de performance et des informations de configuration et de la mise à disposition sur les éléments du réseau qu’ils gèrent. Les NMS, communément appelés outils de surveillance, fournissent à la fois à l’OEM et à la Planification et l’Optimisation une vue segmentée, car les NMS n’exécutent pas toutes les fonctions du framework FCAPS (Fault, Configuration, Account, Performance, Security), et nous trouvons donc une grande variété d’outils, chacun axé sur une fonction spécifique.
Avec l’arrivée de technologies telles que Mobile Access, Mobile Core, SDH, PON, FTTH, Packet Microwave, IP / MPLS, etc. le nombre d’EMS a augmenté. Compte tenu de la grande variété de NMS et EMS existant sur le marché, chacun dédié ou spécialisé dans une certaine technologie ou couche réseau, des outils «parapluie» sont apparus, chargés de s’intégrer avec le reste des NMS, EMS et de centraliser les informations en un seul console pour faciliter le travail de l’opérateur et fournir une vision de service, permettant la corrélation entre les différentes couches du réseau et la possibilité de relier un problème final à l’origine (RCA ou Root Cause Analysis), même lorsqu’il s’agit d’éléments de technologies différentes. Cela a fourni une grande visibilité aux CSP, en étant capable de réduire le MTTR en cas de pannes et de chutes du réseau, en améliorant l’expérience utilisateur, en minimisant le fameux « churn » et en augmentant indirectement les profits. De plus, certains fabricants d’outils de surveillance ont commencé à incorporer des mécanismes pour déclencher des automatismes sur l’équipement après l’apparition d’une alarme, permettant de résoudre automatiquement le problème et en réduisant encore le MTTR.
Le diagramme suivant nous aide à comprendre comment les différentes couches interagissent dans la provision et la qualité de service :
Figure 1. Diagramme de relation BSS / OSS
Nous pouvons voir les systèmes de support aux opérations (OSS) comme la couche qui fournit une vision de service à l’ensemble des éléments EMS et NMS. Au dessus, la couche de support des systèmes business (BSS), à partir de laquelle les différentes commandes sont gérées. La provision (Fulfillment) est effectuée à travers les systèmes BSS et traverse chacune des couches jusqu’à ce qu’elle atteigne les éléments de réseau (NE ou Network Elements). A l’inverse, la qualité de service (Assurance) est assurée, en commençant par la surveillance des ressources du réseau et en remontant chacune des couches jusqu’à l’obtention d’une vision de service. La figure fait référence entre parenthèses aux différentes couches définies par l’International Telecommunication Union (ITU-T) dans le modèle TMN (Telecom Management Network) : BML (Business Management Layer), SML (Service Management Layer), NML (Network Management Layer) , EML (Element Management Layer) et NEL (Network Element Layer).
Revenant à l’évolution des réseaux, l’automatisation avec des environnements de conteneurs, les réseaux SDN (Software Defined Networks) et la virtualisation des fonctions réseau (NFV, Network Function Virtualization) gagnent en importance, tant dans l’architecture que dans l’automatisation du déploiement. Il s’agit d’un élément clé de l’étape suivante, qui consiste à essayer de devancer une potentielle situation problématique ou congestion du réseau et de la résoudre automatiquement par l’orchestration.
L’avenir
OSS dans le cloud?
Selon une étude de TMForum, il semble que pour le moment l’avenir des OSS ne sera pas entièrement dans le cloud. De nombreux CSPs veulent maintenir l’exploitation du réseau dans leurs propres centres de données (on-premise) ou dans leur cloud privé en raison de la préoccupation au sujet de la latence et la sécurité fournies par les applications en cours d’exécution dans les cloud publics. En d’autres termes, l’information contenue dans l’OSS est si critique que les entreprises estiment qu’elles doivent garder le contrôle du matériel sur lequel le logiciel fonctionne.
Figure 2. Sondage sur la migration de l’OSS vers le cloud aux CSP
Dans la figure précédente, on peut voir que 60% ne bougeraient pas ou ne déplaceraient qu’une partie de leurs systèmes OSS vers le cloud et 28% sont indécis, tandis que pour le reste il n’y a pas de doutes.
L’union du BSS et de l’OSS
Bien que nous voyions des CSP chercher à transformer les systèmes de soutien aux opérations (OSS) pour qu’ils soient axés sur les données et l’automatisation, ces transformations ont souvent un impact sur les processus BSS généralement orientés client.
Par exemple, dans un environnement axé sur les données, les systèmes OSS capables d’identifier de la dégradation des services doivent être connectés aux bases de données des clients pour identifier ceux qui sont touchés par une telle dégradation. Cette union, dans de nombreux cas, n’est pas réalisée au niveau qu’elle devrait être.
Les CSP (fournisseurs de services de communications) devront fournir et sécuriser en temps réel les services qu’ils fournissent à leurs clients grands comptes et ceux-ci s’attendront à avoir une visibilité en temps réel de ces services. De même, un instantané en temps réel du réseau permet également à l’équipe de vente CSP de tarifer et de concevoir des services pour les clients.
En fin de compte, l’orientation client est une stratégie nécessaire, mais elle ne peut se faire sans une meilleure intégration entre les systèmes OSS et BSS.
También te puede interesar: Soluciones avanzadas de seguridad: Network Detection & Response 👈
Automatisation
Les opérateurs, en plus d’avoir besoin de solutions flexibles, ouvertes et peu coûteuses, veulent également qu’ils prennent en charge l’automatisation, de sorte que les processus dits Close-Loop Fulfillment, Close-Loop Assurance y Close-Loop Optimization soient réalisés.
Dans un premier temps, ces processus pourraient conduire à la suppression des emplois de certains opérateurs, mais sur le long terme et avec l’arrivée de la 5G, on verra comment ce support est totalement nécessaire pour suivre le rythme, la vitesse et le volume de ces réseaux.
Les processus Close-Loop seront absolument nécessaires pour le déploiement de services 5G pour les clients de grands comptes, qui est effectué par le biais network slicing (tranches de réseau), dans lequel on déploie, de façon orchestrée, les services E2E (End-to-End) pour les clients qui ont un impact sur la provision des éléments qui composent les réseaux d’Accès Mobile (RAN), de Transport et de Core grâce à la virtualisation des fonctions réseau (NFV).
L’IA appliquée aux opérations IT
Au cours des dernières années, nous avons vu comment les CSP ont investi dans l’analyse de données et veulent maintenant aller plus loin en ajoutant de l’intelligence artificielle pour améliorer l’expérience utilisateur, augmenter l’agilité, améliorer l’efficacité et la fiabilité.
Jusqu’à aujourd’hui, la surveillance du réseau dans son ensemble était axée sur la visibilité, mais après des décennies de progrès dans le domaine de l’intelligence artificielle, nous sommes confrontés au défi de choisir et d’appliquer les différents algorithmes d’apprentissage automatique (machine learning) sur les données OSS et de pouvoir détecter les pannes potentielles avant qu’elles ne surviennent. Pour cela, ces systèmes doivent être intégrés à diverses sources d’informations: météorologiques, alarmes, KPI, logs, incidents enregistrés dans les outils de ticketing, etc. et entraîner les algorithmes avec ces données pour détecter ultérieurement les anomalies.
Cette union des trois mondes: BSS / OSS, intelligence artificielle et automatisation donne naissance au framework AIOps (Artificial Intelligence for IT Operations).
Qu’est-ce que AIOps?
AIOps est l’application de l’intelligence artificielle aux opérations IT, grâce à l’utilisation de l’analyse et de l’apprentissage automatique sur de grands volumes de données collectées par des outils et des appareils, pour la détection et réaction automatique en temps réel.
Selon Gartner, AIOps consiste à deux composants principaux, Big Data et AI et nécessite une corrélation des données d’OSS avec des données de BSS (CRM ou Trouble Ticketing). En mettant tout cela ensemble, l’objectif est de détecter des anomalies et d’agir en conséquence à travers d’une automatisation. On peut considérer AIOps comme une intégration et un déploiement continu (CI / CD) pour les fonctions IT principales.
Figure 3. Visualisation Gartner de la plateforme AIOPS
AIOps réunit trois disciplines IT différentes pour atteindre des objectifs d’amélioration continue : la gestion de services, la gestion de performance et l’automatisation.
Quelles forces motivent l’AIOps?
L’IA vise à améliorer, rendre agile et « escalader » le travail effectué par un être humain. L’approche d’AIOps se concentre sur les points suivants pour relever les défis d’agilité, d’échelle et de complexité de la transformation numérique :
- La difficulté des opérations IT à gérer manuellement leur infrastructure.
- La quantité de données que les opérations IT doivent conserver augmente de façon exponentielle.
- Le temps de réponse aux problèmes d’infrastructure doit être de moins en moins.
- Une plus grande puissance de calcul se déplace vers les bords du réseau (edge computing).
Les couches qui composent AIOps
L’AIOps se compose des couches suivantes, illustrées dans la figure suivante :
Figure 4. Les couches qui composent une plateforme AIOps
- Sources larges et diverses de données d’IT (événements, métriques, journaux, tâches planifiées, tickets, surveillance, etc.).
- Plateformes Big Data modernes qui permettent le traitement en temps réel des données d’IT.
- L’application de règles et la détection d’anomalies sur les données stockées.
- Algorithmes de domaine qui tirent parti de l’expérience de l’environnement d’IT.
- Apprentissage automatique basé sur la propre sortie et les nouvelles données entrées dans le système.
- Une intelligence artificielle capable de s’adapter à des modèles nouveaux et inconnus dans un environnement.
- L’automatisation, qui utilise les résultats générés par l’apprentissage automatique ou l’IA pour créer et appliquer automatiquement une réponse ou une amélioration aux problèmes et situations identifiés.
L’adoption de l’intelligence artificielle dans AIOps est naissante par rapport à l’apprentissage automatique. À l’heure actuelle, les cas d’utilisation les plus urgents sont mieux traités avec une simple automatisation ou une combinaison de ML et d’automatisation. Il reste à voir comment l’IA évoluera et quels nouveaux cas d’utilisation elle permettra. Dans tous les cas, une base solide d’AIOps doit être établie dans les opérations d’IT telles qu’elles existent maintenant avant que nous puissions commencer à modéliser le comportement humain à utiliser.
Où sommes-nous ?
SATEC travaille dans le monde des OSS depuis de nombreuses années, grâce à lequel nous avons acquis une grande expérience, tant au niveau des besoins clients que avec des outils spécifiques du marché. Tout cela, associé à nos capacités de développement d’applications, notamment avec des outils dans le monde du traitement et de la gestion des données (Big Data, AI / ML), nous a permis de construire une proposition avec nos propres solutions dans le domaine des systèmes OSS de nouvelle génération.
Nos solutions sont capables d’intégrer tout type de source, en utilisant un ensemble de pièces puissantes et modernes axées sur la gestion et le stockage des données, qui de manière intégrée offrent une grande flexibilité et des fonctionnalités avancées. À tout cela, nous ajoutons des capacités d’analyse de données et d’apprentissage automatique, pour permettre, par exemple, la détection d’anomalies (à la fois pour les modèles supervisés et non supervisés), ou le lancement d’actions pour résoudre les problèmes détectés automatiquement, en réalisant ce que l’on appelle le processus Close-Loop.
Enfin, pour ceux d’entre nous qui travaillons dans le domaine BSS / OSS depuis plusieurs années, nous avons l’opportunité de nous renouveler et d’élever nos connaissances. Jusqu’à présent, notre rôle était de fournir de la visibilité, mais avec l’arrivée d’AIOps, nous pourrons appliquer des algorithmes d’apprentissage automatique avec l’intelligence artificielle et, en réponse, lancer des automatisations autant pour le déploiement automatique que pour la résolution de problèmes. Des concepts qui jusqu’à présent étaient hors de notre domaine, mais qui prennent désormais beaucoup d’importance. Après tout, qui ne rêve pas d’avoir son propre Skynet ?