Backend log problem
Incident Report for Ringover
Postmortem

Cher Client,

Nous tenions à vous apporter des précisions sur l’incident technique de ce jour ayant occasionné une interruption temporaire de nos services Ringover.

A 14h00, nous avons subi une panne matérielle sur nos clusters de logs des machines Ringover. En théorie sans incidence car réservés à la maintenance et au bon fonctionnement de ces machines, l’incident a eu pour conséquence inattendue de figer les machines en question ce qui rendait le service inaccessible pour nos utilisateurs.

Après investigations, nos équipes techniques ont identifié et isolé le problème dès 14h10 et une solution de contournement a été mise en place dès 14h15 précédent l’envoi de notre première communication à 14h20.

De 14h15 à 14h50, nous avons déployé de nouvelles versions de nos services web sans logs sur l’ensemble de nos utilisateurs afin de rétablir l’accès aux services Ringover.

A 14h50, l’accès aux services était partiellement rétabli en mode dégradé (sans SMS ni certaines fonctionnalités non prioritaires).

A 15h06, l’ensemble de la plateforme Ringover était de nouveau totalement opérationnelle pour l’intégralité de nos Clients et utilisateurs.

A noter qu’aucune donnée n’a été perdue durant toute la durée de l’incident et que nos infrastructures télécoms n’ont pas été impactées.

Actions correctrices :

Les machines défaillantes sur nos clusters de log vont être remplacées dans les jours à venir.

Nous allons changer la solution de logs afin qu’elle ne soit plus bloquante pour l’accès à nos services.

Nous vous prions de bien vouloir nous excuser pour la gêne occasionnée et vous assurons de notre totale mobilisation à vous apporter un service de qualité.

Sincères salutations,

L'équipe technique de Ringover

Posted Dec 30, 2021 - 15:18 CET

Resolved
We identified the problem in the logging backend, and immediately removed it from the platform to get it back up and running.

From 2.05pm to 2.50pm we deployed new versions of all services without logs on the whole park.

At 2.50pm the platform was in degraded mode.

At 3:06pm the whole platform was fully operational.

We will replace the log machines and adapt the system so that it can no longer block services.

The telecom infrastructure was not affected by the incident. We have not lost any data.
Posted Nov 30, 2021 - 02:00 CET