Error de código detrás de la falla de Easter para Azure – Cloud

Microsoft ha publicado un análisis de la causa raíz de una falla de su sistema de nombres de dominio Azure, que migró a la plataforma en la nube durante la Pascua y los clientes que acceden y administran sus servicios de Microsoft en todo el mundo no estaban disponibles temporalmente.

Los problemas comenzaron alrededor de las 8:30 a.m. del 2 de abril cuando los servidores DNS de Azure recibieron un pico anormal en las consultas para un conjunto de dominios no especificado alojados en la nube de Microsoft.

Microsoft dijo que estaba listo para tales picos, con capas de cachés y modelado de tráfico para mitigar el efecto, pero un error en su servicio DNS empeoró la congestión.

“En este incidente, una secuencia de eventos expuso una falla de código en nuestro servicio DNS que estaba haciendo que nuestros cachés perimetrales de DNS fueran menos eficientes”, dijo la compañía. dicho.

“Cuando nuestro servicio de DNS se sobrecargó, los clientes de DNS solían repetir sus solicitudes, lo que hacía que el servicio de DNS estuviera más ocupado.

“Debido a que los reintentos de los clientes se consideran tráfico DNS legítimo, nuestros sistemas de mitigación de picos volumétricos no eliminaron este tráfico”.

Varios servicios de Microsoft, incluidos Azure, Office, Microsoft 365, Dynamics y Xbox Live, se vieron afectados.

Algunos clientes informó No puede acceder a la página web Estado del servicio de Azure, pero no está claro si este problema está relacionado con la interrupción del DNS.

Microsoft se disculpó por el impacto que causó la interrupción y dijo que solucionaría el error de código para que todas las solicitudes de DNS se puedan almacenar en caché de manera efectiva.

READ  La seguridad privada y silenciosa deberá informar las reuniones de más de 10 personas en el interior

Al mismo tiempo, la compañía dijo que el tiempo de recuperación de la falla superó sus objetivos de diseño.

La falla de Pascua se produjo poco más de dos semanas después de que una clave digital eliminada incorrectamente bloqueado Los clientes de Microsoft de sus aplicaciones causaron problemas de acceso durante 12 horas.

Estaremos encantados de escuchar lo que piensas

Deje una respuesta

Malviticias