Причиной обвала части облачных сервисов Amazon, а вместе с ними — и нарушения работы значительного числа сайтов, в очередной раз стал человеческий фактор, сообщает Engadget со ссылкой на заявление компании.
По словам представителей Amazon, всё началось с замедления работы облачного сервиса S3. Для исправления проблем ответственный технический специалист решил отключить несколько учётных серверов, как предусмотрено инструкцией.
Однако из-за простой опечатки выключенными оказалось значительно больше серверов, чем предполагалось. Незначительная на первый взгляд проблема вылилась в четырёхчасоввые сбои в работе AWS. Дело в том, что многие системы не перезагружались в течение «многих лет», и перезагрузка с проведением необходимых проверок безопасности заняла намного больше времени.
Amazon пообещала принять меры, которые позволят избежать подобных проблем в будущем. Так, мощности теперь будут уменьшаться медленнее, планируются и дополнительные меры, которые ограничат возможность одновременного выключения большого числа серверов.
Поломки были нейтрализованы в течение четырёх часов. Согласно оценкам Cyence, за это время компании из списка S&P 500 потеряли не менее $160 млн. Более половины из сотни крупнейших интернет-ритейлеров ощутили снижение скорости работы на 20 процентов и выше, а три сайта полностью выключились.
Время загрузки многих ресурсов возросло в разы. Например, Disney Store загружался в 11 раз медленнее.
Сам Amazon и проект компании в области электронной коммерции Zappos работали без сбоев. Причина в том, что сервисы настроены для работы в различных регионах, и если проблема возникает в одном из них, это не сказывается на общей эффективности. Это безопасный способ работы с облачными сервисами, но более трудозатратный и дорогой.
Впрочем, когда сервис AWS S3 имеет настолько большие проблемы, как показывает график исследовательской компании ThousandEyes, укрыться от последствий очень сложно.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.