https://www.sedaily.com/NewsView/2GZ93BNTM1
AWS 오류에 삼성·배그·코인베이스 등 일부 '먹통'
산업 > IT 뉴스: 아마존웹서비스(AWS)의 데이터센터에서 발생한 것으로 추정되는 오류로 인해 현재 AWS의 서비스를 사용하는 코인베이스·...
www.sedaily.com
구분 | 내용 |
장애 발생 근원지 | AWS US-EAST-1 (미국 동부 1) 리전 |
주요 원인 | DynamoDB API 엔드포인트의 DNS 해석 오류 (잠재적 원인) |
샵샵워드 피해 시간 | 몇 시간 동안 서비스에 문제가 발생 |
피해 내용 (AWS 종속 기능) | PDF 업로드 및 해독 과정 마비 |
비피해 내용 (국내 서버 운용 기능) | 프로그램 실행에는 문제 없음 |
샵샵워드의 구상 | 클라우드 서비스의 지리적 의존성 및 핵심 기능의 이중화(Dual Sourcing) 구상 중 |
1. 장애 발생 배경 및 원인
2025년 10월 20일, AWS의 핵심 리전인 미국 동부 1(US-EAST-1)에서 대규모 운영 문제가 발생했습니다. AWS는 이 문제의 잠재적 근본 원인을 DynamoDB API 엔드포인트에 대한 DNS 해석 오류로 지목했습니다. 이는 인터넷 주소록 역할을 하는 DNS에 문제가 생겨, 핵심 데이터베이스 서비스인 DynamoDB를 찾는 데 실패하면서 관련 서비스 전체에 연쇄적인 장애를 일으킨 것입니다.
2. '샵샵워드' 서비스에 미친 영향 분석
샵샵워드는 시스템을 국내 서버와 AWS의 미국 동부 서버로 나누어 운영하고 있었으며, 이로 인해 장애 영향이 부분적으로 나타났습니다.
서비스 기능 | 운영 서버 | AWS 장애 영향 | 상세 설명 |
프로그램 실행 | 국내 서버 | 영향 없음 | 실행 로직 및 프로세스는 국내 서버에서 독립적으로 운용되어, AWS 장애와 관계없이 정상적으로 작동했습니다. |
PDF 업로드 및 해독 | AWS 미국 동부 서버 | 문제 발생 (마비) | PDF 파일을 AWS에 업로드하고, 저장하거나 해독하는 컴퓨팅/데이터베이스 기능이 미국 동부 리전에 종속되어 AWS 장애와 함께 몇 시간 동안 마비되었습니다. |
3. 클라우드 전략적 교훈
이번 사태는 서비스의 클라우드 아키텍처 전략에 중요한 시사점을 남겼습니다.
- 지리적 의존성 (Geographical Dependency): 핵심 기능인 PDF 처리 부분이 AWS의 특정 리전(US-EAST-1)에 전적으로 의존하면서, 해당 리전에 문제가 생기자 서비스의 핵심 가치(문서 처리)가 중단되었습니다.
- 기능 이중화 및 분리: 프로그램 실행 부분은 국내 서버에서 운용하여 장애를 피했지만, 데이터 처리처럼 복잡하고 클라우드에 의존하는 부분은 다중 리전(Multi-Region) 또는 다중 클라우드(Multi-Cloud) 전략을 통해 한 곳의 장애가 전체 서비스 마비로 이어지는 것을 방지해야 할 필요성이 부각되었습니다.
반응형