AWS DevOps Agent — MTTR 75% 감소를 만든 자율 인시던트 대응 에이전트
프로덕션 인시던트가 발생하면 엔지니어가 해야 하는 일이 있다. CloudWatch 로그를 뒤지고, 최근 배포 내역을 확인하고, Datadog 대시보드를 열고, 관련 팀에 Slack 메시지를 보낸다. 알림이 울린 순간부터 루트 코즈를 파악하기까지 평균 얼마나 걸리나.
AWS DevOps Agent는 이 과정을 자동화한다. GA 발표 이후 프리뷰 사용자가 보고한 지표: MTTR 75% 감소, 루트 코즈 정확도 94%.
무엇이 다른가
기존 AIOps 도구들은 주로 탐지에 집중했다. 이상 패턴을 감지해서 알림을 보내는 것이 역할이었다. DevOps Agent는 알림 이후의 조사 단계를 담당한다.
| 단계 | 기존 도구 | DevOps Agent |
|---|---|---|
| 탐지 | CloudWatch, PagerDuty | 알림 수신 |
| 조사 | 사람이 직접 | 자율 실행 |
| 가설 수립 | 경험에 의존 | 다중 신호 분석 |
| 루트 코즈 | 수동 추적 | 94% 정확도 |
| 대응 | 수동 런북 | 권고사항 제공 |
[💡 잠깐! 이 용어는?] MTTR(Mean Time To Resolve): 인시던트가 발생한 시점부터 해결까지의 평균 시간. DevOps의 핵심 지표 중 하나다.
Amazon Bedrock AgentCore
DevOps Agent는 Amazon Bedrock AgentCore 위에서 실행된다. AgentCore는 에이전트의 장기 실행, 상태 관리, 도구 통합을 처리하는 실행 계층이다.
에이전트가 작동하는 방식:
알림 수신 (CloudWatch / PagerDuty / Dynatrace 등)
→ 에이전트 자동 트리거
→ 애플리케이션 관계 맵 로드
→ 멀티 소스 텔레메트리 수집
- 로그 (CloudWatch, Splunk, Grafana)
- 메트릭 (Datadog, New Relic, Dynatrace)
- 배포 이력 (GitHub, GitLab, Azure DevOps)
- 런북 (Backstage, Confluence)
→ 가설 수립 → 루트 코즈 특정
→ 권고사항 + 보고서 생성알림이 오면 사람이 개입하기 전에 에이전트가 먼저 돌아간다. 엔지니어가 화면을 열었을 때 이미 루트 코즈 분석이 완료되어 있는 상태를 목표로 한다.
멀티 환경 지원
AWS 전용 서비스가 아니다. Azure, 온프레미스 환경의 애플리케이션도 조사한다.
지원 통합:
| 카테고리 | 지원 도구 |
|---|---|
| 알림 트리거 | CloudWatch, PagerDuty, Dynatrace, ServiceNow, 커스텀 웹훅 |
| 관찰 가능성 | Datadog, Dynatrace, New Relic, Splunk, Grafana |
| 소스 코드 | GitHub, GitLab, Azure DevOps |
| 클라우드 환경 | AWS, Azure, 온프레미스 |
[💡 잠깐! 이 용어는?] 관찰 가능성(Observability): 시스템 내부 상태를 외부에서 측정할 수 있는 능력. 로그, 메트릭, 트레이스 세 가지 신호로 구성된다.
MCP 확장성
DevOps Agent는 MCP(Model Context Protocol)로 커스텀 도구를 추가할 수 있다.
import { AgentCore } from "@aws-sdk/bedrock-agentcore";
const agent = new AgentCore({
mcpServers: [
{
name: "internal-runbook",
command: "node",
args: ["./runbook-server.js"],
env: {
CONFLUENCE_TOKEN: process.env.CONFLUENCE_TOKEN
}
},
{
name: "custom-monitoring",
command: "python3",
args: ["./custom-monitor-mcp.py"]
}
]
});내부 런북 시스템, 독자적인 모니터링 도구, 레거시 시스템과의 통합을 표준화된 인터페이스로 연결한다. AWS 제공 통합에 없는 도구도 MCP로 추가하면 된다.
애플리케이션 관계 맵
에이전트가 단순히 로그를 보는 것을 넘어 효과적인 이유가 있다. 시스템 간 의존성을 사전에 학습하기 때문이다.
결제 서비스 알림이 왔을 때, 에이전트는 결제 서비스가 의존하는 데이터베이스, 외부 결제 게이트웨이, 인증 서비스를 알고 있다. 알림 신호 하나만 보는 게 아니라, 연관 시스템 전체를 같이 조사한다.
비유하면 의사가 환자를 볼 때 증상만 보는 게 아니라 기저질환과 복용 중인 약을 함께 검토하는 것과 같다. 인시던트 원인이 직접적인 서비스가 아니라 의존하는 외부 서비스에 있는 경우가 많다.
보고서와 차트 생성
루트 코즈를 특정하면 에이전트가 보고서를 생성한다. 커스텀 차트도 포함된다.
인시던트 대응 이후 포스트모템 작성에 드는 시간을 줄이는 것이 목표다. "어떤 서비스가 언제 어떤 이유로 오류를 냈는가"를 정리하는 작업을 에이전트가 초안 수준으로 처리한다.
가용 리전
현재 여섯 개 리전에서 사용 가능하다.
- us-east-1 (버지니아)
- us-west-2 (오레곤)
- eu-west-1 (아일랜드)
- ap-northeast-1 (도쿄)
- ap-southeast-1 (싱가포르)
- ap-southeast-2 (시드니)
실제로 쓸 수 있을까
프리뷰 수치인 75% MTTR 감소는 인상적이다. 그러나 몇 가지 전제가 있다.
필요한 준비:
- 관찰 가능성 도구가 이미 구축되어 있어야 한다
- 애플리케이션 의존성이 정리되어 있을수록 정확도가 높아진다
- 런북이 구조화되어 있을수록 에이전트가 활용할 수 있다
기존에 관찰 가능성 인프라가 없는 팀이 DevOps Agent를 붙인다고 MTTR이 줄어들지 않는다. 에이전트는 데이터를 잘 수집하고 분석하지만, 데이터가 없으면 분석할 게 없다.
마무리
AWS DevOps Agent는 AIOps의 다음 단계를 보여주는 사례다. 탐지에서 자율 조사로의 이동이다.
- 탐지 → 조사: 알림 이후 단계를 자동화
- 멀티 소스: 로그, 메트릭, 배포, 런북을 한 번에 분석
- MCP 확장: 내부 도구를 표준 인터페이스로 연결
- 94% 루트 코즈 정확도: 프리뷰 사용자 기준
야간 온콜 엔지니어가 알람에 깨어날 때, 에이전트가 이미 초기 분석을 마쳐둔 상태라면 대응 속도가 달라진다. 아직 프리뷰 데이터이지만, 방향은 맞다.
참고:
- AWS - AWS DevOps Agent General Availability: https://www.infoq.com/news/2026/04/aws-devops-agent-ga/
관심 있을 만한 포스트
Anthropic Managed Agents — AI 에이전트 인프라를 플랫폼에 넘기다
오케스트레이션, 세션 상태, 샌드박스를 직접 구축하지 않아도 되는 Anthropic 관리형 에이전트 플랫폼의 구조와 트레이드오프를 분석한다.
Claude Code 프롬프트 재현성 — 암묵지를 제거하는 자동 튜닝 워크플로우
작성자와 평가자를 분리하고 서브에이전트로 반복 실행해 프롬프트 품질을 객관적으로 끌어올리는 실전 방법론을 정리한다.
mini-swe-agent — 100줄짜리 AI가 GitHub 이슈를 해결하는 방법
SWE-bench verified 74% 달성에도 핵심 코드가 100줄인 최소주의 AI 코딩 에이전트의 아키텍처와 동작 원리를 분석한다.
DigitalOcean에서 Hetzner로 — 월 $1,432를 $233으로 줄인 무중단 이전기
6단계 무중단 이전 절차로 248GB 데이터와 65GB 파일을 다운타임 0분으로 이전한 실전 마이그레이션 기록이다.
Node.js 인기 레포 6개의 미문서 환경변수 — 스캔 결과 공개
Express, NestJS, Supabase 등 6개 Node.js 프로젝트를 스캔해 실제 env 사용량과 문서화 수준의 격차를 분석한다.
webpage-mcp — 기존 브라우저를 AI 에이전트 MCP 서버로 바꾸는 도구
Chrome 확장으로 브라우저를 MCP 서버로 변환해 AI 에이전트가 기존 로그인 세션을 활용한 웹 자동화를 가능하게 하는 도구를 살펴본다.
불 끄기 전에 원인 조사하는 소방관은 없다 — 장애 복구를 결정짓는 First Action
우아한형제들이 70건의 장애 사례를 분석해 도출한 First Action 전략. 장애 복구 시간을 결정하는 건 원인 분석이 아니라 최초 조치다.
삽 대신 굴삭기 — Netflix가 400개 PostgreSQL 클러스터를 자동으로 옮긴 방법
Netflix Online Data Stores 팀이 400개에 가까운 RDS Postgres 클러스터를 Aurora Postgres로 자동 마이그레이션한 셀프서비스 워크플로우 설계 과정.