Cloudflare Agent Memory — 에이전트가 기억을 갖는 방법

컨텍스트 윈도우가 1M 토큰을 넘어도 에이전트는 여전히 "잘 잊는다". 모든 걸 컨텍스트에 쌓으면 품질이 떨어지고, 공격적으로 지우면 필요한 정보가 사라진다. 이 딜레마를 Cloudflare는 "관리형 메모리 서비스"로 풀려 한다.

Agents that remember: 에이전트가 중요한 것은 기억하고, 불필요한 것은 잊으며, 시간이 지남에 따라 더 똑똑해진다.

기존 방식과의 차이

에이전트 메모리는 이미 여러 오픈소스 솔루션이 있었다. Cloudflare가 지적하는 기존 방식의 문제는 3가지다.

문제	설명
API 설계	에이전트에게 파일시스템 직접 접근을 허용 → 토큰 낭비
벤치마크 최적화	실제 환경에서 실패하는 경우가 많음
아키텍처	자체 호스팅과 관리형이 혼재

Agent Memory는 추출과 검색을 백그라운드에서 처리한다. 에이전트는 원본 데이터에 직접 접근하는 대신 검색 결과를 받는다. 컨텍스트를 덜 쓰고, 더 관련성 높은 정보를 얻는다.

[💡 잠깐! 이 용어는?] 컨텍스트 부패(Context Rot): 컨텍스트 윈도우가 길어질수록 모델이 중간 정보를 제대로 참조하지 못하는 현상. 토큰 수가 아니라 정보 품질이 문제다.

API — 4가지 기본 동작

src/agent.ts

// Workers 바인딩으로 프로필 가져오기
const profile = await env.MEMORY.getProfile("my-project")
 
// 1. Ingest: 대화 이력을 통째로 수집 (컨텍스트 압축 시)
await profile.ingest(conversationHistory, { sessionId: "session-001" })
 
// 2. Remember: 모델이 중요하다고 판단한 정보를 직접 저장
await profile.remember({
  content: "사용자는 pnpm을 npm보다 선호한다",
  sessionId: "session-001"
})
 
// 3. Recall: 쿼리에 맞는 메모리를 검색해 자연어로 요약
const answer = await profile.recall("사용자가 선호하는 패키지 관리자는?")
 
// 4. Forget / List: 메모리 삭제 또는 목록 조회
await profile.forget(memoryId)
const list = await profile.list()

REST API도 지원해서 Workers 외부 에이전트에서도 쓸 수 있다.

수집 파이프라인 — 어떻게 기억하나

대화 이력을 ingest하면 내부에서 자동으로 처리된다.

1단계: 결정론적 ID 생성

각 메시지의 SHA-256 해시를 만든다. 같은 대화를 다시 수집해도 중복이 생기지 않는다. 멱등성이 보장된다.

2단계: 병렬 추출 (2개 패스)

전체 패스: 약 10K 자 청크, 메시지 2개 중복, 4개 동시 처리
상세 패스: 이름, 가격, 버전 같은 구체적 값만 추출

두 패스 결과를 병합해서 일반적 맥락과 구체적 사실을 모두 잡는다.

3단계: 검증 (8가지 체크)

엔티티 정체성, 위치 컨텍스트, 시간 정확성 등을 검증한다. 부정확한 항목은 수정하거나 삭제한다. 잘못된 기억이 쌓이는 걸 막는다.

4단계: 분류 (4가지 타입)

타입	예시	특징
Facts	"이 프로젝트는 GraphQL을 쓴다"	불변 지식
Events	배포, 의사결정	특정 시간의 사건
Instructions	절차, 워크플로우	수행 방법
Tasks	현재 진행 중인 작업	임시, 벡터 인덱스 제외

5단계: 저장 및 비동기 벡터화

중복은 자동으로 스킵하고, 임베딩은 백그라운드에서 비동기로 처리한다. 저장이 완료될 때까지 기다리지 않아도 된다.

검색 파이프라인 — 어떻게 떠올리나

recall을 호출하면 5개 채널이 병렬로 실행된다. 단일 채널보다 다양한 관점에서 메모리를 탐색하는 방식이다. 전문 텍스트 검색은 정확한 단어를, 벡터 검색은 의미적 유사도를, HyDE는 추상적 질문에 강하다.

검색 파이프라인

쿼리
  ↓ 쿼리 분석 (주제 키, 전문 검색어, HyDE 생성)
  ↓
  ├─ 1. 전문 텍스트 검색 (Porter 스테밍)
  ├─ 2. 팩트 키 조회 (정확 일치)
  ├─ 3. 원본 메시지 검색
  ├─ 4. 직접 벡터 검색 (의미적 유사도)
  └─ 5. HyDE 벡터 검색
        ↓
  Reciprocal Rank Fusion (결과 병합)
        ↓
  자연어 합성 답변

[💡 잠깐! 이 용어는?] HyDE(Hypothetical Document Embedding): "이 질문의 답변이 있다면 어떻게 생겼을까?"를 먼저 생성하고 그것과 유사한 메모리를 찾는 기법. 추상적이거나 다중 홉이 필요한 쿼리에 효과적이다.

결과 병합은 Reciprocal Rank Fusion으로 한다. 팩트 키 일치에 가장 높은 가중치를 주고, 같은 점수일 때는 최신 결과를 우선한다.

시간 계산은 LLM에 맡기지 않는다. "3일 전" 같은 표현은 정규식과 산술로 결정론적으로 처리한다.

기술 스택

Agent Memory 자체가 Cloudflare 위에서 구축됐다.

컴포넌트	역할	기술
격리	테넌트별 강한 격리	Durable Objects
벡터 저장소	임베딩된 메모리 검색	Vectorize
LLM 추론	추출·분류·합성	Workers AI
메시지 저장	원본 대화 기록	SQLite (DO 기반)

모델 선택에서 흥미로운 점이 있다. 추출·분류는 Llama 4 Scout(17B MoE), 합성은 Nemotron 3(120B MoE)를 쓴다. 발견한 것은 "더 큰 모델이 항상 낫지 않다"는 것이다. 추출 작업에서는 작고 빠른 모델이 더 일관된 결과를 냈다.

활용 사례

코딩 에이전트

팀 간 공유 프로필로 한 팀원의 에이전트가 배운 코드베이스 지식을 다른 팀원도 활용할 수 있다. "이 서비스의 인증 패턴은 JWT다"라는 사실을 한 번만 학습하면 팀 전체가 쓴다.

에이전트 코드 리뷰

과거 리뷰에서 불필요했던 댓글 패턴, 자주 플래그된 코드 패턴을 기억한다. 시간이 지날수록 리뷰 노이즈가 줄어든다.

장기 실행 챗봇

대화 이력을 수집하고 새로운 메시지마다 관련 과거 기억을 검색한다. 6개월 전 대화 내용도 필요하면 꺼낼 수 있다.

데이터 주권

"당신의 메모리는 당신의 것"이라는 원칙을 명시한다. 모든 메모리를 내보낼 수 있다. 에이전트가 학습한 지식이 특정 플랫폼에 락인되지 않는다.

마무리

Agent Memory는 현재 비공개 베타다. 앞으로 계획은 추출 파이프라인 개선, 검색 품질 튜닝, 백그라운드 처리 확대다. "에이전트가 수면 중에 기억을 통합한다"는 표현이 인상적이다.

Workers 기반 에이전트를 만든다면 이 서비스가 출시되는 시점에 다시 검토할 필요가 있다. 메모리 인프라를 직접 구축하는 비용이 만만치 않다.

참고:

Agents that remember: https://blog.cloudflare.com/introducing-agent-memory/

Cloudflare Agent Memory — 에이전트가 기억을 갖는 방법

기존 방식과의 차이

API — 4가지 기본 동작

수집 파이프라인 — 어떻게 기억하나

1단계: 결정론적 ID 생성

2단계: 병렬 추출 (2개 패스)

3단계: 검증 (8가지 체크)

4단계: 분류 (4가지 타입)

5단계: 저장 및 비동기 벡터화

검색 파이프라인 — 어떻게 떠올리나

기술 스택

활용 사례

코딩 에이전트

에이전트 코드 리뷰

장기 실행 챗봇

데이터 주권

마무리

같은 카테고리 · Tooling

Lighthouse 13.3 Agentic Browsing — AI 에이전트가 내 웹사이트를 잘 탐색할 수 있나

VS Code 1.118 — 원격 에이전트 제어, 의미 기반 검색, Chronicle

VS Code 1.119 — 에이전트 브라우저 통합과 OpenTelemetry 추적

AWS DevOps Agent — MTTR 75% 감소를 만든 자율 인시던트 대응 에이전트

태그가 겹치는 글

Cloudflare Agents Week 2026 — 에이전트 클라우드가 온다

Cloudflare Code Mode — 2,500개 API를 1,000 토큰에 담는 MCP의 새로운 패턴

Accept: text/markdown — AI 에이전트가 HTML 대신 마크다운을 받는 시대

Superpowers 플러그인 — Claude Code에 14개 스킬을 주입하는 오픈소스 에이전트 프레임워크