Cloudflare Agent Memory — 에이전트가 기억을 갖는 방법

10 min read
CloudflareAI AgentMemoryWorkersVector Search
Cloudflare Agent Memory — 에이전트가 기억을 갖는 방법

컨텍스트 윈도우가 1M 토큰을 넘어도 에이전트는 여전히 "잘 잊는다". 모든 걸 컨텍스트에 쌓으면 품질이 떨어지고, 공격적으로 지우면 필요한 정보가 사라진다. 이 딜레마를 Cloudflare는 "관리형 메모리 서비스"로 풀려 한다.

Agents that remember: 에이전트가 중요한 것은 기억하고, 불필요한 것은 잊으며, 시간이 지남에 따라 더 똑똑해진다.


기존 방식과의 차이

에이전트 메모리는 이미 여러 오픈소스 솔루션이 있었다. Cloudflare가 지적하는 기존 방식의 문제는 3가지다.

문제설명
API 설계에이전트에게 파일시스템 직접 접근을 허용 → 토큰 낭비
벤치마크 최적화실제 환경에서 실패하는 경우가 많음
아키텍처자체 호스팅과 관리형이 혼재

Agent Memory는 추출과 검색을 백그라운드에서 처리한다. 에이전트는 원본 데이터에 직접 접근하는 대신 검색 결과를 받는다. 컨텍스트를 덜 쓰고, 더 관련성 높은 정보를 얻는다.

[💡 잠깐! 이 용어는?] 컨텍스트 부패(Context Rot): 컨텍스트 윈도우가 길어질수록 모델이 중간 정보를 제대로 참조하지 못하는 현상. 토큰 수가 아니라 정보 품질이 문제다.


API — 4가지 기본 동작

src/agent.ts
// Workers 바인딩으로 프로필 가져오기
const profile = await env.MEMORY.getProfile("my-project")
 
// 1. Ingest: 대화 이력을 통째로 수집 (컨텍스트 압축 시)
await profile.ingest(conversationHistory, { sessionId: "session-001" })
 
// 2. Remember: 모델이 중요하다고 판단한 정보를 직접 저장
await profile.remember({
  content: "사용자는 pnpm을 npm보다 선호한다",
  sessionId: "session-001"
})
 
// 3. Recall: 쿼리에 맞는 메모리를 검색해 자연어로 요약
const answer = await profile.recall("사용자가 선호하는 패키지 관리자는?")
 
// 4. Forget / List: 메모리 삭제 또는 목록 조회
await profile.forget(memoryId)
const list = await profile.list()

REST API도 지원해서 Workers 외부 에이전트에서도 쓸 수 있다.


수집 파이프라인 — 어떻게 기억하나

대화 이력을 ingest하면 내부에서 자동으로 처리된다.

1단계: 결정론적 ID 생성

각 메시지의 SHA-256 해시를 만든다. 같은 대화를 다시 수집해도 중복이 생기지 않는다. 멱등성이 보장된다.

2단계: 병렬 추출 (2개 패스)

  • 전체 패스: 약 10K 자 청크, 메시지 2개 중복, 4개 동시 처리
  • 상세 패스: 이름, 가격, 버전 같은 구체적 값만 추출

두 패스 결과를 병합해서 일반적 맥락과 구체적 사실을 모두 잡는다.

3단계: 검증 (8가지 체크)

엔티티 정체성, 위치 컨텍스트, 시간 정확성 등을 검증한다. 부정확한 항목은 수정하거나 삭제한다. 잘못된 기억이 쌓이는 걸 막는다.

4단계: 분류 (4가지 타입)

타입예시특징
Facts"이 프로젝트는 GraphQL을 쓴다"불변 지식
Events배포, 의사결정특정 시간의 사건
Instructions절차, 워크플로우수행 방법
Tasks현재 진행 중인 작업임시, 벡터 인덱스 제외

5단계: 저장 및 비동기 벡터화

중복은 자동으로 스킵하고, 임베딩은 백그라운드에서 비동기로 처리한다. 저장이 완료될 때까지 기다리지 않아도 된다.


검색 파이프라인 — 어떻게 떠올리나

recall을 호출하면 5개 채널이 병렬로 실행된다. 단일 채널보다 다양한 관점에서 메모리를 탐색하는 방식이다. 전문 텍스트 검색은 정확한 단어를, 벡터 검색은 의미적 유사도를, HyDE는 추상적 질문에 강하다.

검색 파이프라인
쿼리
  ↓ 쿼리 분석 (주제 키, 전문 검색어, HyDE 생성)

  ├─ 1. 전문 텍스트 검색 (Porter 스테밍)
  ├─ 2. 팩트 키 조회 (정확 일치)
  ├─ 3. 원본 메시지 검색
  ├─ 4. 직접 벡터 검색 (의미적 유사도)
  └─ 5. HyDE 벡터 검색

  Reciprocal Rank Fusion (결과 병합)

  자연어 합성 답변

[💡 잠깐! 이 용어는?] HyDE(Hypothetical Document Embedding): "이 질문의 답변이 있다면 어떻게 생겼을까?"를 먼저 생성하고 그것과 유사한 메모리를 찾는 기법. 추상적이거나 다중 홉이 필요한 쿼리에 효과적이다.

결과 병합은 Reciprocal Rank Fusion으로 한다. 팩트 키 일치에 가장 높은 가중치를 주고, 같은 점수일 때는 최신 결과를 우선한다.

시간 계산은 LLM에 맡기지 않는다. "3일 전" 같은 표현은 정규식과 산술로 결정론적으로 처리한다.


기술 스택

Agent Memory 자체가 Cloudflare 위에서 구축됐다.

컴포넌트역할기술
격리테넌트별 강한 격리Durable Objects
벡터 저장소임베딩된 메모리 검색Vectorize
LLM 추론추출·분류·합성Workers AI
메시지 저장원본 대화 기록SQLite (DO 기반)

모델 선택에서 흥미로운 점이 있다. 추출·분류는 Llama 4 Scout(17B MoE), 합성은 Nemotron 3(120B MoE)를 쓴다. 발견한 것은 "더 큰 모델이 항상 낫지 않다"는 것이다. 추출 작업에서는 작고 빠른 모델이 더 일관된 결과를 냈다.


활용 사례

코딩 에이전트

팀 간 공유 프로필로 한 팀원의 에이전트가 배운 코드베이스 지식을 다른 팀원도 활용할 수 있다. "이 서비스의 인증 패턴은 JWT다"라는 사실을 한 번만 학습하면 팀 전체가 쓴다.

에이전트 코드 리뷰

과거 리뷰에서 불필요했던 댓글 패턴, 자주 플래그된 코드 패턴을 기억한다. 시간이 지날수록 리뷰 노이즈가 줄어든다.

장기 실행 챗봇

대화 이력을 수집하고 새로운 메시지마다 관련 과거 기억을 검색한다. 6개월 전 대화 내용도 필요하면 꺼낼 수 있다.


데이터 주권

"당신의 메모리는 당신의 것"이라는 원칙을 명시한다. 모든 메모리를 내보낼 수 있다. 에이전트가 학습한 지식이 특정 플랫폼에 락인되지 않는다.


마무리

Agent Memory는 현재 비공개 베타다. 앞으로 계획은 추출 파이프라인 개선, 검색 품질 튜닝, 백그라운드 처리 확대다. "에이전트가 수면 중에 기억을 통합한다"는 표현이 인상적이다.

Workers 기반 에이전트를 만든다면 이 서비스가 출시되는 시점에 다시 검토할 필요가 있다. 메모리 인프라를 직접 구축하는 비용이 만만치 않다.


참고:

관심 있을 만한 포스트

Cloudflare Agents Week 2026 — 에이전트 클라우드가 온다

Cloudflare가 Agents Week에 발표한 컴퓨팅, 보안, 메모리, AI 추론 인프라를 한 번에 정리한다.

CloudflareAI Agent

Cloudflare Code Mode — 2,500개 API를 1,000 토큰에 담는 MCP의 새로운 패턴

Cloudflare가 공개한 Code Mode는 AI 에이전트에게 수천 개의 API 엔드포인트를 단 2개 도구로 제공하는 MCP 서버 설계 패턴이다.

CloudflareMCP

Accept: text/markdown — AI 에이전트가 HTML 대신 마크다운을 받는 시대

Cloudflare가 AI 에이전트를 위해 HTML을 마크다운으로 자동 변환하는 기능의 동작 원리와 의미를 살펴본다.

CloudflareAI Agent

Agent Harness Engineering — AI 에이전트 성능을 결정하는 진짜 변수

모델보다 harness가 에이전트 성능을 더 크게 좌우한다는 사실을 Terminal Bench 결과와 함께 검증한다.

AI AgentHarness

Cloudflare AI 코드 리뷰 — 48,000건 MR을 AI로 검토한 실전 아키텍처

Cloudflare가 48,095건의 머지 요청에 AI 코드 리뷰를 적용한 방식과 리스크 티어, 조정자 패턴, 프롬프트 주입 방지 구현을 분석한다.

AI코드 리뷰

Cloudflare 내부 AI 스택 — 93% 개발자 채택률을 만든 방법

Cloudflare가 자사 제품으로 내부 AI 엔지니어링 인프라를 구축하고 R&D 93%를 1년 안에 채택시킨 아키텍처와 운영 전략을 분석한다.

CloudflareAI

AI 에이전트 프로토콜 완전 정리 — MCP, A2A, AG-UI 무엇을 언제 쓰나

AI 에이전트 생태계를 지탱하는 6가지 표준 프로토콜의 역할 차이와 선택 기준을 정리한다.

MCPA2A

Gemini CLI 서브에이전트 — 전문 AI 팀을 터미널에서 구성하는 법

Gemini CLI에 도착한 서브에이전트 기능으로 복잡한 작업을 전문화된 AI에게 위임하는 방법을 알아본다.

Gemini CLIAI Agent