메이커 에반MORNING DIGEST · 2026-06-10 · 메이커 에반🎬 영상
루프 엔지니어링 — AI가 스스로 진화하게 만드는 법
메이커 에반이 "AI를 매번 새로 가르치는" 비효율을 끊는 방법으로 '루프 엔지니어링'을 제시. 핵심 원칙은 "측정 없는 진화는 금지". AI가 평가→변경→검증→병합을 한 바퀴 돌며 스스로 좋아지는 순환을 설계하고, 사람은 루프 '위'에서 코치 역할을 한다.
01핵심 개요
| 항목 | 내용 |
|---|
| 문제 | AI는 기억력 30분짜리 신입 — 매일 같은 교육 반복, 개선 여부 미측정 |
| 핵심 원칙 | "측정 없는 진화는 금지"(체중계 없는 다이어트 금물) |
| 루프 1바퀴 | 평가 → 제한(딱 하나 변경) → 검증 → 병합(좋을 때만) |
| 2대 규칙 | ① 재보기 전엔 안 바꾼다 ② 한 번에 하나만 바꾼다 |
| 사람의 자리 | 루프 '안'이 아니라 '위'(Human on the loop) = 코치 |
02문제 정의 — 왜 AI가 매번 제자리인가
- AI는 일은 잘하나 퇴근하면 다 잊는 신입 — 매일 아침 같은 교육 반복.
- 더 큰 문제: 프롬프트를 고쳤는데 진짜 좋아졌는지 아무도 측정 안 함(한 곳 개선·세 곳 악화 모름).
- 비유: 체중계 없이 다이어트 → 한 달 뒤 오히려 증가. → 오늘의 심장 문장 "측정 없는 진화는 금지".
03기술적 맥락 — AI 다루는 기술의 진화 4단계
- 프롬프트 엔지니어링: 말 잘 거는 기술(한 문장).
- 컨텍스트 엔지니어링: 자료·도구·배경을 통째로 챙겨줌(한 페이지).
- 하네스(Harness) 엔지니어링: 검사기·테스트·규칙 장치로 알아서 굴러가게 함(한 작업장). "에이전트 = 모델 + 하네스".
- 루프 엔지니어링: 이 장치들을 시간 위에서 돌려 매일 스스로 개선되는 공장.
04루프의 작동 — 평가·제한·검증·병합
- 평가: 지금 실력이 몇 점인지 먼저 측정.
- 제한: "이 부분을 이렇게 바꾸면?" 딱 하나만 변경.
- 검증: 변경 전/후를 같은 시험으로 재채점.
- 병합: 점수가 올라갔을 때만 변경을 살림(아니면 미련 없이 버림).
- 비유: 요리사 레시피 수정 — 소금 조금 → 맛보기 → 좋으면 적고 아니면 버림. "맛보기 전엔 레시피 안 고친다".
- 핵심 규칙: 한 번에 하나만 바꿔야 원인 규명 가능(다섯 개 동시 변경 시 원인 미상). 느려 보여도 가장 빠른 길.
05골든 셋과 채점 분리
- 골든 셋(Golden Set): AI를 채점할 고정 시험지(모의고사 문제집을 얼려둠). 매일 같은 문제로 재야 점수 비교 의미.
- 에반의 스킬엔 고정 12문제 + 별도 채점 AI.
- 채점 분리 규칙: 문제내는 AI ≠ 채점하는 AI(자기 시험 자기 채점 금지 — 선수가 심판 보면 안 됨).
06사람의 역할 — 루프 '위'의 코치 + 실패 로그
- 위치: 사람은 루프 안(매번 검사)이 아니라 루프 위에서 루프 자체를 관리(Human on the loop).
- 코치의 세 가지: ① 시험지(평가 기준)를 사람이 정의(AI에 맡기면 기준을 흐림) ② 변경은 사람 승인 시에만 적용 ③ AI는 초안만, 결정은 사람.
- 정리: AI는 부지런한 인턴, 사람은 사수. 인턴이 다 하되 회사 규칙으로 박을지는 사수가 결정.
- 실패 로그: 실패한 시도를 "이 길은 막다른 길"로 한 줄 기록(오답 노트) → 한 달 뒤 같은 헛수고 방지.
- 빼기: 더하기만 말고 안 맞는 낡은 규칙은 제거(에반은 3바퀴마다 무엇을 지울지 고민, 지워도 점수 안 떨어지면 이득).
07현황 및 전망 — 세계가 같은 곳을 판다
- 안드레이 카파시(OpenAI 공동창업자): "평가가 없으면 좋아졌는지 알 수 없다" → '측정 없는 진화 금지'와 동일.
- 오토 리서치 패턴: AI가 자기 결과를 스스로 채점·분석·재시험하는 루프.
- 다윈 괴델 머신(사카나 AI + 대학): AI 여러 마리가 자기 코드를 고치고 잘하는 개체만 생존(자연선택).
- 미해결 퍼즐 — QA/E2E 테스트: 실제 사용자처럼 처음부터 끝까지 돌려보는 최종 점검은 아직 AI가 미흡 → 여기만은 사람이 직접(Human in the loop).
- 결론: AI를 "잘 쓰는 사람"과 "진짜 잘 쓰는 사람"의 차이는 프롬프트 실력이 아니라 루프 설계 능력.
08활용 시나리오 (오늘 당장 4단계)
- 시험지부터: 가장 자주 시키는 일의 "잘 됨" 기준 5~7개를 예/아니오로 작성.
- 점수 측정: 고치기 전 현재 실력을 같은 채점표로 측정.
- 하나만 변경: 프롬프트 한 문장·규칙 하나만 바꾸고 같은 표로 재채점 → 오르면 살리고 아니면 버림.
- 반복: 한 바퀴=한 걸음, 헛걸음 없이 누적.
09용어 사전
| 용어 | 한줄 설명 | 비유/예시 |
|---|
| 루프 엔지니어링 | AI가 스스로 좋아지는 순환을 설계하는 기술 | 매일 개선되는 공장 라인 |
| 골든 셋 | AI 채점용 고정 시험지(불변) | 얼려둔 모의고사 문제집 |
| 하네스 | AI 주변의 검사·테스트·규칙 장치 | 말 안장처럼 둘러친 보조장치 |
| 평가(Eval) | 결과 품질을 점수로 측정 | 다이어트의 체중계 |
| Human on the loop | 사람이 루프 위에서 관리·승인 | 직접 안 뛰고 지시하는 코치 |
| E2E 테스트 | 실사용처럼 처음부터 끝까지 점검 | 입주 전 수도·전기 다 켜보기 |
| 다윈 괴델 머신 | 자기 코드를 고치며 잘하는 개체만 생존 | 진화론 적용 자기개선 AI |