메이커 에반MORNING DIGEST · 2026-06-10 · 메이커 에반🎬 영상

루프 엔지니어링 — AI가 스스로 진화하게 만드는 법

메이커 에반이 "AI를 매번 새로 가르치는" 비효율을 끊는 방법으로 '루프 엔지니어링'을 제시. 핵심 원칙은 "측정 없는 진화는 금지". AI가 평가→변경→검증→병합을 한 바퀴 돌며 스스로 좋아지는 순환을 설계하고, 사람은 루프 '위'에서 코치 역할을 한다.

01핵심 개요

항목	내용
문제	AI는 기억력 30분짜리 신입 — 매일 같은 교육 반복, 개선 여부 미측정
핵심 원칙	"측정 없는 진화는 금지"(체중계 없는 다이어트 금물)
루프 1바퀴	평가 → 제한(딱 하나 변경) → 검증 → 병합(좋을 때만)
2대 규칙	① 재보기 전엔 안 바꾼다 ② 한 번에 하나만 바꾼다
사람의 자리	루프 '안'이 아니라 '위'(Human on the loop) = 코치

02문제 정의 — 왜 AI가 매번 제자리인가

AI는 일은 잘하나 퇴근하면 다 잊는 신입 — 매일 아침 같은 교육 반복.
더 큰 문제: 프롬프트를 고쳤는데 진짜 좋아졌는지 아무도 측정 안 함(한 곳 개선·세 곳 악화 모름).
비유: 체중계 없이 다이어트 → 한 달 뒤 오히려 증가. → 오늘의 심장 문장 "측정 없는 진화는 금지".

03기술적 맥락 — AI 다루는 기술의 진화 4단계

프롬프트 엔지니어링: 말 잘 거는 기술(한 문장).
컨텍스트 엔지니어링: 자료·도구·배경을 통째로 챙겨줌(한 페이지).
하네스(Harness) 엔지니어링: 검사기·테스트·규칙 장치로 알아서 굴러가게 함(한 작업장). "에이전트 = 모델 + 하네스".
루프 엔지니어링: 이 장치들을 시간 위에서 돌려 매일 스스로 개선되는 공장.

04루프의 작동 — 평가·제한·검증·병합

평가: 지금 실력이 몇 점인지 먼저 측정.
제한: "이 부분을 이렇게 바꾸면?" 딱 하나만 변경.
검증: 변경 전/후를 같은 시험으로 재채점.
병합: 점수가 올라갔을 때만 변경을 살림(아니면 미련 없이 버림).
비유: 요리사 레시피 수정 — 소금 조금 → 맛보기 → 좋으면 적고 아니면 버림. "맛보기 전엔 레시피 안 고친다".
핵심 규칙: 한 번에 하나만 바꿔야 원인 규명 가능(다섯 개 동시 변경 시 원인 미상). 느려 보여도 가장 빠른 길.

05골든 셋과 채점 분리

골든 셋(Golden Set): AI를 채점할 고정 시험지(모의고사 문제집을 얼려둠). 매일 같은 문제로 재야 점수 비교 의미.
에반의 스킬엔 고정 12문제 + 별도 채점 AI.
채점 분리 규칙: 문제내는 AI ≠ 채점하는 AI(자기 시험 자기 채점 금지 — 선수가 심판 보면 안 됨).

06사람의 역할 — 루프 '위'의 코치 + 실패 로그

위치: 사람은 루프 안(매번 검사)이 아니라 루프 위에서 루프 자체를 관리(Human on the loop).
코치의 세 가지: ① 시험지(평가 기준)를 사람이 정의(AI에 맡기면 기준을 흐림) ② 변경은 사람 승인 시에만 적용 ③ AI는 초안만, 결정은 사람.
정리: AI는 부지런한 인턴, 사람은 사수. 인턴이 다 하되 회사 규칙으로 박을지는 사수가 결정.
실패 로그: 실패한 시도를 "이 길은 막다른 길"로 한 줄 기록(오답 노트) → 한 달 뒤 같은 헛수고 방지.
빼기: 더하기만 말고 안 맞는 낡은 규칙은 제거(에반은 3바퀴마다 무엇을 지울지 고민, 지워도 점수 안 떨어지면 이득).

07현황 및 전망 — 세계가 같은 곳을 판다

안드레이 카파시(OpenAI 공동창업자): "평가가 없으면 좋아졌는지 알 수 없다" → '측정 없는 진화 금지'와 동일.
오토 리서치 패턴: AI가 자기 결과를 스스로 채점·분석·재시험하는 루프.
다윈 괴델 머신(사카나 AI + 대학): AI 여러 마리가 자기 코드를 고치고 잘하는 개체만 생존(자연선택).
미해결 퍼즐 — QA/E2E 테스트: 실제 사용자처럼 처음부터 끝까지 돌려보는 최종 점검은 아직 AI가 미흡 → 여기만은 사람이 직접(Human in the loop).
결론: AI를 "잘 쓰는 사람"과 "진짜 잘 쓰는 사람"의 차이는 프롬프트 실력이 아니라 루프 설계 능력.

08활용 시나리오 (오늘 당장 4단계)

시험지부터: 가장 자주 시키는 일의 "잘 됨" 기준 5~7개를 예/아니오로 작성.
점수 측정: 고치기 전 현재 실력을 같은 채점표로 측정.
하나만 변경: 프롬프트 한 문장·규칙 하나만 바꾸고 같은 표로 재채점 → 오르면 살리고 아니면 버림.
반복: 한 바퀴=한 걸음, 헛걸음 없이 누적.

09용어 사전

용어	한줄 설명	비유/예시
루프 엔지니어링	AI가 스스로 좋아지는 순환을 설계하는 기술	매일 개선되는 공장 라인
골든 셋	AI 채점용 고정 시험지(불변)	얼려둔 모의고사 문제집
하네스	AI 주변의 검사·테스트·규칙 장치	말 안장처럼 둘러친 보조장치
평가(Eval)	결과 품질을 점수로 측정	다이어트의 체중계
Human on the loop	사람이 루프 위에서 관리·승인	직접 안 뛰고 지시하는 코치
E2E 테스트	실사용처럼 처음부터 끝까지 점검	입주 전 수도·전기 다 켜보기
다윈 괴델 머신	자기 코드를 고치며 잘하는 개체만 생존	진화론 적용 자기개선 AI

10핵심 타임스탬프

메이커 에반 · 2026-06-10