AI Times  ·  Video AI  ·  2026-04-21

트웰브랩스 페가수스 1.5
영상을 "검색"에서 "구조 설계"로

업계 최초 시간 기반 메타데이터 추출(TBM) 방식으로, 자연어 명령 하나로 영상의 구간·시간 코드·맥락을 자동으로 JSON 구조화한다. 단순 질의응답을 넘어 영상 콘텐츠를 데이터베이스화하는 새로운 패러다임.

기업 Twelve Labs
모델 Pegasus 1.5
핵심 기술 TBM (시간 기반 메타데이터)
01 — Key Numbers

핵심 성능 지표

+13.1%
구글 제미나이 3.1 Pro 대비
구간 분할 정확도 향상
~350ms
시간 경계 검출
정확도 (오차 이내)
3채널
시각 + 언어 + 오디오
통합 신호 분석
02 — Paradigm Shift

페가수스 1.2 → 1.5: 무엇이 달라졌나

페가수스 1.2 (이전)
영상 인덱싱 후
질문 응답
페가수스 1.5 (신규)
자연어 명령으로
영상 구조 자동 설계
구분 페가수스 1.2 페가수스 1.5
작동 패러다임 검색(Search) 구조화(Structure)
출력 형태 텍스트 답변 구조화 JSON (시간 코드)
사용자 인터페이스 질의응답형 자연어 명령형
다운스트림 통합 수동 후처리 필요 API 파이프라인 직결
03 — Technical Architecture

TBM 작동 흐름

1

자연어 명령 입력

"뉴스 앵커가 바뀔 때마다 구간을 나눠줘" — 별도 설정 없이 지시문 하나로 시작

2

3채널 통합 신호 분석

저수준 시각(편집·앵글) + 고수준 맥락(대화 주제) + 오디오(발화자 교체)를 동시 처리

3

구간 자동 분할 및 시간 코드 부여

~350ms 오차 이내 경계 검출, 시작·종료 타임스탬프 자동 태깅

4

구조화 JSON 출력

각 구간의 시간 코드 + 의미 설명을 JSON으로 반환 → 엔터프라이즈 파이프라인 직접 연결

04 — Signal Layers

멀티모달 신호 분석 3계층

Layer 1 — 시각 저수준
Visual Signals
편집 포인트, 카메라 앵글 전환, 화면 전환 효과
Layer 2 — 맥락 고수준
Contextual Signals
대화 주제 변화, 장면 의미 전환, 내러티브 흐름
Layer 3 — 오디오
Audio Signals
발화자 교체 감지, 음성 패턴 분석, 배경음 변화
05 — Use Cases

산업별 활용 시나리오

미디어·엔터테인먼트
긴 영상 콘텐츠의 하이라이트 자동 추출, 챕터 분할 자동화 — 편집 인력 최소화
스포츠 콘텐츠 분석
경기 장면별 자동 분류 (공격/수비/골) — 중계 클립 생성·검색 자동화
보안 감시
CCTV 영상 내 이벤트 발생 구간 자동 태깅 — 수동 모니터링 부담 경감
광고 브랜드 추적
방송 영상 내 브랜드 노출 구간·빈도 자동 집계 — 광고 효과 측정 자동화
06 — Strategic Outlook

전략적 의미 및 전망

포지셔닝 영상 특화 버티컬 AI로 OpenAI·Google 범용 모델과 차별화. "영상 구조화"라는 틈새를 선점.
시장 트렌드 영상 AI 경쟁이 "이해(comprehension)"에서 "구조화(structuring)"로 이동하는 신호탄.
엔터프라이즈 전략 JSON 출력 + API 설계로 기업 파이프라인 통합 용이 → 채택 장벽 낮춤.
향후 과제 일반 API 공개 시기 미확인. 다국어·비구어 콘텐츠(음악 영상 등) 대응 범위 불명확.