사용자가 촬영한 원본 영상을 입력하면, AI가 내용을 분석하고 주제에 맞게 자동 편집 후 배경음악(BGM)을 추가하거나, Adobe Premiere·DaVinci Resolve 등 전문 편집 프로그램에서 열 수 있는 설정파일로 출력하는 오픈소스 6종을 비교 분석한다.
| 도구 | 영상 분석 | 주제 자동 감지 | 자동 편집 | BGM 자동 추가 | 설정파일 출력 | 라이선스 |
|---|---|---|---|---|---|---|
| OpenMontage | CLIP, BLIP-2, WhisperX | 지원 | 전체 파이프라인 | Suno AI + 무료음원 | YAML | AGPLv3 |
| auto-editor | 음량·모션 감지 | 미지원 | 침묵·정지 제거 | 미지원 | XML / EDL | Public Domain |
| ai-powered-video-analyzer | YOLO, BLIP, Whisper, PANNs | LLM 요약 | 분석만 | 미지원 | 텍스트 리포트 | MIT |
| OpenShorts | faster-whisper, YOLOv8 | 바이럴 구간 탐지 | 9:16 숏츠 컷 | 미확인 | 미지원 | 미확인 |
| ai-clips-maker | Whisper, 화자 분리 | 하이라이트 감지 | 세로형 클립 | 미지원 | 미지원 | 미확인 |
| MoviePy | 직접 구현 필요 | 미지원 | 코드 기반 자유 편집 | 코드로 삽입 | 미지원 | MIT |
영상 자동 편집은 크게 4개 단계로 이루어진다. 각 도구가 이 중 어느 단계를 커버하는지가 핵심 차별점이다.
AI가 영상 내 사람, 사물, 대화 내용, 분위기를 파악하는 단계다. 마치 영상을 처음 보는 편집자가 내용을 훑는 것과 같다.
시각 분석: YOLO(물체 인식) → BLIP(장면을 문장으로 설명) → CLIP(주제어로 관련 장면 검색) 순서로 정밀도가 높아진다. OpenMontage는 CLIP/BLIP-2를 모두 사용하는 가장 깊은 분석을 제공한다.
청각 분석: Whisper(OpenAI 음성 인식 모델)가 대화를 텍스트로 변환하고, PANNs가 음악·소음·박수 등 소리 종류를 분류한다.
분석 결과를 바탕으로 "어느 장면을 쓰고, 어디를 자를지"를 결정하는 단계다.
침묵·정지 제거형: auto-editor는 말이 없거나 움직임이 없는 구간을 자동 삭제한다. 강의·브이로그 편집 속도를 80% 단축 가능하다.
주제 기반 AI 편집형: OpenMontage는 AI 에이전트가 "이 영상의 주제가 무엇인지" 스스로 판단하고 어떤 장면을 선택할지 결정한다.
포맷 최적화형: OpenShorts, ai-clips-maker는 긴 영상에서 바이럴 가능성 높은 구간을 골라 TikTok/Reels/YouTube Shorts용 세로 9:16 포맷으로 자동 변환한다.
편집된 영상에 배경음악을 더하는 단계다. 오픈소스에서 이 기능을 완전 자동으로 지원하는 도구는 현재 OpenMontage가 유일하다.
OpenMontage는 Suno AI(노래 포함, 최대 8분)와 ElevenLabs Music(인스트루멘탈)으로 영상 주제에 맞는 음악을 생성하거나, 저작권 무료 스톡 음악을 자동으로 찾아 삽입한다. MoviePy는 개발자가 직접 코드로 음악 파일을 덧입힐 수 있다.
두 가지 방향으로 나뉜다.
완성 영상: 바로 공유할 수 있는 mp4 파일 (OpenMontage, OpenShorts, ai-clips-maker)
편집 설정파일: 전문 편집 프로그램에서 열어 추가 수정이 가능한 파일. auto-editor가 XML(Premiere Pro, Final Cut Pro), EDL(DaVinci Resolve), Kdenlive XML 형식으로 출력한다.
| 용어 | 한 줄 설명 | 사용 도구 |
|---|---|---|
| FFmpeg | 영상 편집의 만능 공구함. 거의 모든 도구가 내부적으로 호출 | 전체 |
| Whisper | OpenAI 음성 인식 모델. 영상 속 말소리를 텍스트로 변환 | OpenMontage, OpenShorts, ai-clips-maker, ai-powered-video-analyzer |
| YOLO | 영상에서 사람·사물을 실시간으로 인식하는 AI | OpenShorts, ai-powered-video-analyzer |
| BLIP / CLIP | 장면을 문장으로 설명하거나, 주제어와 장면을 연결하는 AI | OpenMontage, ai-powered-video-analyzer |
| PANNs | 음악·박수·소음 등 소리 종류를 분류하는 AI | ai-powered-video-analyzer |
| EDL | "어느 구간을 사용할지" 기록한 메모 파일. 편집 프로그램에서 열면 타임라인이 자동 구성 | auto-editor |
| Ollama | 로컬 PC에서 LLM을 실행하는 도구. 인터넷 연결 없이 AI 요약 가능 | ai-powered-video-analyzer |
| AGPLv3 | 수정해서 서비스로 배포하면 소스코드를 공개해야 하는 라이선스 | OpenMontage |
단일 도구로 "분석 → 편집 → BGM → 완성 영상" 전 과정을 자동화하는 오픈소스는 현재 OpenMontage가 유일하다. 나머지 도구들은 파이프라인의 일부를 담당하므로 목적에 따라 조합이 필요하다.
10분 원본 영상 → AI가 "여행/풍경" 주제 파악 → 침묵·블러 구간 제거 → Suno AI가 여행 분위기 BGM 생성 → 완성본 출력
1시간 강의 영상 → 핵심 발언 구간 자동 선별 → 화자 중심 세로 크롭 → TikTok/Reels용 클립 다수 출력
원본 영상 → 침묵 구간 자동 제거 계획 수립 → XML/EDL 내보내기 → Premiere/DaVinci에서 BGM·자막·효과 직접 추가
사내 회의 녹화본 → 외부 API 전송 없이 로컬 실행 → 내용 요약 리포트 생성 (Ollama + 로컬 LLM)
검색어: "open source AI video editing automation BGM music 2026" / "AI 동영상 자동편집 오픈소스 BGM 추가 자동화 2025 2026"