2026-05-22 | GPTers x 뽀짝이 AI 커뮤니티 핵심 요약

STT (음성-텍스트 변환) 및 화자 분리 도구 추천

음성 인식 문제: 회의 음성 파일의 화자가 많아 위스퍼(Whisper)로 인식이 잘 안 되는 문제 제기.
대안 서비스/도구:
- 다글로: 추천됨.
- Vrew: 3가지 엔진 비교 가능 (체감상 엔진별 차이는 크지 않음).
- Google, ReturnZero: 언급됨.
- Deepgram: 유료이지만 화자 분리가 잘 되고 실시간 전사 성능이 우수하며, 개인 사용 목적 무료 티어(가입 시 $200 크레딧 제공) 활용 가능. STT 분당 약 $0.0043. Deepgram API 개인 사용은 무료티어 사용량이 좀 있어서 쓸만함.
- 녹음 상태 점검: 녹음 상태 자체에 문제가 있을 가능성도 언급됨.

AI 에이전트 및 LLM(거대 언어 모델) 활용 및 관리

Groq 앱 (슈퍼그록):
- iOS 앱에서 3일 체험 가능 (구독 즉시 정지 권장).
- Android에서도 '슈퍼그록 써보기' 가능.
- OpenClo, Hermes에서 OAuth 또는 API를 통해 메모리 서치, Auxiliary 모델, 이미지/영상 생성 등에 활용 가능.
- xURL 스킬로 X(트위터) 포스트 검색 및 자동 등록 가능.
- 성능 개선 시 유용할 것으로 평가되나, 현재는 결제 후 사용하지 않는 경우도 있음.
- 200$ 크레딧으로 제공된 사용량 3% 남았다는 사용자 경험 공유.
OpenClo 및 Hermes와의 연동:
- Hermes는 5.18 업데이트로 Groq 지원.
- Hermes를 통한 영상 생성 시 실물 사진 기반 결과는 유사하나, 소리 커스터마이징은 어려움.
- 카톡 뽀짝이는 이미지 바로 생성 가능하며 (나노바나나 스킬, Gemini Key 사용), 영상 또한 생성 가능 (Hedra API 키 사용).
AI 에이전트 다중 활용 및 관리:
- 한 컴퓨터에 여러 AI 에이전트(봇)를 활용하는 방식에 대한 논의.
- Hermes에 메인 1개, 서브 4개(Discord 5계정) 사용 시 스킬 경로 문제 등 관리의 어려움 언급.
- Hermes 프로필별 봇 관리, Discord DM 화면 및 봇별 채널/스레드 활용 사례 공유.
- OpenClo가 워크스페이스 구분이 편리하며, Hermes는 초기에 공용/자기 스킬 분리 작업 필요.
- Hermes가 GPT를 거쳐가면 멍청해지는 것 같다는 경험 공유, 에이전트 작업 수행 능력에 대한 불만.
- 비전공자가 일상 업무 에이전트 제작 시 OpenClo 추천됨.
에이전트 자가 치료/오류 해결: 에이전트 봇의 오류 발생 시 다른 에이전트 봇으로 자가 치료를 시도하는 아이디어 언급.

로컬 LLM 운영 및 하드웨어 사양

로컬 LLM 운영의 어려움:
- 좋은 컴퓨터 사양이 필수적 (GPU, CPU).
- 성능에 비해 투자 비용이 크고, 느려 터지거나 팬 소음 등 스트레스가 발생할 수 있음.
- 결국 구독 모델이 더 저렴하고 성능 대비 효율적이라는 의견이 많음.
- 로컬 모델 로딩 외에 OpenClo, Hermes 점유 RAM, 도구 실행 시 추가 리소스, 컨텍스트 리소스 등을 고려해야 함.
무료 모델 제한: 무료 모델은 성능이 좋지 않거나 사용량 제한이 있으며, 데이터 수집 등의 문제가 있을 수 있음 (ex: OpenRouter 무료 모델).
추천 모델/서비스:
- Ollama Cloud (월 $30 요금)에서 GLM5.1, Deepseek, Qwen 조합 시도 추천.
- 무료 모델로는 Qwen, OpenRouter의 Nemotron 30B 등이 언급되었으나, 높은 컴퓨터 사양 또는 데이터 수집 문제가 있음.
하드웨어 사양 및 투자:
- Radeon AMD 7900 CPU, 5060 8GB GPU로는 로컬 LLM 운영이 어려울 수 있음.
- 일반적인 개인 사용자는 구독형 API가 훨씬 효율적이며, 높은 사양의 GPU(ex: 3090, 5090) 투자 후 후회하는 경우도 있음.
- 로컬 LLM은 보안, 연구, 튜닝이 목적일 때 적합함.
- Mac mini 여러 대 또는 Mac Studio 90GB RAM 환경에서도 버벅거린다는 경험 공유.

이미지/영상 생성 및 숏폼 제작 도구

이미지/영상 생성:
- Groq: 숏폼 영상 제작에 사용되며, 퀄리티 대비 저렴함. 유튜브에서 관련 영상(https://www.youtube.com/watch?v=8wBaz9ri9YY) 언급됨.
- Kling, Sidence: 더 높은 해상도와 퀄리티를 원하는 경우 사용됨.
HTML 기반 애니메이션 웹 슬라이드:
- LiMotion: 영상 제작에 주로 사용됨.
- design.md: 웹 슬라이드를 Vibecoding으로 제작 가능.

PPT(프레젠테이션) 제작 AI 도구 및 활용 전략

PPT 제작 AI의 한계: 아직까지 PPT를 잘 만드는 AI는 없다는 의견이 지배적.
대안 서비스/도구:
- NotebookLM: 일러스트 생성 및 공간 활용이 좋음. 유튜브 관련 자료(https://www.youtube.com/watch?v=aITV54CLc_U) 공유.
- LLM 웹 슬라이드 생성
- JenSpark
- Canva
- Gamma: PPTX 파일로 export 가능하며, 텍스트 수정 용이. 기존 PPT 파일 수정에 유용.
- Claude Design
활용 전략:
- PPT 파일 형식이 필수가 아니라면 HTML 형식으로 뽑는 것이 가장 좋다는 의견.
- 좋은 PPT를 만드는 방법을 알면 AI로 그대로 재현 가능함. 관련 Threads 게시물(https://www.threads.com/@conanssam/post/DXcxXdWkz8d) 공유.

기타 AI 활용 및 논의

AI 에이전트 지휘: AI 에이전트 개발보다는 지휘가 핵심인 시대로 변화. 관련 기사 https://www.aitimes.com/news/articleView.html?idxno=210735 공유.
녹음 분석 에이전트: 녹취 업로드 → STT → 핵심 발화 추출 (부정적 표현 감지) → 자동 분류 (A/S 타당, 재배정 사유, 검토 필요) → 관리자는 '검토 필요'만 직접 청취하는 시스템 구상. 구현은 스크립트 작성으로도 가능.
YouTube 스크립트 활용: 특정 키워드로 YouTube 검색 → 스크립트 저장 → 원하는 문구 및 타임스탬프 추출 → 보고서 작성 스크립트 활용 사례 공유.
AI의 윤리의식: AI(GPT)가 설문지 임의표시를 거부하며 사람이 직접 해야 한다고 답변하는 사례 공유.
AI 스터디/교육: 패스트캠퍼스 워크숍, 22기 스터디 1주차 진행 중이며 다시보기 제공. 21기 청강도 가능하며, 오늘 자정까지 추가 등록 가능.
Roboflow: SAM3 API에 대한 질문에 "무료로 Roboflow를 사용한다"는 답변 공유. (정확히 SAM3 API를 Roboflow에서 무료로 활용한다는 의미로 해석됨.)
GPTers 청강: 별도로 신청할 필요 없이 Zoom 링크를 통해 참여 가능.
오픈클로의 웹 자동화 및 Notion MCP: 웹 자동화와 다른 방식으로 Notion MCP를 이용한 기존 그룹웨어 마이그레이션 활용 사례 공유.
AI 시대의 일자리: AI로 인해 주니어, 결정권자, 중간 관리자 등 여러 직무가 사라질 수 있다는 논의 언급.