GPTers x 뽀짝이 | 2026-05-22
AI 커뮤니티 핵심 요약
총 수집 메시지 217건 · 6개 주제
1
STT (음성-텍스트 변환) 및 화자 분리 도구 추천
음성 인식 문제:
회의 음성 파일의 화자가 많아 위스퍼(Whisper)로 인식이 잘 안 되는 문제 제기.
대안 서비스/도구:
다글로:
추천됨.
Vrew:
3가지 엔진 비교 가능 (체감상 엔진별 차이는 크지 않음).
Google, ReturnZero:
언급됨.
Deepgram:
유료이지만 화자 분리가 잘 되고 실시간 전사 성능이 우수하며, 개인 사용 목적 무료 티어(가입 시 $200 크레딧 제공) 활용 가능. STT 분당 약 $0.0043. Deepgram API 개인 사용은 무료티어 사용량이 좀 있어서 쓸만함.
녹음 상태 점검:
녹음 상태 자체에 문제가 있을 가능성도 언급됨.
2
AI 에이전트 및 LLM(거대 언어 모델) 활용 및 관리
Groq 앱 (슈퍼그록):
iOS 앱에서 3일 체험 가능 (구독 즉시 정지 권장).
Android에서도 '슈퍼그록 써보기' 가능.
OpenClo, Hermes에서 OAuth 또는 API를 통해 메모리 서치, Auxiliary 모델, 이미지/영상 생성 등에 활용 가능.
xURL 스킬로 X(트위터) 포스트 검색 및 자동 등록 가능.
성능 개선 시 유용할 것으로 평가되나, 현재는 결제 후 사용하지 않는 경우도 있음.
200$ 크레딧으로 제공된 사용량 3% 남았다는 사용자 경험 공유.
OpenClo 및 Hermes와의 연동:
Hermes는 5.18 업데이트로 Groq 지원.
Hermes를 통한 영상 생성 시 실물 사진 기반 결과는 유사하나, 소리 커스터마이징은 어려움.
카톡 뽀짝이는 이미지 바로 생성 가능하며 (나노바나나 스킬, Gemini Key 사용), 영상 또한 생성 가능 (Hedra API 키 사용).
AI 에이전트 다중 활용 및 관리:
한 컴퓨터에 여러 AI 에이전트(봇)를 활용하는 방식에 대한 논의.
Hermes에 메인 1개, 서브 4개(Discord 5계정) 사용 시 스킬 경로 문제 등 관리의 어려움 언급.
Hermes 프로필별 봇 관리, Discord DM 화면 및 봇별 채널/스레드 활용 사례 공유.
OpenClo가 워크스페이스 구분이 편리하며, Hermes는 초기에 공용/자기 스킬 분리 작업 필요.
Hermes가 GPT를 거쳐가면 멍청해지는 것 같다는 경험 공유, 에이전트 작업 수행 능력에 대한 불만.
비전공자가 일상 업무 에이전트 제작 시 OpenClo 추천됨.
에이전트 자가 치료/오류 해결:
에이전트 봇의 오류 발생 시 다른 에이전트 봇으로 자가 치료를 시도하는 아이디어 언급.
3
로컬 LLM 운영 및 하드웨어 사양
로컬 LLM 운영의 어려움:
좋은 컴퓨터 사양이 필수적 (GPU, CPU).
성능에 비해 투자 비용이 크고, 느려 터지거나 팬 소음 등 스트레스가 발생할 수 있음.
결국 구독 모델이 더 저렴하고 성능 대비 효율적이라는 의견이 많음.
로컬 모델 로딩 외에 OpenClo, Hermes 점유 RAM, 도구 실행 시 추가 리소스, 컨텍스트 리소스 등을 고려해야 함.
무료 모델 제한:
무료 모델은 성능이 좋지 않거나 사용량 제한이 있으며, 데이터 수집 등의 문제가 있을 수 있음 (ex: OpenRouter 무료 모델).
추천 모델/서비스:
Ollama Cloud (월 $30 요금)에서 GLM5.1, Deepseek, Qwen 조합 시도 추천.
무료 모델로는 Qwen, OpenRouter의 Nemotron 30B 등이 언급되었으나, 높은 컴퓨터 사양 또는 데이터 수집 문제가 있음.
하드웨어 사양 및 투자:
Radeon AMD 7900 CPU, 5060 8GB GPU로는 로컬 LLM 운영이 어려울 수 있음.
일반적인 개인 사용자는 구독형 API가 훨씬 효율적이며, 높은 사양의 GPU(ex: 3090, 5090) 투자 후 후회하는 경우도 있음.
로컬 LLM은 보안, 연구, 튜닝이 목적일 때 적합함.
Mac mini 여러 대 또는 Mac Studio 90GB RAM 환경에서도 버벅거린다는 경험 공유.
4
이미지/영상 생성 및 숏폼 제작 도구
이미지/영상 생성:
Groq: 숏폼 영상 제작에 사용되며, 퀄리티 대비 저렴함. 유튜브에서 관련 영상(
https://www.youtube.com/watch?v=8wBaz9ri9YY
) 언급됨.
Kling, Sidence: 더 높은 해상도와 퀄리티를 원하는 경우 사용됨.
HTML 기반 애니메이션 웹 슬라이드:
LiMotion: 영상 제작에 주로 사용됨.
design.md: 웹 슬라이드를 Vibecoding으로 제작 가능.
5
PPT(프레젠테이션) 제작 AI 도구 및 활용 전략
PPT 제작 AI의 한계:
아직까지 PPT를 잘 만드는 AI는 없다는 의견이 지배적.
대안 서비스/도구:
NotebookLM:
일러스트 생성 및 공간 활용이 좋음. 유튜브 관련 자료(
https://www.youtube.com/watch?v=aITV54CLc_U
) 공유.
LLM 웹 슬라이드 생성
JenSpark
Canva
Gamma:
PPTX 파일로 export 가능하며, 텍스트 수정 용이. 기존 PPT 파일 수정에 유용.
Claude Design
활용 전략:
PPT 파일 형식이 필수가 아니라면 HTML 형식으로 뽑는 것이 가장 좋다는 의견.
좋은 PPT를 만드는 방법을 알면 AI로 그대로 재현 가능함. 관련 Threads 게시물(
https://www.threads.com/@conanssam/post/DXcxXdWkz8d
) 공유.
6
기타 AI 활용 및 논의
AI 에이전트 지휘:
AI 에이전트 개발보다는 지휘가 핵심인 시대로 변화. 관련 기사
https://www.aitimes.com/news/articleView.html?idxno=210735
공유.
녹음 분석 에이전트:
녹취 업로드 → STT → 핵심 발화 추출 (부정적 표현 감지) → 자동 분류 (A/S 타당, 재배정 사유, 검토 필요) → 관리자는 '검토 필요'만 직접 청취하는 시스템 구상. 구현은 스크립트 작성으로도 가능.
YouTube 스크립트 활용:
특정 키워드로 YouTube 검색 → 스크립트 저장 → 원하는 문구 및 타임스탬프 추출 → 보고서 작성 스크립트 활용 사례 공유.
AI의 윤리의식:
AI(GPT)가 설문지 임의표시를 거부하며 사람이 직접 해야 한다고 답변하는 사례 공유.
AI 스터디/교육:
패스트캠퍼스 워크숍, 22기 스터디 1주차 진행 중이며 다시보기 제공. 21기 청강도 가능하며, 오늘 자정까지 추가 등록 가능.
Roboflow:
SAM3 API에 대한 질문에 "무료로 Roboflow를 사용한다"는 답변 공유. (정확히 SAM3 API를 Roboflow에서 무료로 활용한다는 의미로 해석됨.)
GPTers 청강:
별도로 신청할 필요 없이 Zoom 링크를 통해 참여 가능.
오픈클로의 웹 자동화 및 Notion MCP:
웹 자동화와 다른 방식으로 Notion MCP를 이용한 기존 그룹웨어 마이그레이션 활용 사례 공유.
AI 시대의 일자리:
AI로 인해 주니어, 결정권자, 중간 관리자 등 여러 직무가 사라질 수 있다는 논의 언급.