TL;DR
Shapy AI는 영상 리뷰를 위한 YouViCo의 지능형 어시스턴트입니다. 대사를 자동으로 전사하고, 흩어진 피드백을 일관된 액션 아이템으로 요약하며, 사람이 코멘트를 남기기도 전에 프레임 단위 리뷰 포인트를 제안합니다. OpenAI Whisper(전사), GPT-4(요약), 그리고 자체 ONNX 모델(프레임 단위 결함 감지)을 기반으로 만들어진 Shapy는 리뷰 시간을 40% 줄이는 동시에 사람 리뷰어가 놓치는 문제까지 잡아냅니다. 이 글에서는 우리의 ML 파이프라인, 학습 데이터, 그리고 실제 운영 성능을 차례로 살펴봅니다.
문제: 피드백 카오스
ELBA Corp가 연간 140개 이상의 광고 캠페인을 운영할 때, 피드백은 카오스처럼 들어옵니다.
- 크리에이티브 디렉터는 2분 지점에 코멘트를 답니다
- 사운드 엔지니어는 5분 지점에 메모를 추가합니다
- 클라이언트는 3분 지점에 대한 피드백을 메일로 보냅니다
- 어카운트 매니저는 Slack 통화에서 구두로 이슈를 언급합니다
- 리비전이 갈라집니다: 버전 1은 한 라운드의 피드백을 받고, 버전 2는 또 다른 피드백을 받습니다
무엇이 바뀌었고, 무엇이 해결되었으며, 무엇이 아직 작업이 필요한지를 사람 손으로 추적하는 것은 그야말로 악몽입니다.
Shapy AI는 이를 다음과 같이 해결합니다.
- 콘텐츠를 이해합니다 (영상 안에 실제로 무엇이 있는지)
- 피드백을 종합합니다 (리뷰어들이 무엇을 말했는지, 우선순위를 매겨서)
- 개선을 제안합니다 (아무도 언급하지 않았더라도 리뷰가 필요한 부분)
아키텍처: 세 개의 레이어
Layer 1: 전사 (OpenAI Whisper)
영상이 YouViCo에 업로드되면, 우리는 자동으로 OpenAI Whisper를 통해 영상을 처리합니다. Whisper는 68만 시간 분량의 다국어 오디오로 학습된 오픈소스 모델입니다.
from openai import OpenAI
client = OpenAI()
def transcribe_video(video_path: str) -> dict:
with open(video_path, 'rb') as f:
transcript = client.audio.transcriptions.create(
model='whisper-1',
file=f,
language='en'
)
return {
'text': transcript.text,
'segments': transcript.segments, # Frame-level timestamps
'confidence': transcript.confidence
}
Whisper는 놀라울 만큼 정확합니다. 깨끗한 음성에서는 95% 이상, 노이즈가 있거나 억양이 강한 음성에서도 85% 이상의 정확도를 보입니다.
출력: 단어별 타임스탬프가 포함된 전체 전사문입니다.
Layer 2: 피드백 종합 (GPT-4)
사람들이 흩어진 코멘트를 남기고 나면, Shapy는 GPT-4를 사용해 이를 다음과 같이 종합합니다.
- 액션 아이템: “1:30 지점 오디오 수정, 채도 15% 감소”
- 우선순위: Critical, High, Medium, Low
- 카테고리: Audio, Visual, Branding, Performance
from openai import OpenAI
client = OpenAI()
def synthesize_feedback(comments: list[str], transcript: str) -> dict:
prompt = f"""
You are a video feedback synthesizer. Analyze these comments and transcript.
Transcript:
{transcript}
Comments:
{chr(10).join([f"- {c}" for c in comments])}
Output JSON with:
- action_items: [list of specific, actionable fixes]
- priorities: [which items are critical vs. nice-to-have]
- categories: [audio, visual, branding, performance, other]
- summary: [1-sentence summary]
"""
response = client.chat.completions.create(
model='gpt-4',
messages=[{'role': 'user', 'content': prompt}],
temperature=0.3
)
return json.loads(response.choices[0].message.content)
이렇게 하면 파편적인 20개의 코멘트가 일관된 5개의 액션 아이템으로 줄어듭니다.
Layer 3: 결함 감지 (자체 모델)
조명, 색상, 프레이밍 같은 시각적 이슈를 위해서는 자체 ONNX 모델을 학습시켰습니다.
Input: Video frames + audio + transcript
Output: Frame-level defect scores [0-1]
- Lighting issues (0-1)
- Color grading issues (0-1)
- Audio clipping (0-1)
- Text readability (0-1)
- Motion blur (0-1)
학습 데이터: ELBA의 영상 아카이브에서 추출한 5만 장의 프레임에 시니어 에디터들이 수작업으로 라벨링했습니다.
출력 예시:
{
"frame": 1234,
"timestamp": "00:01:30.5",
"defects": {
"lighting": 0.78,
"color_grading": 0.45,
"audio_clipping": 0.02,
"text_readability": 0.92
},
"suggested_action": "Increase key light by 20%, check color temperature"
}
운영 환경에서의 성능
정확도 지표
| 작업 | 정확도 | 속도 | 비용 |
|---|---|---|---|
| 전사 (Whisper) | 깨끗한 음성에서 94% | 5분 영상에 15초 | 영상당 $0.006 |
| 피드백 종합 (GPT-4) | 사람 요약과 92% 일치 | 코멘트 20개에 45초 | 종합당 $0.15 |
| 결함 감지 (자체 모델) | 핵심 이슈에 대해 87% 정밀도 | 실시간 | 무료 (온디바이스) |
실제 임팩트
Shapy AI 도입 전:
- 평균 리뷰 사이클: 18일 (피드백 3라운드)
- 수작업 요약 시간: 프로젝트당 2시간
- 리뷰어가 잡아낸 이슈 비율: 약 85%
Shapy AI 도입 후:
- 평균 리뷰 사이클: 6일 (2라운드)
- 요약 시간: 30분 (AI + 사람 검토)
- 잡아낸 이슈 비율: 약 92% (사람 리뷰어만 있을 때보다 AI가 7% 더 많이 잡아냄)
정리하면: 사이클은 67% 빨라졌고, 검출은 7% 늘었습니다.
엣지 케이스 다루기
문제 1: 억양과 방언 정확도
Whisper는 주로 영어로 학습되었습니다(68만 시간 중 약 50%가 영어). 비원어민 화자의 정확도는 더 낮습니다.
해결: 고객 어휘에 맞춰 Whisper를 파인튜닝합니다.
def finetune_whisper_for_domain(training_data: list[dict]):
"""
training_data = [
{
'audio': audio_bytes,
'transcript': 'YouViCo platform enables real-time collaboration'
}
]
"""
# Use OpenAI's fine-tuning API
training_file = client.files.create(
file=prepare_jsonl(training_data),
purpose='fine-tune'
)
fine_tuned = client.fine_tuning.jobs.create(
training_file=training_file.id,
model='whisper-1'
)
return fine_tuned
YouViCo의 사용자 기반에서는 도메인 특화 파인튜닝이 정확도를 87%에서 94%로 끌어올렸습니다.
문제 2: 종합 단계의 환각(Hallucination)
GPT-4는 때때로 아무도 하지 않은 피드백을 만들어냅니다. 예를 들어 실제 코멘트가 “오디오는 괜찮은데 배경음악을 체크해줘”였는데도 “대사 볼륨을 줄여라”라고 요약하는 식입니다.
해결: 원본 코멘트와 사실 관계를 대조합니다.
def validate_synthesis(original_comments: list[str], synthesis: dict) -> dict:
for action_item in synthesis['action_items']:
# Check if any original comment matches this action
matches = [
c for c in original_comments
if similarity_score(action_item, c) > 0.7
]
if not matches:
# Action item is unsupported by comments, mark as uncertain
action_item['uncertain'] = True
action_item['confidence'] = 0.5
return synthesis
폴백: AI 요약 옆에는 항상 원본 코멘트를 함께 보여줍니다.
문제 3: 비싼 API 호출
영상 한 편을 종합하는 데 GPT-4 토큰 비용으로 $0.15가 듭니다. 월 1,000편이면 $150, 10,000편으로 확장하면 월 $1,500입니다.
해결: 캐싱 + 로컬 모델.
- 동일한 코멘트 조합에 대해서는 피드백 종합 결과를 캐싱합니다
- 일상적인 작업에는 더 작은 모델(GPT-3.5)을 사용합니다
- 복잡한 종합에만 GPT-4를 사용합니다
def get_synthesis(comments: list[str], use_cache=True):
comment_hash = hash(frozenset(comments))
# Check cache
if use_cache:
cached = cache.get(comment_hash)
if cached:
return cached
# For simple cases (< 5 comments), use cheaper GPT-3.5
if len(comments) < 5:
response = client.chat.completions.create(
model='gpt-3.5-turbo', # $0.01 instead of $0.15
...
)
else:
response = client.chat.completions.create(
model='gpt-4',
...
)
synthesis = json.loads(response.choices[0].message.content)
# Cache for next time
if use_cache:
cache.set(comment_hash, synthesis, ttl=30*24*3600)
return synthesis
결과: API 비용이 영상당 $0.15에서 $0.04로 낮아졌습니다.
사용자 피드백
Shapy AI를 사용하는 팀들의 반응은 다음과 같습니다.
- “프로젝트당 1~2시간 절약됩니다” (크리에이티브 팀)
- “내가 놓칠 만한 이슈를 잡아줍니다” (시니어 리뷰어)
- “전사문 자체만으로도 유용합니다” (대사를 정확히 인용해야 할 때)
- “AI 제안이 가끔 억지스럽게 느껴집니다” (건설적인 비판)
이를 바탕으로 UX를 개선하고 있습니다. 제안을 무시하거나 수락하는 인터랙션을 더 매끄럽게 만드는 방향입니다.
비용-편익 분석
| 비용 | 편익 |
|---|---|
| Whisper API: 영상당 $0.006 | 자동 전사: 영상당 10분 절약 |
| GPT-4 종합: 영상당 $0.04 | 액션 아이템 요약: 프로젝트당 2시간 절약 |
| 인프라: 월 $50 | 결함 감지: 이슈 7% 추가 검출 |
| 합계: 영상당 약 $0.05 | ROI: 영상당 시간 절감 기준 40배 |
규모가 커질수록 Shapy의 비용은 그것이 창출하는 가치의 1% 미만입니다.
배운 점
-
작업 분해: 전사, 요약, 감지는 서로 다른 문제입니다. 각각을 독립적으로 해결하세요.
-
하이브리드 AI: 각 분야에서 가장 뛰어난 모델을 조합합니다(오디오는 Whisper, NLP는 GPT-4, 비전은 ONNX).
-
사람의 검토는 필수입니다: AI 출력은 항상 사람의 입력과 나란히 보여주세요. 제안을 절대 자동으로 적용하지 마세요.
-
엣지 케이스가 중요합니다: 영상의 5%는 영어가 아니거나 억양이 매우 강합니다. 이를 처리하는 데 투자하세요.
-
비용 통제가 핵심입니다: 영상당 $0.15였다면 Shapy는 확장 불가능했습니다. 최적화(캐싱, 모델 선택)가 반드시 필요했습니다.
Shapy AI는 영상 협업의 미래를 보여줍니다. 사람의 판단을 대체하는 것이 아니라, 지능형 보조를 통해 그 판단을 증강하는 방향입니다.