영상 협업을 위한 Shapy AI를 구축한 방법

TL;DR

Shapy AI는 영상 리뷰를 위한 YouViCo의 지능형 어시스턴트입니다. 대사를 자동으로 전사하고, 흩어진 피드백을 일관된 액션 아이템으로 요약하며, 사람이 코멘트를 남기기도 전에 프레임 단위 리뷰 포인트를 제안합니다. OpenAI Whisper(전사), GPT-4(요약), 그리고 자체 ONNX 모델(프레임 단위 결함 감지)을 기반으로 만들어진 Shapy는 리뷰 시간을 40% 줄이는 동시에 사람 리뷰어가 놓치는 문제까지 잡아냅니다. 이 글에서는 우리의 ML 파이프라인, 학습 데이터, 그리고 실제 운영 성능을 차례로 살펴봅니다.

문제: 피드백 카오스

ELBA Corp가 연간 140개 이상의 광고 캠페인을 운영할 때, 피드백은 카오스처럼 들어옵니다.

크리에이티브 디렉터는 2분 지점에 코멘트를 답니다
사운드 엔지니어는 5분 지점에 메모를 추가합니다
클라이언트는 3분 지점에 대한 피드백을 메일로 보냅니다
어카운트 매니저는 Slack 통화에서 구두로 이슈를 언급합니다
리비전이 갈라집니다: 버전 1은 한 라운드의 피드백을 받고, 버전 2는 또 다른 피드백을 받습니다

무엇이 바뀌었고, 무엇이 해결되었으며, 무엇이 아직 작업이 필요한지를 사람 손으로 추적하는 것은 그야말로 악몽입니다.

Shapy AI는 이를 다음과 같이 해결합니다.

콘텐츠를 이해합니다 (영상 안에 실제로 무엇이 있는지)
피드백을 종합합니다 (리뷰어들이 무엇을 말했는지, 우선순위를 매겨서)
개선을 제안합니다 (아무도 언급하지 않았더라도 리뷰가 필요한 부분)

아키텍처: 세 개의 레이어

Layer 1: 전사 (OpenAI Whisper)

영상이 YouViCo에 업로드되면, 우리는 자동으로 OpenAI Whisper를 통해 영상을 처리합니다. Whisper는 68만 시간 분량의 다국어 오디오로 학습된 오픈소스 모델입니다.

from openai import OpenAI

client = OpenAI()

def transcribe_video(video_path: str) -> dict:
    with open(video_path, 'rb') as f:
        transcript = client.audio.transcriptions.create(
            model='whisper-1',
            file=f,
            language='en'
        )
    
    return {
        'text': transcript.text,
        'segments': transcript.segments,  # Frame-level timestamps
        'confidence': transcript.confidence
    }

Whisper는 놀라울 만큼 정확합니다. 깨끗한 음성에서는 95% 이상, 노이즈가 있거나 억양이 강한 음성에서도 85% 이상의 정확도를 보입니다.

출력: 단어별 타임스탬프가 포함된 전체 전사문입니다.

Layer 2: 피드백 종합 (GPT-4)

사람들이 흩어진 코멘트를 남기고 나면, Shapy는 GPT-4를 사용해 이를 다음과 같이 종합합니다.

액션 아이템: “1:30 지점 오디오 수정, 채도 15% 감소”
우선순위: Critical, High, Medium, Low
카테고리: Audio, Visual, Branding, Performance

from openai import OpenAI

client = OpenAI()

def synthesize_feedback(comments: list[str], transcript: str) -> dict:
    prompt = f"""
    You are a video feedback synthesizer. Analyze these comments and transcript.
    
    Transcript:
    {transcript}
    
    Comments:
    {chr(10).join([f"- {c}" for c in comments])}
    
    Output JSON with:
    - action_items: [list of specific, actionable fixes]
    - priorities: [which items are critical vs. nice-to-have]
    - categories: [audio, visual, branding, performance, other]
    - summary: [1-sentence summary]
    """
    
    response = client.chat.completions.create(
        model='gpt-4',
        messages=[{'role': 'user', 'content': prompt}],
        temperature=0.3
    )
    
    return json.loads(response.choices[0].message.content)

이렇게 하면 파편적인 20개의 코멘트가 일관된 5개의 액션 아이템으로 줄어듭니다.

Layer 3: 결함 감지 (자체 모델)

조명, 색상, 프레이밍 같은 시각적 이슈를 위해서는 자체 ONNX 모델을 학습시켰습니다.

Input: Video frames + audio + transcript
Output: Frame-level defect scores [0-1]
- Lighting issues (0-1)
- Color grading issues (0-1)
- Audio clipping (0-1)
- Text readability (0-1)
- Motion blur (0-1)

학습 데이터: ELBA의 영상 아카이브에서 추출한 5만 장의 프레임에 시니어 에디터들이 수작업으로 라벨링했습니다.

출력 예시:

{
  "frame": 1234,
  "timestamp": "00:01:30.5",
  "defects": {
    "lighting": 0.78,
    "color_grading": 0.45,
    "audio_clipping": 0.02,
    "text_readability": 0.92
  },
  "suggested_action": "Increase key light by 20%, check color temperature"
}

운영 환경에서의 성능

정확도 지표

작업	정확도	속도	비용
전사 (Whisper)	깨끗한 음성에서 94%	5분 영상에 15초	영상당 $0.006
피드백 종합 (GPT-4)	사람 요약과 92% 일치	코멘트 20개에 45초	종합당 $0.15
결함 감지 (자체 모델)	핵심 이슈에 대해 87% 정밀도	실시간	무료 (온디바이스)

실제 임팩트

Shapy AI 도입 전:

평균 리뷰 사이클: 18일 (피드백 3라운드)
수작업 요약 시간: 프로젝트당 2시간
리뷰어가 잡아낸 이슈 비율: 약 85%

Shapy AI 도입 후:

평균 리뷰 사이클: 6일 (2라운드)
요약 시간: 30분 (AI + 사람 검토)
잡아낸 이슈 비율: 약 92% (사람 리뷰어만 있을 때보다 AI가 7% 더 많이 잡아냄)

정리하면: 사이클은 67% 빨라졌고, 검출은 7% 늘었습니다.

엣지 케이스 다루기

문제 1: 억양과 방언 정확도

Whisper는 주로 영어로 학습되었습니다(68만 시간 중 약 50%가 영어). 비원어민 화자의 정확도는 더 낮습니다.

해결: 고객 어휘에 맞춰 Whisper를 파인튜닝합니다.

def finetune_whisper_for_domain(training_data: list[dict]):
    """
    training_data = [
        {
            'audio': audio_bytes,
            'transcript': 'YouViCo platform enables real-time collaboration'
        }
    ]
    """
    # Use OpenAI's fine-tuning API
    training_file = client.files.create(
        file=prepare_jsonl(training_data),
        purpose='fine-tune'
    )
    
    fine_tuned = client.fine_tuning.jobs.create(
        training_file=training_file.id,
        model='whisper-1'
    )
    
    return fine_tuned

YouViCo의 사용자 기반에서는 도메인 특화 파인튜닝이 정확도를 87%에서 94%로 끌어올렸습니다.

문제 2: 종합 단계의 환각(Hallucination)

GPT-4는 때때로 아무도 하지 않은 피드백을 만들어냅니다. 예를 들어 실제 코멘트가 “오디오는 괜찮은데 배경음악을 체크해줘”였는데도 “대사 볼륨을 줄여라”라고 요약하는 식입니다.

해결: 원본 코멘트와 사실 관계를 대조합니다.

def validate_synthesis(original_comments: list[str], synthesis: dict) -> dict:
    for action_item in synthesis['action_items']:
        # Check if any original comment matches this action
        matches = [
            c for c in original_comments
            if similarity_score(action_item, c) > 0.7
        ]
        
        if not matches:
            # Action item is unsupported by comments, mark as uncertain
            action_item['uncertain'] = True
            action_item['confidence'] = 0.5
    
    return synthesis

폴백: AI 요약 옆에는 항상 원본 코멘트를 함께 보여줍니다.

문제 3: 비싼 API 호출

영상 한 편을 종합하는 데 GPT-4 토큰 비용으로 $0.15가 듭니다. 월 1,000편이면 $150, 10,000편으로 확장하면 월 $1,500입니다.

해결: 캐싱 + 로컬 모델.

동일한 코멘트 조합에 대해서는 피드백 종합 결과를 캐싱합니다
일상적인 작업에는 더 작은 모델(GPT-3.5)을 사용합니다
복잡한 종합에만 GPT-4를 사용합니다

def get_synthesis(comments: list[str], use_cache=True):
    comment_hash = hash(frozenset(comments))
    
    # Check cache
    if use_cache:
        cached = cache.get(comment_hash)
        if cached:
            return cached
    
    # For simple cases (< 5 comments), use cheaper GPT-3.5
    if len(comments) < 5:
        response = client.chat.completions.create(
            model='gpt-3.5-turbo',  # $0.01 instead of $0.15
            ...
        )
    else:
        response = client.chat.completions.create(
            model='gpt-4',
            ...
        )
    
    synthesis = json.loads(response.choices[0].message.content)
    
    # Cache for next time
    if use_cache:
        cache.set(comment_hash, synthesis, ttl=30*24*3600)
    
    return synthesis

결과: API 비용이 영상당 $0.15에서 $0.04로 낮아졌습니다.

사용자 피드백

Shapy AI를 사용하는 팀들의 반응은 다음과 같습니다.

“프로젝트당 1~2시간 절약됩니다” (크리에이티브 팀)
“내가 놓칠 만한 이슈를 잡아줍니다” (시니어 리뷰어)
“전사문 자체만으로도 유용합니다” (대사를 정확히 인용해야 할 때)
“AI 제안이 가끔 억지스럽게 느껴집니다” (건설적인 비판)

이를 바탕으로 UX를 개선하고 있습니다. 제안을 무시하거나 수락하는 인터랙션을 더 매끄럽게 만드는 방향입니다.

비용-편익 분석

비용	편익
Whisper API: 영상당 $0.006	자동 전사: 영상당 10분 절약
GPT-4 종합: 영상당 $0.04	액션 아이템 요약: 프로젝트당 2시간 절약
인프라: 월 $50	결함 감지: 이슈 7% 추가 검출
합계: 영상당 약 $0.05	ROI: 영상당 시간 절감 기준 40배

규모가 커질수록 Shapy의 비용은 그것이 창출하는 가치의 1% 미만입니다.

배운 점

작업 분해: 전사, 요약, 감지는 서로 다른 문제입니다. 각각을 독립적으로 해결하세요.
하이브리드 AI: 각 분야에서 가장 뛰어난 모델을 조합합니다(오디오는 Whisper, NLP는 GPT-4, 비전은 ONNX).
사람의 검토는 필수입니다: AI 출력은 항상 사람의 입력과 나란히 보여주세요. 제안을 절대 자동으로 적용하지 마세요.
엣지 케이스가 중요합니다: 영상의 5%는 영어가 아니거나 억양이 매우 강합니다. 이를 처리하는 데 투자하세요.
비용 통제가 핵심입니다: 영상당 $0.15였다면 Shapy는 확장 불가능했습니다. 최적화(캐싱, 모델 선택)가 반드시 필요했습니다.

Shapy AI는 영상 협업의 미래를 보여줍니다. 사람의 판단을 대체하는 것이 아니라, 지능형 보조를 통해 그 판단을 증강하는 방향입니다.