[논문] KoALa 한국어 음성 AI를 제대로 평가하는 최초의 종합 벤치마크
AI

[논문] KoALa 한국어 음성 AI를 제대로 평가하는 최초의 종합 벤치마크

블로그로 돌아가기

Qwen3-Omni, Gemini, GPT-4o Audio 같은 대형 오디오 언어 모델의 한국어 음성 이해 능력을 평가하는 최초의 범용 벤치마크. ASR, ST, SQA, SIF 외에 음성 모달리티 충실성(SCA-QA)과 위치 인식 장형식 이해(PA-QA)라는 두 가지 새로운 평가 차원을 제시한다.

CortexysCortexys2026.05.03LALMBenchmarkKorean NLPSpeechMultimodal논문리뷰

KoALa-Bench: 한국어 음성 AI를 제대로 평가하는 최초의 종합 벤치마크

논문: "KoALa-Bench: Evaluating Large Audio Language Models on Korean Speech Understanding and Faithfulness" 저자: Jinyoung Kim*, Hyeongsoo Lim*, Eunseo Seo*, Minho Jang* (공동 1저자), Keunwoo Choi, Seungyoun Shin — Upstage AI; Ji Won Yoon† — 중앙대학교 AI학과 arXiv: 2604.19782v1 코드 및 리더보드: github.com/scai-research/KoALa-Bench


음성 AI 시대가 열렸다. 그런데 한국어 평가는?

Qwen3-Omni, Gemini, GPT-4o Audio처럼 음성을 직접 이해하고 대화하는 대형 오디오 언어 모델(LALM, Large Audio Language Model)이 빠르게 진화하고 있다. 이 모델들은 이제 ASR(음성 인식)은 물론이고 음성으로 질문을 받아 텍스트로 답하거나, 영어 음성을 한국어로 번역하거나, 복잡한 지시를 따르는 등 다양한 태스크를 처리한다.

그런데 문제가 있다. 이 모델들이 한국어 음성을 얼마나 잘 이해하는지 제대로 평가하는 벤치마크가 없었다.

기존 음성 벤치마크(AudioBench, AIR-Bench, ADU-Bench)는 압도적으로 영어 중심적이다. 전통적인 한국어 음성 데이터셋(KsponSpeech, ClovaCall)은 LALMs 평가용이 아니라 기존 ASR 모델을 위한 것이다. 중앙대학교와 Upstage AI 연구팀이 만든 KoALa-Bench는 바로 그 공백을 메우기 위해 만들어졌다.


KoALa-Bench가 특별한 이유: 두 가지 새로운 태스크

KoALa-Bench는 총 6개 태스크로 구성된다. 기존 벤치마크에도 있는 4개의 기본 음성 이해 태스크에 더해, 저자들이 새롭게 제안한 2개의 음성 충실성(Speech Faithfulness) 태스크가 핵심이다.

저자들은 여러 LALMs를 테스트하다가 중요한 문제를 발견했다: 모델들이 음성 입력을 제대로 활용하지 않고 모델 내부에 저장된 파라메트릭 지식에 의존해 답하는 경향이 있다. 음성으로 "틀린 정보"를 주어도 모델이 자신이 아는 "맞는 정보"로 답하는 것이다.

이런 충실성(faithfulness) 문제를 체계적으로 평가하는 것이 이 벤치마크의 핵심 기여다.


벤치마크 구성과 데이터 파이프라인

KoALa-Bench 표준 음성 이해 태스크 구성 파이프라인 — 영어 데이터를 한국어로 번역 후 TTS 합성

데이터 구성 원칙은 명확하다:

  1. 영어 원본 데이터셋 → Gemma로 한국어 번역
  2. Qwen3-TTS로 한국어 음성 합성
  3. CER 또는 인간 검증으로 저품질 샘플 필터링
  4. 여러 데이터셋에 대해 노이즈 증강(noise-augmented) 버전 별도 구성

이를 통해 LALMs의 소음 환경 견고성(robustness)도 함께 평가한다.


태스크 1: ASR — 자동 음성 인식

방법: 음성을 입력하면 한국어 텍스트로 전사. 문자 오류율(CER) 으로 측정 — 낮을수록 좋다.

데이터셋: KsponSpeech-Clean/Other(각 3,000샘플), Common Voice(523샘플), Zeroth-Korean(457샘플)


태스크 2: ST — 음성 번역

방법: 영어 음성 → 한국어 텍스트 번역. BLEU, METEOR, BERTScore 세 메트릭으로 평가.

데이터셋: ETRI 영한 음성 번역 코퍼스 — TST-Common(2,532샘플, 평균 650초), TST-HE(544샘플, 고난도 표현)


태스크 3 & 4: SQA / SIF — 음성 QA와 지시 수행

SQA 단형식: CLIcK(한국어 원어 객관식, 1,315샘플), KoBEST-BoolQ(예/아니오, 1,404샘플)

SQA 장형식: KCSAT(수능 듣기, 82샘플, 평균 128초) — 실제 수능 오디오를 문제 단위로 분할

SIF: KUDGE, Vicuna, OpenHermes, Alpaca를 TTS 합성 후 GPT-4o를 판사(judge)로 채점


태스크 5: SCA-QA — 음성 문맥에 얼마나 충실한가?

이 태스크가 핵심이다.

SCA-QA 구성 프로세스 — 세계 지식과 충돌하는 의도적인 오답이 포함된 쌍(paired) 질문을 구성

핵심 아이디어: 모델이 음성에서 말하는 내용을 듣고 답하는지, 아니면 자기가 원래 알던 지식으로 답하는지를 구분한다.

구성 방법:

  1. K-pop, K-history, K-sports 관련 키워드로 문서 크롤링 (예: "라이즈는 SM엔터테인먼트 소속 6인조 보이그룹")
  2. GPT로 질문-답변 쌍 생성
  3. 핵심 답변 엔티티를 다른 것으로 교체한 "의도적으로 틀린" 버전 생성 (예: "Stray Kids는 SM엔터테인먼트...")
  4. 같은 음성 문맥에 대해 (정답 버전 / 오답 버전) 쌍을 구성
  5. 인간 주석자 전수 검증

평가 지표: SCF (Speech Context Faithfulness)

SCF=음성 문맥에 충실하게 답한 샘플 수전체 평가 샘플 수\text{SCF} = \frac{\text{음성 문맥에 충실하게 답한 샘플 수}}{\text{전체 평가 샘플 수}}

채점 방식: 먼저 텍스트 질문만으로 올바르게 답할 수 있는 샘플을 식별한 뒤, 음성 문맥(오답 포함)을 추가해 재평가. 모델이 자기 지식 대신 음성 내용을 따라 답변을 바꾸면 음성 충실(faithful).


태스크 6: PA-QA — 긴 음성에서 위치별 이해도는?

PA-QA 파이프라인 — 음성 문맥을 4구간으로 나눠 지원 증거의 위치에 따른 성능 차이 분석

MCTest 기반, Qwen3-TTS 합성(평균 96초). GPT-4.1-nano로 질문별 지원 증거 문장 위치를 [0, 1]로 정규화 후 4구간으로 분류: front(00.25), front-middle(0.250.5), middle-late(0.50.75), late(0.751.0). 최종 327개 인스턴스.


평가 모델

총 5개 모델 — white-box와 black-box 모두 포함:

모델버전유형
Qwen3-omniQwen3-Omni-30B-A3B-InstructWhite-box
Gemma-3nGoogle-gemma-3n-E4B-itWhite-box
GPT-audiogpt-audio-mini (OpenAI API)Black-box
VoxtralVoxtral-Mini-3B-2507White-box
Gemini-flashGemini-flash-liteBlack-box

실험 결과 1: ASR (CER ↓ — 낮을수록 좋음)

데이터셋Qwen3-omniGemma-3nGPT-audioVoxtralGemini-flash
Zeroth (clean)3.33100†↑6.8740.9213.60
Zeroth (noisy)3.91100†↑9.0039.0714.56
Common Voice (clean)4.96100†↑33.0560.1013.74
Common Voice (noisy)6.78100†↑36.2158.9826.74
KsponSpeech-Clean8.46100†↑100†↑62.6283.19
KsponSpeech-Other7.91100†↑63.6456.0445.14

†: CER > 100% (한국어 전사 완전 실패)

충격적인 결과: Gemma-3n은 모든 ASR 데이터셋에서 CER > 100% — 한국어 음성 인식에 완전히 실패한다. GPT-audio도 KsponSpeech-Clean에서 동일하게 실패한다. 반면 Qwen3-omni는 Zeroth 기준 CER 3.33% 로 압도적인 1위를 기록한다.

노이즈 환경에서 Qwen3-omni와 GPT-audio는 성능 저하가 작지만(Qwen3: 3.33→3.91, GPT: 6.87→9.00), Gemini-flash는 Common Voice 기준 13.74→26.74로 거의 두 배 하락한다.


실험 결과 2: ST — 음성 번역 (BERTScore ↑)

데이터셋Qwen3-omniGemma-3nGPT-audioVoxtralGemini-flash
ETRI-TST-Common93.4087.3993.1092.7391.60
ETRI-TST-HE93.9687.7993.6993.0992.17

BLEU/METEOR도 Qwen3-omni가 전체 1위를 유지한다 (ETRI-Common: BLEU 28.53, METEOR 52.02). Gemma-3n은 ST에서도 BLEU 5.17로 저조하다 — 한국어 출력 자체가 불안정한 것으로 보인다.


실험 결과 3: SQA — 음성 질의응답 (Accuracy ↑)

데이터셋Qwen3-omniGemma-3nGPT-audioVoxtralGemini-flash
CLIcK (clean / noisy)64.04 / 62.3035.79 / 35.7161.64 / 60.0742.58 / 42.9267.27 / 66.69
KoBEST-BoolQ (clean / noisy)51.34 / 51.1650.89 / 50.5451.88 / 50.4550.54 / 50.5452.86 / 54.92
KCSAT 수능 (clean / noisy)83.53 / 84.7134.12 / 40.0052.90 / 47.1069.41 / 72.9481.18 / 78.82

주목할 점:

  • CLIcK(한국 문화 상식)과 KoBEST-BoolQ: Gemini-flash가 1위 (67.27%, 52.86%). Gemini의 한국어 사전 지식이 강하다는 뜻이다.
  • KCSAT(수능 듣기): Qwen3-omni가 83.53%로 1위. 장형식 음성 이해에서 강점을 보인다. GPT-audio는 52.90%로 저조 — 수능 듣기의 긴 구간 처리에 약한다.
  • 노이즈 조건: Qwen3-omni는 KCSAT에서 오히려 노이즈 조건에서 84.71%로 소폭 상승 — 노이즈에 매우 강건하다.

실험 결과 4: SIF — 음성 지시 수행 (GPT Judge Score ↑)

데이터셋Qwen3-omniGemma-3nGPT-audioVoxtralGemini-flash
KUDGE (clean / noisy)71.87 / 71.8271.38 / 70.6974.07 / 73.9961.97 / 61.7070.29 / 70.39
Vicuna (clean / noisy)79.64 / 78.4380.21 / 80.0082.14 / 81.7967.79 / 69.5076.43 / 73.29
OpenHermes (clean / noisy)86.54 / 85.1984.62 / 85.9689.42 / 89.6269.10 / 69.6282.69 / 80.71
Alpaca (clean / noisy)84.06 / 83.0482.69 / 83.3690.58 / 90.5872.90 / 72.4685.94 / 86.88

SIF에서는 GPT-audio가 전 데이터셋 1위 (Alpaca: 90.58). 지시 수행 능력은 GPT-4o 계열이 가장 강하다. Voxtral은 SIF에서 전반적으로 저조하다.


실험 결과 5: SCA-QA — 음성 충실성

텍스트 정확도 (Text-only Accuracy ↑ — 한국 문화 지식)

도메인Qwen3-omniGemma-3nGPT-audioVoxtralGemini-flash
K-history (조선 이전)55.4548.5169.3041.5879.21
K-history (조선 이후)79.2771.9579.3051.2287.80
K-sports55.6853.4169.3027.2778.41
K-pop67.9668.9369.9042.7289.32

한국 문화 사전 지식은 Gemini-flash가 압도적 1위 (K-pop: 89.32%, K-sports: 78.41%).

SCF Score ↑ (음성 문맥 충실성 — 높을수록 음성을 잘 따름)

도메인Qwen3-omniGemma-3nGPT-audioVoxtralGemini-flash
K-history (조선 이전)94.6467.3561.4085.7166.25
K-history (조선 이후)92.3145.7632.3085.7159.72
K-sports93.8876.6039.3095.8386.96
K-pop95.7173.2437.5088.6478.26

핵심 발견: Text-only Accuracy와 SCF Score 사이에 역전 현상이 나타난다.

  • GPT-audio: 한국 문화 사전 지식은 최상위권(K-history 69.30%)이지만, SCF Score는 최하위(K-history 조선 이후: 32.30%). 음성으로 "틀린 정보"를 줘도 자기가 아는 것으로 답한다 — 음성 모달리티를 거의 활용하지 않는다.
  • Qwen3-omni: 사전 지식 정확도는 중간 수준이지만 SCF Score는 압도적 1위(K-pop: 95.71%). 음성 문맥을 가장 충실하게 반영한다.
  • Gemini-flash: 한국 문화 지식 1위지만 SCF는 중하위(K-history 조선 이후: 59.72%). 강한 사전 지식이 오히려 음성 문맥 반영을 방해한다.

이 패턴이 시사하는 것: 사전 지식이 강한 모델일수록 음성 모달리티를 무시하는 경향이 있다. K-history 조선 이전(Before Chosun) 기준으로, Qwen3는 93%가 음성을 따랐지만 GPT-audio는 49%만 음성을 따르고 51%는 자기 지식으로 답했다.


실험 결과 6: PA-QA — 위치 인식 장형식 이해 (Accuracy ↑)

위치 구간Qwen3-omniGemma-3nGPT-audioVoxtralGemini-flash
전체 (clean / noisy)93.54 / 93.8548.92 / 48.9277.23 / 79.6984.92 / 86.1592.31 / 92.00
front (앞부분)91.93 / 91.9345.34 / 44.7272.05 / 75.7886.34 / 85.0995.03 / 93.17
front-middle96.70 / 94.5151.65 / 53.8583.52 / 83.5282.42 / 85.7189.01 / 87.91
middle-late87.80 / 87.8047.56 / 47.5674.39 / 70.7376.83 / 81.7182.93 / 85.37
last (뒷부분)94.12 / 98.0445.10 / 45.1080.39 / 86.2782.35 / 82.3592.16 / 98.04

주목할 점:

  • Qwen3-omni: 전체 1위(93.54%), 노이즈 환경에서도 93.85%로 거의 동일 — 특히 last 구간에서 노이즈 조건에서 98.04% 로 오히려 향상. 긴 음성의 후반부를 매우 잘 처리한다.
  • Gemma-3n: 전 구간에서 약 50% 수준으로 일관되게 저조. 뚜렷한 위치 편향 없이 전반적으로 약하다.
  • GPT-audio: front-middle 구간 상대적으로 강하지만(83.52%), middle-late 구간에서 약해지는 경향.
  • Gemini-flash: front 구간에서 Qwen3를 앞서지만(95.03%), front-middle부터 약해진다.

전반적으로 Qwen3-omni만이 모든 위치 구간에서 일관되게 높은 성능을 보인다.


종합 정리: 모델별 강점

모델ASRSTSQASIFSCF(음성 충실성)PA-QA
Qwen3-omni⭐ 압도적 1위⭐ 1위중-상2~3위⭐ 1위⭐ 1위
Gemma-3n✗ 완전 실패최하최하2~3위최하
GPT-audio2~3위⭐ 1위✗ 최하
Voxtral중하최하중상중상
Gemini-flash⭐ 지식 1위중상

이 벤치마크가 드러내는 핵심 메시지

1. 한국어 ASR은 아직 갈 길이 멀다. Gemma-3n처럼 광범위하게 사용되는 모델이 한국어 음성 인식에 완전히 실패한다. 한국어는 영어 중심 모델에게 여전히 어려운 언어다.

2. 한국어 사전 지식과 음성 충실성은 반비례한다. GPT-audio는 한국 문화를 가장 잘 알면서도, 음성으로 다른 정보를 줘도 자기 지식으로 답하는 경향이 가장 강하다. 이는 실용적으로 심각한 문제 — 사용자가 음성으로 무언가를 지시해도 모델이 자기 학습 데이터를 우선시한다면 신뢰할 수 없다.

3. Qwen3-omni가 종합 최강이다. ASR, ST, 장형식 이해(KCSAT, PA-QA), 음성 충실성(SCF) 모두에서 1위. 노이즈에도 강건하다. 단, 지시 수행(SIF)에서는 GPT-audio에 뒤진다.

4. 긴 음성에서도 위치 편향이 존재한다. 대부분 모델이 음성의 front-middle 구간에서 가장 강하고 middle-late에서 약해지는 경향을 보인다. Qwen3-omni만이 전 구간에서 일관된 성능을 유지한다.


결론

KoALa-Bench는 한국어 음성 AI 평가를 위한 최초의 종합 벤치마크다. 6개 태스크로 음성 인식, 번역, QA, 지시 수행이라는 기존 평가 축에 더해, 음성 모달리티 충실성위치 인식 장형식 이해라는 두 가지 새로운 차원을 추가했다.

핵심 기여:

  1. SCA-QA: 모델이 음성 문맥에 충실한지, 파라메트릭 지식에 의존하는지를 직접 평가 — GPT-audio의 SCF K-history 32.30%라는 충격적 결과를 발굴
  2. PA-QA: 긴 음성에서 지원 증거의 위치에 따른 성능 차이 체계적 분석
  3. 한국 특화 데이터: 수능 듣기, K-history, K-sports, K-pop으로 영어 중심 벤치마크의 한계 극복
  4. 공개 리더보드: 지속적인 모델 비교를 위한 플랫폼 제공

음성 AI가 한국어를 진짜 "듣고 이해하는지" 측정하는 기준이 생겼다. 그리고 현재 최선의 모델도 아직 완전하지 않다는 것이 수치로 드러났다.

AI 솔루션이 필요하신가요?

cortexys.ai에서 맞춤 AI 개발 서비스를 확인하세요.

컨설팅 신청하기