computer science

[MultimediaSystem] Digital Audio Compression

갬짱 2024. 6. 24. 01:25

 
 
참고자료 : MultimediaSystemBook_20230424, 박규식교수님 수업자료
 


 

Sound and Audio

  • Sound : 중간매체를 통한 기계적인 진동, 존재하는 모든 소리
  • Audio : 사람이 들을 수 있는 소리(audible), 가청주파수 : 20Hz~20kHz
    • speech(사람의 음성) + music(음악)
    • ultrasound( 20kHz이상 ) : 초음파 ⇒ 복부초음파로 의료진단, 유량계(flowmeter)
    • infrasound( 20Hz이하 ) : 자연의 소리( 지진, 해일, 폭풍.. ) ⇒ 동물들은 듣는다..

 
 

  • Speech : 음질보다 정보(intelligibility)가 중요( 300Hz ~ 4kHz ), fs=8kHz
    • MONO( 하나의 스피커 ), AM방식
  • Music : 정보보다 음질(sound quality)이 중요( 20Hz ~ 20kHz ), fs=44.1kHz
    • STEREO( 여러개 스피커 ), FM방식 / 대역폭이 큼(>speech) ⇒ 높은 압축률 필요

 


 

Hearing threshold and spectrum

  •  가청한계선( threshold of hearing )  : 가청주파수(20Hz~20kHz)가 해당 크기(음압)이상에 있을때만 들을 수 있다.
  • 가청한계선의 특징 → 3~4kHz에 민감, 고주파에 둔감( 노화에 취약 )

 


 

Audio Loudness = SPL

SPL = sound pressure level : sound의 크기( strength, loudness )를 측정하는 지표

  • 단위 : 데시벨(dB)
  • 수식 : dB = 20 log ( P/P0 )양의 값만 가짐
  • P0( 1kHz의 톤시그널이 겨우 들리기 시작하는 정도 )를 기준으로 상대적인 크기를 측정

 

2배 증가시 6dB증가, 4배 증가시 12dB증가

 

0dB : 거의 들리기 시작함( P0의 값 ) → 60dB : 일반적인 대화소리 → 120dB : 7m거리의 비행기소리
 


 

Audio Compression

  • 무손실 압축( Lossless ) : 데이터의 통계적인 중복성(statistical redundancy)을 제거
    • 품질을 유지하기 좋음, 최대 3:1까지 압축
    • FLAC, Monkey’s audio(.ape), ALAC, WMA lossless
  • 손실압축( Lossy ) : 지각적으로 무감각한 것( perceptual redundancy )을 제거
    • 압축률이 높음, 12:1이상까지도 가능
    • MP3, AAC, Vorbis, WMA lossy

 


 

MPEG

  • Data rate = sampling rate * Qbit수
  • CD-DA( compact disk - digital audio )의 표준 data rate = 44100* 16*2 = 1.43Mbps
    ( fs = 44.1kHz, N=16bits, stereo )
  • MPEG1의 data rate = 128kbps ~ 384kbps로 압축
    • 3개의 레이어 존재, 레이어가 커질수록 복잡 & 압축률이 높아짐
    • layer2 : 디지털 오디오를 broadcast하는데 사용
    • layer3(MP3) : 음원유통에 사용, 최대 12:1 까지 압축지원

 
 


 

Basic principles of audio compression

 
 (1) Time-frequency transform 
: energy compaction( 저주파에 에너지 집중, 고주파로 갈 수록 감소 )에 따른 효율적인 비트할당(bit allocation)으로 전반적인 saving

  • MDCT (modified DCT ) & subband

 (2) Psychoacoustic Model(PM)  = 심리음향 모델
: 사람의 귀에 들리지 않을(inaudible) 주파수 성분을 찾아서 제거한다.

  • step1) 가청한계선(hearing threshold)의 하단 주파수 성분을 제거
  • step2) masking threshold의 하단 주파수 성분을 제거
    가청한계선을 넘는 주파수 성분들중 크기가 큰 것(masker)이 다른 것(masked)을 가림 ⇒ 더 큰 주파수 성분의 masking contour하에 있다면 들리지 않음, 제거!

 
 


 

Digital audio format

  • PCM : 압축되지 않은 아날로그 오디오( Sampling + Quantization )를 표현 → CD, DVD
  • WAVE : 압축되지 않은 포맷, Microsoft
  • FLAC : 무손실 압축( 최대 3:1 )
  • MP3 : 손실압축 ( 최대 12:1 )