[MultimediaSystem] Digital Audio Compression

computer science

[MultimediaSystem] Digital Audio Compression

갬짱 2024. 6. 24. 01:25

참고자료 : MultimediaSystemBook_20230424, 박규식교수님 수업자료

Sound and Audio

Sound : 중간매체를 통한 기계적인 진동, 존재하는 모든 소리
Audio : 사람이 들을 수 있는 소리(audible), 가청주파수 : 20Hz~20kHz
- speech(사람의 음성) + music(음악)
- ultrasound( 20kHz이상 ) : 초음파 ⇒ 복부초음파로 의료진단, 유량계(flowmeter)
- infrasound( 20Hz이하 ) : 자연의 소리( 지진, 해일, 폭풍.. ) ⇒ 동물들은 듣는다..

Speech : 음질보다 정보(intelligibility)가 중요( 300Hz ~ 4kHz ), fs=8kHz
- MONO( 하나의 스피커 ), AM방식
Music : 정보보다 음질(sound quality)이 중요( 20Hz ~ 20kHz ), fs=44.1kHz
- STEREO( 여러개 스피커 ), FM방식 / 대역폭이 큼(>speech) ⇒ 높은 압축률 필요

Hearing threshold and spectrum

가청한계선( threshold of hearing ) : 가청주파수(20Hz~20kHz)가 해당 크기(음압)이상에 있을때만 들을 수 있다.
가청한계선의 특징 → 3~4kHz에 민감, 고주파에 둔감( 노화에 취약 )

Audio Loudness = SPL

SPL = sound pressure level : sound의 크기( strength, loudness )를 측정하는 지표

단위 : 데시벨(dB)
수식 : dB = 20 log ( P/P0 )양의 값만 가짐
P0( 1kHz의 톤시그널이 겨우 들리기 시작하는 정도 )를 기준으로 상대적인 크기를 측정

2배 증가시 6dB증가, 4배 증가시 12dB증가

0dB : 거의 들리기 시작함( P0의 값 ) → 60dB : 일반적인 대화소리 → 120dB : 7m거리의 비행기소리

Audio Compression

무손실 압축( Lossless ) : 데이터의 통계적인 중복성(statistical redundancy)을 제거
- 품질을 유지하기 좋음, 최대 3:1까지 압축
- FLAC, Monkey’s audio(.ape), ALAC, WMA lossless
손실압축( Lossy ) : 지각적으로 무감각한 것( perceptual redundancy )을 제거
- 압축률이 높음, 12:1이상까지도 가능
- MP3, AAC, Vorbis, WMA lossy

MPEG

Data rate = sampling rate * Qbit수
CD-DA( compact disk - digital audio )의 표준 data rate = 44100* 16*2 = 1.43Mbps
( fs = 44.1kHz, N=16bits, stereo )
MPEG1의 data rate = 128kbps ~ 384kbps로 압축
- 3개의 레이어 존재, 레이어가 커질수록 복잡 & 압축률이 높아짐
- layer2 : 디지털 오디오를 broadcast하는데 사용
- layer3(MP3) : 음원유통에 사용, 최대 12:1 까지 압축지원

Basic principles of audio compression

(1) Time-frequency transform
: energy compaction( 저주파에 에너지 집중, 고주파로 갈 수록 감소 )에 따른 효율적인 비트할당(bit allocation)으로 전반적인 saving

MDCT (modified DCT ) & subband

(2) Psychoacoustic Model(PM) = 심리음향 모델
: 사람의 귀에 들리지 않을(inaudible) 주파수 성분을 찾아서 제거한다.

step1) 가청한계선(hearing threshold)의 하단 주파수 성분을 제거

step2) masking threshold의 하단 주파수 성분을 제거
가청한계선을 넘는 주파수 성분들중 크기가 큰 것(masker)이 다른 것(masked)을 가림 ⇒ 더 큰 주파수 성분의 masking contour하에 있다면 들리지 않음, 제거!

Digital audio format

PCM : 압축되지 않은 아날로그 오디오( Sampling + Quantization )를 표현 → CD, DVD
WAVE : 압축되지 않은 포맷, Microsoft
FLAC : 무손실 압축( 최대 3:1 )
MP3 : 손실압축 ( 최대 12:1 )

'computer science' 카테고리의 다른 글

[MultimediaSystem] Digital Video Compression (0)	2024.06.24
[MultimediaSystem] Image Compression & Image Processing (0)	2024.06.23
[MultimediaSystem] Color depth / Color model / Color space (0)	2024.06.23
[MultimediaSystem] Vector graphic & Bitmap image (0)	2024.06.22
[ OSTEP ] File System Advacned (0)	2024.06.21

현재글[MultimediaSystem] Digital Audio Compression

갬짱의 개발기록

computer science & dev tech을 공부합니다

fakeface detection, 노이즈 스무딩, pytorch lightning, 코드트리조별과제, 머신러닝 실습, Sequence data, morphologyEx, Object Segmentation, fine tuning, MLP신경망, 미세조정, U-Net, background processing, 영화리뷰분석, CIFAR-100, 코드트리, 코딩트리조별과제, vgg, 코딩테스트, FashionMNIST,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

갬짱의 개발기록