Aussie Life

디지털 사운드 기술 쉽게 이해하기: 처음부터 끝까지 본문

콤퓨타랜드

디지털 사운드 기술 쉽게 이해하기: 처음부터 끝까지

푸얼럽 2018. 4. 3. 20:01

최근에 소니 노이즈 캔슬링 블루투스 헤드폰을 구매하기로 했다. 블루투스 헤드폰은 10여년 전에 몇 번 써보고 음질에 너무 실망해서 그후로는 쳐다도 안보고 있었는데 여러 사정상 헤드폰을 쓸 일이 많이 생겨서 하나 구매하기로 했다. 소니의 플래그십 모델이라 수십만원이 넘어가는 고가여서 고민이 많았지만, 다행히 블루투스 전송 기술 발전 덕에 APT-X라는 (처음 들어보는) 광대역 전송 기술을 쓴다고 해서, 일단 구매하기로 했다. 그런데 헤드폰 제품 정보를 찾아보는 와중에, 여러가지 새로운 용어들 (10여년동안 잊고 있었던...)이 너무 많이 나와서 뭐가 뭔지 헷갈리는게 한두가지가 아니다.

하나하나 찾아보면서 공부해 가다가, 이 기회에 전체적으로 한 번 정리해보면 좋을 것 같다는 생각이 들었다.

5.1채널, 7.1채널, 돌비 디지털, DTS, THX, apt-X, SBC, AAC, MP3... 등등 오디오 덕후가 아니라도 이런 디지털오디오 관련 용어 중에 서너개 이상은 다들 들어봤을 것이다. 그만큼 디지털 오디오는 우리 생활 곳곳에서 우리의 귀를 즐겁게 해주고 있다. 누구나 핸드폰으로 음악을 듣고 컴퓨터로 영화를 보는 시대이니, 누구나 알게 모르게 디지털 오디오 기술을 사용하고 있는 것이다. 

하지만 워낙 이름도 많고, 비슷하고, 다양하다 보니 도대체 뭐가 뭔지 헷갈릴때가 많다. Dolby ATMOS라는게 좋다고 해서 찾아봤더니 이게 헤드폰에 쓰인다는 얘기도 있고 또 누구는 DTS X:Headphone이 더 현실감 있다는 얘기도 하는데, ATMOS는 극장에서 쓰이는 시스템이라는 둥... 처음 듣는 사람들에게는 그야말로 이게 뭥미? 하는 혼란의 카오스다.

이런 디지털 사운드 관련 기술들을 조금이나마 쉽게 이해하기 위해서는, 우선 소리 신호가 어떤 과정을 통해 디지털 신호로 변하는지에 대한 이해가 필요하다. 이러한 기본적 이해를 바탕으로 핸드폰이나 컴퓨터에서 음악 혹은 영화를 재생할 때, 음악 파일이나 비디오 파일들이 어떤 과정을 통해 신호가 변환되어서 우리 '귀'의 청각 세포까지 도착하는지 알아보자.


1. 디지털 신호와 아날로그 신호. 

아날로그 신호와 디지털 신호, 전기적 신호와 소리 신호를 명확하게 구분하는 것은 중요하다. 물론 좀 더 전문적인 용어들도 있을 수 있겠지만, 내가 잘 모르니까 그냥 쉬운 말로 풀어 쓰자.

인간의 귀는 공기의 진동으로 전달되는 '소리'를 감지하여 뇌로 전달하며, 이렇게 감지된 신호로 '소리를 듣는다'. 이 때 귀에서 감지하는 신호는 공기의 진동, 즉 음향 신호 (소리 신호)이며, 아날로그 신호이다. 당연하게도 우리 귀는 전기적 신호나 디지털 신호는 감지하지 못한다. (나중에 바이오 기술이 엄청 발전하면 귓속에 칩을 집어넣어서 가능하게 될지도....)

공기로 전달되는 소리 신호는 멀리까지 도달하지도 못하고, 저장도 안되기 때문에, 이를 저장 및 전송하기 위해서는 소리 신호를 '전기적 신호'로 바꾸는 작업이 필요하다. 어릴때 에디슨인가 누군가의 위인전에서 축음기?를 발명하고 전화를 발명했다는걸 읽었던 것 같은데, 그 위인이 한 게 결국 이 기술을 만들었다는 얘기인 것 같다. 마이크와 스피커가 하는 역할이 바로 공기의 진동을 전기 신호로 바꿔주는 것이다. 마이크는 공기의 진동을 잡아내서 전기적 신호로 바꿔주며, 스피커는 전기적 신호를 공기 진동으로 변환시킨다.

하지만 마이크나 스피커가 다루는 전기적 신호는 여전히 디지털이 아닌 아날로그 신호이다. 아날로그와 디지털의 차이는, 아날로그는 자연에 가까운 상태 (미분 가능하며 연속인 함수로 표현되는..)인 반면, 디지털은 아날로그 데이터를 0과 1로 변환시킨, 즉 숫자로 나타낸 상태를 말한다. 적절한 비유인지는 모르겠지만, 쉽게 말해서 3.1419...로 시작하는 무리수 '파이' 자체가 아날로그 신호라면 파이를 단순화 시켜서 '3.14'로 표현하는건 디지털식이라고나 할까....

즉, 마이크/스피커가 다루는 전기 신호는, 소리의 진동을 전기의 진동(?)으로 바꾼 것이기는 하지만, 이 전기의 진동도 디지털 신호가 아니라 연속성을 가지고 있는 아날로그 신호인 것이다. 예전 LP나 카세트테이프가 이런 아날로그 신호를 저장하는 방식이었고, 현재에도 모든 음향 기기들은 최종적으로는 아날로그 신호로 변환되어야만 소리로 재생이 될 수 있다. 참고로 '앰프'가 하는 일이 이 아날로그 전기 신호를 전기적으로 증폭시켜서 소리 볼륨을 키우는 일이다.

이후로 컴퓨터가 보편화되면서 모든 정보를 0과 1로만 표현하는 디지털 시대가 도래하게 되었고, '소리'라는 정보도 디지털로 처리하게 되었다. 디지털은 모든 정보가 유한 숫자로만 표현된다. 예를 들어 시각정보의 경우, 이 세상에 존재하는 무한대의 색상(아날로그)을 디지털로 변환하여 16만가지 색상중 하나(24bit)로 표현하고, 소리의 경우 무한대의 주파수/진폭을 44.1kh나 192kHz로 쪼개어 16bit나 24bit중 하나의 값으로 표현하는 식이다. 

당연히 무한대의 영역에 있는 아날로그 신호를 디지털 신호로 바꿀 때에는 정보의 손실이 발생한다. 색깔을 24비트건 32비트건 64비트건 아무리 큰 비트에 담는다고 해도, 무한대인 색깔을 100% 저장할 수는 없는 노릇이다. 다만 인간의 눈이나 귀가 그만큼 정교하지 못하기 때문에 일정 이상의 수준만 되면 정보의 손실을 알아차리지 못할 뿐. 소리도 마찬가지로 인간의 귀가 들을 수 있는 주파수 범위가 있기에 이거에 맞춰서 디지털로 변환하게 되는데, 역시 정보의 손실은 발생할 수 밖에 없다. 사운드 코덱의 핵심 기술은 이 청음주파수 내의 정보는 최대한 살리면서도 데이터의 크기는 최소한으로 줄이는 것이다.

어쨌거나, 이렇게 디지털 신호를 아날로그 신호로 바꿔주는 장치를 넓은 범위에서 DAC (Digital to Analog Converter)라고 부르고, 반대로 녹음할 때 아날로그 전기 신호를 디지털로 바꿔주는 것을 ADC라고 부른다. 컴퓨터 내부에서는 모든 신호가 디지털로 처리되므로, 컴퓨터에서 나오는 모든 소리는 결국 DAC를 거쳐서 디지털이 아날로그 신호로 바뀐 후, 스피커를 통해 소리 신호로 나온다. 우리가 자주 접하는 사운드카드, 블루투스 헤드폰, AV리시버 등등이 DAC 기능을 수행하는 제품들이다.

반대로 ADC는 마이크에서 들어온 아날로그 전기신호를 디지털로 바꿔주는데, 이렇게 변환된 디지털 신호는 파일로 저장할 수 있고, 다양한 방식으로 압축도 가능하며, 인터넷으로 친구에게 보낼 수도 있고, 스트리밍 방식으로 다운 받으면서 동시에 재생하는 것도 가능하다.

1-1. 오디오 채널

한편, 이런 녹음 - 재생의 과정에서 보통은 2개 이상의 채널을 사용하여 소리에 공간감을 더하게 된다. 인간에게는 2개의 귀가 있고, 좌우 귀에서 들리는 소리의 차이로 공간감을 구분하기 때문에 2개 이상의 소리를 동시에 다른 위치에서 재생하여 이 공간감을 재생하는 것이다. 2개 채널을 사용한 경우 스테레오라고 하고, 영화 같이 더 입체감이 필요한 경우에는 5.1채널, 7.1채널 등의 다채널이 지원되기도 한다. 

사실, 음악을 녹음하는 스튜디오에서는 보통 각 악기별로 별도의 채널을 이용하기 때문에 녹음 원본에서는 이보다 훨~씬 많은 채널을 사용하여 편집이 이루어 지지만, 믹싱 과정을 통해 결국 이 소스들을 하나로 섞어서 최종적으로는 스테레오(2채널)로 만들어진다. 


2. 디지털 신호의 문제점

아날로그를 디지털로 바꿀 때, 물론 가장 좋은건 최대한 많은 bit를 써서 최대한 높은 해상도로, 최대한 많은 정보를 집어 넣는 것이다. 하지만 이 경우 용량 문제가 된다. 핸드폰 카메라로 사진 찍는거랑 같은 원리인데, 해상도를 높이고, JPEG대신 RAW로 저장하면 더 많은 정보가 저장되기 때문에 사진의 품질은 좋아지지만, 그에 비례해서 파일 용량도 크게 증가한다.

사운드도 마찬가지로 디지털로 변환하여 압축하지 않은 기본적인 데이터 (RAW 데이터)는 그 큰 용량이 문제가 된다. 그래서 이미지에서 JPEG같은 손실 압축 코덱을 쓰듯이, 음악도 MP3, AAC, AC3, MP4 등등의 코덱을 써서 용량을 줄이는 것이다.

소리가 파일로 변환되는 과정을 정리하면, 공기의 진동인 소리 신호(아날로그)는 마이크나 스피커를 통해 전기적 신호(아날로그)로 변환되고, 이 아날로그 전기 신호는 다시 ADC를 통해 디지털 신호로 변환되며, 이렇게 변환된 RAW 데이터는 다시 코덱에서 인코딩 과정을 거쳐 우리가 다운받는 MP3같은 파일로 변환된다.


3. 인코딩 된 파일의 재생과정

소리는 녹음과 인코딩 과정을 통해 우리가 다운 받는 파일로 변환되고, 이 파일을 다운받아 재생할 때에는 이 반대 과정들을 거쳐 디지털 데이터가 다시 소리 신호로 복원된다.

소리 (source) 

---> 녹음 및 인코딩

> 인코딩된 오디오 데이터(MP3, MKV, AAC 등의 파일) (a)

---> 곰플레이어나 윈앰프 같은 프로그램에서 코덱을 이용해 디코딩.  (1)

> 디지털 RAW 데이터(PCM) (b)

---> DAC 장치를 거쳐 아날로그 전기 신호로 변환. (2)

> 아날로그 전기 신호 (c)

---> 스피커나 이어폰을 통해 공기의 진동으로 변환 (3)

> 아날로그 공기 신호 (소리) 

---> 귀를 통해 뇌에서 인식

알파벳으로 된 단계들 (a~d)는 데이터의 종류들이고, 숫자 단계(1~3)는 이런 데이터들 간의 변환을 의미한다. 최초의 녹음 및 인코딩 과정은 영화나 음악을 만드는 사람들이 알아서 하는 것들이니 여기서는 간단하게 표시 하였다.

위의 과정은 가장 일반적이며, 최대한 단순화 시켜 설명한 것이고, 실질적으로는 훨씬 다양한 방식이 있지만 이 글에서는 그냥 쉽고 간단하게 구분기로 하자. 위 단계들을 바탕으로 해서, 아래에서는 각 단계별 기술 및 장치들을 살펴보았다.


4. 디지털 오디오 재생 단계별 설명

위의 과정을 전반적으로 이해했다면, 이제 어떤 쌩뚱맞은 이상한 이름이 있더라도, 그 기술이 어느 단계에서 작동하는지 매치만 할 수 있다면 기본적이로 얘가 뭐하는 거구나..하는 정도는 알 수 있게 된다. 

예를들어, 돌비 회사에서 내놓은 돌비 ATMOS, 돌비 디지털, 돌비 기타등등 비슷비슷한 이름을 가진 수십가지 기술을 이해할 때, 이 기술이 코덱(1)에 적용되는 건지, 이퀄라이져 같은 후처리 및 음장 기술 (b 에 적용)인지만 일단 구분이 되면, 그 기술의 개요 정도는 이해가 가능한 것이다.


* 디코딩=(1): AAC, MP3, AC3, DTS 등의 코덱

우리가 컴퓨터로 음악을 듣거나 영화를 볼 때 가장 먼저 하는 일은? 당연히 파일을 다운받는 작업이다. 이 소스 파일은 앞으로 다룰 모든 처리 과정의 출발이며, 알파요 오메가이다. 아무리 재생 기계가 좋고 7.1채널 분리가 되고 수천만원짜리 스피커를 쓴다 한들, 소스 데이터가 모노 채널의 96kbps MP3라면 좋은 재생기계는 의미가 없기 때문이다. 소스의 중요성은 아무리 강조해도 모자라다.

이런 소스 파일은 AAC, MP3, AC3 등응의 코덱을 이용하여 여러 채널의 PCM 데이터가 인코딩 된 것이다. AAC나 MP3는 매우매우 유명한, 2채널의 소리를 압축하는 코덱이고, AC3는 보통 5.1채널의 데이터를 압축하며 영화에서 주로 쓰이는 코덱이다. 

돌비에서 상표로 등록한 용어로는 AC3를 "돌비 디지털"이라고 부르며, 이를 개선한 7.1채널용 "돌비 TrueHD"라는 코덱도 있다. DTS에서도 자체적인 오디오 코덱을 사용하는데, 대부분 그냥 DTS라고 부르지만 DTS 회사에서 정한 정확한 명칭은 DTS Coherent Acoustics codec이라고 한다고 한다.

이 외에도 훨씬 다양한 코덱들이 존재하며, 팟플레이어 같은 동영성 플레이어의 오디오 디코더 설정을 보면 얼마나 많은 코덱들이 있는지 알 수 있다. 각각의 코덱별로 다양한 특징이 있기 때문에 더 자세한건 알아서 찾아보도록 하자.

이 단계에서 사용되는 장치들은, 가장 대표적으로 컴퓨터와 핸드폰의 플레이어 소프트웨어가 있다. 십여년 전에는 DSP라는 코덱 전용 하드웨어 칩셋을 통해 디코딩을 했었는데, 요즘에는 컴퓨터의 메인 CPU가 워낙 빵빵해져서 DSP 없이도 MP3든 영화파일이든 요즘은 대부분 소프트웨어 코덱을 사용하여 디코딩을 한다. 물론 요즘에도 좋은 품질을 위해서 돌비나 DTS에서 인증된 리시버 하드웨어를 구입해서, 여기 내장된 하드웨어 코덱으로 디코딩 하는 경우가 있다. 이 때에는 컴퓨터의 플레이어 소프트웨어에서 오디오 데이터를 Pass-through 하여 디코딩 되지 않은 데이터를 광케이블/동축케이블을 통해 리시버에 보내고, 리시버에서 이 디지털 데이터를 디코딩(1) - DAC 변환(2) 작업까지 통으로 처리해서 스피커로 보내 준다.


* 디지털 처리=(1)~(2)사이: 음장, 이퀄라이져, 3D 등 PCM Raw 데이터(b)를 조작

위의 (1)단계의 디코딩 결과물로 PCM 데이터(b)가 생성되면 이를 아날로그로 변환(2)하기 이전에, 이 PCM 데이터를 조작하여 각종 음향 효과를 줄 수 있다. 여기서 살펴볼 것들은 간단히 말해 (b)의 디지털 PCM 데이터를 조작하는 기술들이다. 음악 플레이어에서 설정하는 각종 리버브, 3D 효과 설정, EQ설정이 모두 이 PCM 데이터를 조작하여 이루어진다. 사운드카드에서 설정하는 돌비 이펙트, 3D 이펙트도 모두 이 범주에 속하는데, 차이점이라면 플레이어 프로그램에서 효과를 입히는 경우엔 (1)의 마지막 단계에서 음향효과가 들어가는거라 당연히 그 플레이어에서 재생되는 소리에만 적용 되지만, 사운드카드에서 적용하는 경우 (2)의 맨 앞 단계에서 효과가 들어가기 때문에 사운드카드에서 재생되는 모든 소리에 효과를 주는 점이다.

또한, 7.1채널이나 5.1채널의 소스를 2채널로 변환하는 것도 이 단계에서 가능하다. 홈시어터가 제대로 갖춰지지 않아서 다채널 소스를 헤드폰이나 2개짜리 스피커로 스테레오로 출력해야 하는 경우, 좀 더 입체감을 주기 위해서 나머지 채널들을 특별한 알고리즘으로 짬뽕시켜 2개 채널로 집어넣을 수 있다. 팟플레이어에서 설정 할 수 있는 Virtual Surround (HRTF)는 플레이어에서 자체적으로 5.1채널을 2채널로 입체감 있게 바꿔주는 것이고, 윈도우10에 내장된 Windows Sonic for Headphone, Dolby ATMOS (Headphone)이나, 가상 7.1채널 헤드폰에서 사용되는 DTS X:Headphone 같은 것들은 운영체제 상에서 사운드카드 드라이버가 이 작업을 해 주는 것이다. 물론 이런 기술을 적용하지 않아도 상관은 없는데, 아무런 처리를 하지 않는 경우에는 당연히 소스 PCM 데이터의 여러 채널 중에 Front L/R 채널만 스피커로 보내지고 나머지는 그냥 한줌 재가 되어 사라진다... 이 경우 영화를 볼 때 Center 채널로 보내지는 나오는 말소리가 매우 작게 들린다던지 하는 문제가 생긴다.

반대로 2채널 음악을 5.1채널로 뻥튀기 하는 것도 이 단계에서 가능하다. 스테레오 음악을 좀 더 입체감 있게 듣고싶고, 집에 5.1채널 스피커가 설치되어 있다면, 돌비 프로로직같은 가상 서라운드 기술로 2채널 소스에서 데이터를 뻥튀기 해서 후방 스피커로 보내서 입체감을 좀 더 살릴 수 있다. (개인적으로 별로 선호하진 않는다..)

예전에 컴퓨터 CPU프로세서 성능이 안좋을때는 이 작업도 DSP에서 담당 했었으나, 요즘은 이 역시 대부분 소프트웨어적으로 이루어진다. 물론 여전히 일부 고급 사운드 카드나 리시버에서는 별도 DSP 칩셋을 달고 하드웨어적으로 처리하는 경우도 있다. 한가지 주의할 사실은 (1)의 디코딩 과정이 컴퓨터가 아닌 별도의 하드웨어(리시버)에서 이루어 졌다면, 여기서 설명한 디지털 처리 과정도 그 하드웨어나 그 이후에 물려있는 기계들에서 이루어진다는 사실이다. 한 번 컴퓨터에서 빠져나간 데이터가 다시 컴퓨터로 되돌아 오는 일은 없다고 보면 된다.


* DAC=(2): 사운드카드, 오디오 인터페이스, USB DAC, 헤드폰 앰프 등등

이 단계에서는 지금까지 처리된 PCM 데이터가 아날로그 전기 신호로 변환된다. LG 핸드폰에서 32비트 ESS DAC를 사용했다는 둥, 소니 DAC에서 Hi-Res를 지원한다는 둥, 모두 이 DAC 단계에 적용되는 기술이다. 

DAC에서 제일 많이 나오는 단어들이 해상도 (khz, bit)이다. 흔히 얘기하는 CD품질의  44.1khz, 16bit의 해상도로 제작된 PCM 데이터이고, 요즘은 192khz, 32bit 정도의 해상도가 지원되는 경우도 많다. 메인보드에 내장되는 싸구려 리얼텍 오디오 칩셋 같은데에서도 192khz, 24bit 를 지원한다. 이 숫자의 의미는 앞의 (1)~(2) 단계에서 사용되는 PCM 데이터가 이정도의 해상도를 가지고 이러한 PCM 데이터로 처리되는 것을 뜻한다. 즉 윈도우 세팅에서 디폴트 포맷을 24bit, 96khz로 설정했다면, 다른 프로그램에서 사운드카드로 PCM데이터를 보낼 때 이 해상도로 보내라는 것을 의미하는 것이다. 만약 이 해상도가 아니라면 사운드카드 드라이버에서 이를 조절하여 제대로 처리 되거나, 아니면 깨진 음이 들리거나 할 것이다.

하지만, 앞선 과정을 제대로 이해했다면, 아무리 높은 해상도를 사용한다 해도 그 이전 단계가 정상적으로 이루어지지 않으면 별 소용없다는 걸 이해할 수 있을 것이다. 128kbps로 압축된 4MB짜리 44.1khz 16bit의 MP3를 재생할 경우, DAC에서 아무리 업스케일링을 한다고 해도, 그저 뻥튀기일 뿐 엄청난 향상을 기대해서는 안된다. 그러므로 제대로 된 Hi-Fi를 원한다면, 음원 자체가 flac 같은 광대역 Lossless 코덱으로 된 파일을 사용해야 하며, 음악 플레이어에서도 이런 고해상도를 지원하는 플레이어를 사용해야 한다. 기껏 96khz, 24bit flac파일을 재생했는데 플레이어에서 44.1khz, 16bit로 바꿔버리면 말짱 꽝. 즉, LG의 핸드폰을 쓴다고 해도, 음원을 flac로 재생하고, 이런 고해상도 음원을 100% 제대로 DAC까지 보내주는 플레이어 프로그램을 사용해야하만 제대로 된 고해상도 음악을 즐길 수 있다.

물론 좋은 DAC 칩셋을 사용하면 음질이 좋아지는건 맞다. 아날로그 신호로 변환되는 이 단계에서부터 하드웨어의 특성에 따른 영향이 커지기 때문이다. 잘 생각해보면 아날로그 신호를 조작하는 것은 전류의 세기라거나 전기의 진폭을 전기적으로 조정하는 것이기 때문에, 컴퓨터 상에서 디지털로 된 숫자들을 곱셈, 나눗셈 같이 연산하는 디지털 신호 변환에 비해 훨씬 어렵다. 

이전 단계까지 살펴봤던 디지털 신호 변환 과정은 결국 계산만 정확하게 되면 싼 기계던 비싼 기계던 속도 차이만 있을 뿐 그 결과가 똑같다. (2곱하기 7을 연산해서 14만 나오면 된다.) 하지만 DAC에서 디지털을 아날로그로 변환할 때에는 숫자로 표시되던 디지털 데이터가 무한대의 값인 아날로그 신호로 바뀌기 때문에 DAC 칩셋의 특성이 매우 중요해진다. 좋은 DAC 칩셋일수록 디지털-아날로그 변환 과정에서 발생할 수 있는 소리의 왜곡이나 노이즈를 줄여서 처음 녹음할 때의 아날로그 신호에 가깝게 복원시켜 주는 것이다.


* 아날로그 처리=(2)~(3) 사이: 아날로그 앰프, 아날로그 EQ 등

일단 (2)의 DAC를 거친 오디오 신호는 3.5파이 헤드폰잭이나 RCA 잭 등등을 통해 스피커로 이동하게 된다. 이 중간에 소리 볼륨을 조절하기 위해 아날로그 앰프가 동작하게된다. 헤드폰에는 별도의 앰프가 없는 경우가 많고 (별도의 전원을 연결하지 않음), 대부분의 일반 스피커는 앰프가 내장되어 있으며, 고급 스피커나 공연장 같은데에서는 원한다면 별도의 앰프를 사용하기도 한다. 고급 헤드폰의 경우에 외장형 앰프를 사용하기도 하는데, 이 때 (2)의 DAC를 앰프에 집어넣어서 DAC 변환과 아날로그 신호 증폭을 동시에 하는 경우도 있다. 

아날로그 신호 처리 단계에서도 이퀄라이저나 음장효과 적용이 가능하다. 과거 디지털시대 이전에는 무조건 아날로그로 음향 처리를 해야했지만, 요즘에는 디지털로 처리하는게 훨씬 싸게 먹히기 때문에 거의 찾아보기 힘들다.디지털 앰프도 소리 신호를 증폭하는 기술인데, 아날로그 전기신호를 전기적으로 증폭시키는 것이 아니라 위의 (b) 디지털 처리 단계에서 디지털 데이터를 단순히 연산하여 신호를 증폭하는 것이다. 


5. 기술 및 장치별 동작 방식

1) 돌비/DTS 다채널 코덱: Dolby Digital (DD, AC3), Dolby Digital Plus (DD+), Dolby TrueHD, DTS audio codec

돌비나 DTS 모두 여러가지 음향 관련 기술들이 있고 이름이 다 비슷비슷 하지만 위에서 살펴봤듯이 기술이 적용되는 단계가 모두 다르다. 여기 나열한 기술들은 그 중에 오디오 데이터를 압축하는 코덱 기술. 일반인이 가장 쉽게 접하는 기술들로서, 컴퓨터로 영화를 볼 때 5.1채널 이상으로 소리가 나온다면 이 코덱 중에 하나를 사용하는 것이다. MP3, AAC와 마찬가지로 오디오 코덱이지만, 영화의 입체감 있는 사운드를 위해 5.1채널 혹은 7.1채널 사운드에 최적화된 코덱이다.

2) 3D 헤드폰 기술: DTS Headphone:X, Dolby Headphone, Dolby ATMOS (Headphone), Razer Surround

이 기술들은 7.1채널 혹은 5.1채널 PCM 데이터를 잘 짬뽕시켜서 입체감 있는 2채널 PCM 데이터로 변환해주는 기술이다. 모두 소프트웨어적으로 구현되며 별도의 소프트웨어를 설치하거나, 윈도우에 내장되거나, 사운드카드 드라이버를 설치할 때 같이 설치된다. 일부 기술은 2채널 소스를 좀 더 입체감 있게 (리버브를 넣는다는지..) 2채널로 뻥튀기 하는 것도 포함 된다. Dolby나 DTS 기술들은 별도로 판매하지 않고 헤드폰이나 헤드폰용 DAC에 번들로 끼워 넣어서만 판매하고 있다. (어둠의 경로로 드라이버를 해킹해서 소프트웨어만 빼내어 쓰는 경우도 있긴 하지만 엄연히 불법이다.)

3) Dolby ATMOS, DTS:X, 

위에서 헤드폰 기술에서 살펴본 DTS Headphone:X, Dolby ATMOS 와 이름은 매우 비슷하지만 실질적으로는 전혀 별개의 기술이다. DTS:X와 Dolby ATMOS 모두 입체감을 향상시키는 일종의 코덱 기술로서, 기존의 코덱들이 5.1채널 혹은 7.1채널로 채널의 숫자와 스피커의 위치를 고정시켜놓고 데이터를 압축하는데 반해서, 이 기술은 채널의 한계를 없애버렸다고 한다. DTS:X의 경우 무한대의 채널 생성이 가능하고, 돌비 애트모스도 128채널까지 생성이 가능하다. 

Dolby ATMOS는 기본적인 7.1채널(앞2, 뒤2, 옆2, 센터, 우퍼)이 들어가고, 여기에 더해서 추가되는 채널은 해당 사운드의 위치를 좌표(?)로 정할수 있으며 소리의 위치를 변경할수도 있다. 극장의 경우 관객 위에도 스피커가 설치되어 진정한 3D 사운드가 구현된다. 예를 들어 기존과 동일하게 7.1채널로 기본적인 사운드가 나오는 상황에서, 주인공 머리위를 왼쪽->오른쪽으로 지나가는 독수리 울음소리를 넣고 싶다면, 이 독수리 울음소리를 추가 채널로 녹음하고, 움직이는 위치를 왼쪽->위->오른쪽 식으로 데이터를 입력해 두면, 재생하는 기기에서 이 데이터를 분석해서 재생 환경에 맞는 스피커에다가 독수리 소리를 덧대주는 방식.

인코딩하는 쪽에서는 사운드 믹싱하는 방식까지 바꾸는 기술이지만, 디코딩하는 입장에서는 채널이 추가된 7.1채널 코덱으로 보는것이 맞을것 같다. 현재까지는 주로 극장에서 사용되며, 가정용으로도 점차 확장되는 추세이다.

앞서 설명했듯이 헤드폰 음장효과에 적용되는 Dolby ATMOS와 코덱에 적용되는 Dolby ATMOS는 이름은 동일하지만 별개의 기술이다. 다만, 기존의 3D 헤드폰 기술이 7.1채널만을 2채널로 바꿔주는 것이었다면, Dolby ATMOS 헤드폰 기술은 ATMOS(코덱)에 추가된 128 채널 전부를 짬뽕시켜서 2채널로 바꿔주기 때문에 똑같은 이름을 붙인게 아닐까 싶다. 실제로 ATMOS가 지원되는 게임을 ATMOS 서라운드 효과를 켜서 헤드폰으로 들어보면 훨씬 제대로 된 입체감을 느낄수 있다고 한다.

4) 블루투스 전송코덱: SBC, APT-X, LDAC, AAC

블루투스에서 컴퓨터-헤드폰을 연결하는 코덱으로 위와 같은 것들이 있는데, 이는 (b)의 단계에서 디코딩 된 PCM Raw 데이터를 다시 블루투스 헤드폰으로 보낼 때 사용되는 코덱을 말한다. 즉, MP3나 AC3같은 '파일코덱'을 통해 일단 PCM으로 디코딩 된 데이터를, 다시 블루투스로 헤드폰으로 보낼때 압축이 필요한데, 이 압축을 어떤 '전송코덱'을 이용해서 할지 정의한다. 애플에서 블루투스 연결시에 지원되는 '전송코덱' AAC는 위의 '파일코덱' AAC와 코덱 자체는 동일하지만, 이 코덱이 사용되는 단계가 다르기 때문에 헷갈리지 말자. 

맥에서 MP3를 재생하여 블루투스 헤드셋으로 듣는다면,
MP3를 디코딩 (1) -> PCM 데이터 (b) -> AAC로 인코딩하여 블루투스 헤드셋으로 전송 -> 블루투스 헤드셋에서 AAC 디코딩 -> PCM 데이터 (b') -> DAC 등 이후 단계....
로 진행된다.

블루투스 전송 코덱으로 Lossless코덱을 사용하지 않는 이상, 인코딩-디코딩 과정에서 음의 손실이 발생하기 때문에 두번째 (b')의 PCM 데이터는 첫번째 (b)의 데이터보다 품질이 떨어질 수 밖에 없다. 그러므로 블루투스 전송 코덱이 매우 중요하다. 아무리 flac 고해상도 음원을 폰에서 제대로 재생하더라도, 블루투스 헤드셋으로 보낼 때 SBC로 보내서 손실이 많이 생긴다면 말짱 꽝.

참고로 블루투스로 음악을 들을 때에는 폰이나 PC에 아무리 좋은 DAC가 있다고 해도 사용할 수 없고, 블루투스 헤드셋(혹은 리시버)에 내장된 DAC가 사용된다. 블루투스로 보내지는 데이터는 PCM의 디지털 데이터가 블루투스 코덱으로 압축된 데이터이므로, 최종적으로 디지털->아날로그 변환이 발생하는 곳은 헤드셋이나 리시버에 들어가있는 DAC이다. 또한, 어떤 블루투스 코덱으로 압축할지는 PC나 폰의 블루투스 칩셋(트랜스미터)에 따라 달라진다. 아무리 좋은 블루투스 헤드셋를 구매하더라도, 컴퓨터에 물려있는 블루투스 트랜스미터에서 고음질 코덱을 지원하지 않으면 사용할 수 없다.

5) 리시버

리시버는 앞에서 설명했던 디코딩,디지털처리,DAC,아날로그 앰프까지 모든 단계를 한꺼번에 처리하는 장치이다. 심지어 코덱이 하드웨어에 내장되어 있어서 컴퓨터의 플레이어에서 디코딩되지 않은 원본 데이터를 그대로 리시버로 보내면, 리시버에서 위의 모든 과정 (디코딩, DAC, 앰프)을 처리하여 아날로그 신호를 스피커로 보낸다. 요즘 AV리시버라고 하는 제품들도 기본적으로는 오디오를 디코딩/DAC/앰프 하는 장비이며, 거기에 추가해서 영상 신호를 받아서 분배해주는 간단한 기능이 추가된 것이다. (영상 데이터를 디코딩하지는 않는다). 리시버에서 지원되지 않는 코덱의 경우, 컴퓨터에서 디코딩해서 AUX로 보내거나, 블루투스로 보낼때처럼 컴퓨터에서 PCM 데이터를 다시 다른 코덱으로 인코딩해서 보내는 경우도 있다.

6) 가상 7.1채널 헤드폰 (USB).

DAC + 3D Surround 효과 소프트웨어 + 헤드폰. 헤드폰의 장치 드라이버를 컴퓨터에 설치할 때 가상 3D 처리 소프트웨어(주로 DTS나 Dolby)가 함께 설치되며, 7.1채널이나 5.1채널로 디코딩된 PCM 데이터가 이 소프트웨어를 거치면서 3D 효과가 들어간 2채널로 변환되게 된다. 이 2채널 PCM 데이터가 USB 케이블을 타고 헤드폰에 들어있는 DAC로 보내지고, DAC를 거쳐 소리로 변환되어 나오는 것이다. USB 헤드폰을 샀다면 꼭 함께 제공되는 소프트웨어를 설치해서 100% 활용하도록 하자.

참고로 리얼 7.1채널 헤드폰은 3D Surround 효과 소프트웨어를 사용하지 않고, 7.1채널의 데이터를 그대로 받아서 헤드셋에 들어있는 여러개의 유닛으로 각각 소리를 낸다. 7.1채널 스피커가 헤드폰에 들어있는 것이다. 하지만 우리 귀는 결국 2개밖에 없기 때문에 아무리 많은 유닛이 헤드셋에 들어있더라도 귀에서 입력되는 것은 2개 채널밖에 없다는 것을 생각해보면..귀 바로 앞에서 여러 채널로 분리해서 소리를 내더라도 7.1채널 스피커같은 효과를 기대하긴 힘들다. 실제로 사용자 평가를 보면 리얼 7.1채널보다 가상 7.1채널이 훨씬 리얼하다고....

7) 오디오 인터페이스, 헤드폰 앰프

컴퓨터에 USB로 연결되는 오디오 인터페이스나 헤드폰 앰프는 DAC와 아날로그 앰프가 통합되어 있는 장치로 보면 될거같다. 물론 오디오 인터페이스는 딜레이를 줄여서 녹음에 최적화한 (위에서 0의 녹음 단계를 위한..) 장치이긴 하지만, 재생의 관점에서만 본다면 이렇게 분류하는 것이 맞겠다. 헤드폰 앰프는 이름은 앰프지만 실제로 DAC의 역할을 하며, 제품에 따라 위 가상 헤드폰에서처럼 3D Surround 효과 소프트웨어를 번들로 제공해주는 경우도 있다.


6. 결론

결국은 각각의 단계에서 가장 적합한 기술을 사용하는 것이 중요하다.

* 녹음 및 인코딩 단계: 좋은 스튜디오에서, 좋은 환경에서, 좋은 장비로, 높은 해상도로 녹음해야 한다. 녹음한 해상도 및 채널을 지원하는 최적의 코덱으로 인코딩 한다. 음악의 경우 고해상도 Lossless 코덱이 제일 좋다 (용량은 매우 커진다).

* 오디오 데이터 (파일) 받기: 잘 녹음된, 좋은 코덱으로 인코딩 된 소스를 받는다.

* 디코딩: 돌비나 DTS같은 상용 코덱은 해당 라이센스를 받은 리시버로 디코딩하는게 가장 정확하지 않을까. 물론 팟플레이어로 디코딩해도 상관없지만.

* 디지털 처리: 음원의 채널 갯수와 내 스피커 환경이 다르다면 좋은 변환 프로그램으로 채널을 일치시킨다. 물론 가장 이상적인 것은 음원 채널과 스피커 채널이 동일한 환경이다. 7.1채널로 들어오는 데이터를 2채널 헤드폰에서 재생하고자 한다면 DTS Headphone:X 같은 3D 헤드폰 기술을 써서 짬뽕시키면, 확실히 입체감이 살아난다. 윈도10에서 기본으로 제공해주는 Windows Sonic도 괜찮다. 팟플레이어에나 게임에서 오디오 출력 설정을 '원본과 동일' 혹은 '7.1채널'로 설정해야 3D 헤드폰 프로그램들이 제대로 동작한다.

* DAC: 무조건 좋은 칩셋이 좋다! 고해상도 음악을 재생한다면 동일한 해상도를 지원하는 DAC를 쓴다. 블루투스로 듣는다면 최대한 손실이 적은 코덱으로 전송하고, 좋은 DAC가 들어간 블루투스 헤드폰을 쓴다.

* 이후 아날로그 단계: 당연히 좋은 앰프/스피커/헤드폰일수록 좋다.

Comments