월간 <네트워커> - 정보화에 대한 다른 시각
7호 이동영의
멀티미디어 데이터의 표현

이동영  
조회수: 6124 / 추천: 71
샘플과 샘플링
음성, 음악 등의 소리는 일종의 파동이므로 시간에 따라 변화하는 곡선으로 나타낼 수 있다. 이 파동을 디지털화하기 위해서, 일정한 시간마다 곡선의 위치값을 숫자로 표현하면 된다. 이렇게 곡선의 위치값을 숫자로 표현하는 것을 샘플링(sampling)이라 하고, 그 숫자를 샘플(sample)이라 한다.

소리에는 주파수가 있는데, 어떤 소리를 제대로 재현하기 위해서는 그 주파수의 두 배 이상의 빈도로 샘플링을 해야 한다.(음파 곡선이 한번 진동할 때마다 양쪽 끝을 기록하려면 최소한 두배의 빈도가 되어야 한다) 예를 들어 전화의 경우, 이야기할 때 사람의 목소리가 4KHz 이내의 주파수를 가진다고 보고 1초에 8000번 샘플링하고 (이것을 8KHz로 샘플링한다고 표현한다) 하나의 샘플은 8비트(이진수 8자리) 숫자로 표현된다. 그러면 그 정보의 양은 초당 64000비트가 되는데, 이를 64Kbps(Kilo bit per second)라고 표현한다. T1 회선은 이러한 음성 신호 24 채널을 동시에 보낼 수 있는 용량(1.544Mbps)의 회선이다.

음질을 더 높여서 재현하기 위해서는 더 높은 빈도로 샘플링하고, 또 샘플의 비트수를 높여서 정확하게 샘플링해야 한다. CD의 경우 44.1KHz로 샘플링하고 샘플 하나의 크기는 16bit(2 byte)이다.(사람이 들을 수 있는 소리의 범위가 20KHz까지라고 알려져 있으므로 이 범위를 모두 커버한다고 할 수 있다) 이때 초당 데이터의 양은 2 * 44.1KHz = 88.2KB인데 스테레오는 두 개의 채널이 필요하므로 초당 176.2KB가 된다는 계산이 나온다.

느끼지 못하는 손실압축-지각 부호화
초당 176KB라는 데이터 양은 상당히 많은 양이다. 3분짜리 노래 하나만 해도 거의 32MB가 된다. 그래서 개발된 기술이 압축 기술이다. 압축 기술에는 원래 데이터를 그대로 복원할 수 있는 비손실 압축 방법과 약간의 손실이 있지만 더 많이 압축할 수 있는 손실 압축 방법이 있는데, 멀티미디어 데이터의 경우 데이터의 양이 큰 반면 약간의 손실이 있어도 사용에 큰 지장이 없으므로 손실 압축 방법을 많이 사용한다. 음악의 경우, 흔히 사용하는 MP3로 압축할 경우 데이터 양이 CD의 약 10분의 1로 줄어든다.

물론 손실 압축이라고 해서 데이터가 아무렇게나 손실되는 것이 아니라, 사람이 차이를 느끼기 어렵도록 압축된다. 이러한 방법을 지각 부호화(Perceptual Coding)라고 한다. 먼저 사람이 소리를 어떻게 지각하는지에 대해 연구한 후, 원래 데이터에서 사람이 잘 감지하지 못하는 부분을 제거하는 것이다. 예를 들어 사람은 큰 소리가 난 직후에 작은 소리가 나면, 큰 소리의 (심리적인) 여운 때문에 작은 소리는 잘 느끼지 못한다.

MP3에서는 음악을 여러 주파수 성분으로 분해한 후, 주도적인 주파수 성분에 가려서 잘 인식되지 않는 성분을 제거한다. 또한 스테레오 음악이라고 하더라도 두 채널이 완전히 다른 것이 아니라 상당히 비슷하다는 성질도 이용한다.

영상 데이터의 질은 화소와 다양한 색의 표현에...
사진이나 그림과 같은 화상의 경우 미세한 점들의 모임으로 표현된다. 컴퓨터 화면을 잘 보면 여러 개의 미세한 점(칸)으로 이루어져 있다는 것을 알 수 있다. 이 점들을 화소(pixel)라 한다. 따라서 얼마나 많은 화소로, 즉 얼마나 잘게 나누는가가 화상이 얼마나 세밀하고 자세한가를 결정하게 된다. 이를 해상도라고 한다. 예를 들어 컴퓨터 화면의 해상도가 1024*768이라고 한다면 이 화면이 가로로 1024개, 세로로 768개의 점으로 이루어져 있고 점의 총 수는 약 79만개임을 알 수 있다.

화질을 결정하는 두번째 요소는 각각의 점들이 얼마나 다양한 색을 표현할 수 있는가이다. 보통 1600만 색(24bit)을 표현할 수 있으면 트루 컬러라고 얘기하는데 실제의 색을 그럭저럭 그대로 재현할 수 있다는 뜻이다.

화상 데이터도 오디오(소리) 데이터처럼 지각 부호화를 이용한 손실 압축 방법으로 많이 압축할 수 있다. 예를 들어 사람의 눈은 밝기에는 예민하지만 색상에는 비교적 둔감해서, 색상 정보는 어느 정도 손실되어도 알아차리기 어렵다. 화상 압축 방법의 대표적인 예인 JPEG은 경우 화질에 따라 몇 배에서 몇십 배에 이르기까지 압축이 가능하다.

동영상은 MPEG으로
멀티미디어 데이터의 꽃이라고 할 수 있는 것은 동영상 데이터이다. 동영상 데이터는 기본적으로 위에서 살펴 본 것과 같은 정지 화상이 연속되어 있는 것으로 생각할 수 있다. 동영상 데이터의 규격 중에 15fps, 30fps, 60fps 등의 수치를 볼 수 있는데, 이는 1초에 몇 장의 화면을 보여 주는가를 나타낸다.

동영상 데이터의 크기는 매우 크다. 예를 들어 해상도가 640*480이고 각각의 점이 24bit(3 byte)로 표현되며 1초에 30장의 화면을 보여 준다면, 데이터의 양은 초당 약 26MB나 된다. 1분이면 1.5기가바이트(GB)가 넘는 것이다.

동영상 압축 방법의 대표적인 예는 MPEG이다. 동영상을 압축할 때는 정지 영상을 압축할 때 사용하는 기법 외에 한 화면과 다음 화면이 비슷하다는 성질도 이용할 수 있으므로 압축률을 더 높일 수 있다. 대부분의 동영상은 소리도 포함하는데, 위에서 살펴 본 MP3도 사실은 MPEG에 포함된 오디오 압축 방법의 일부이다.

자유로운 데이터 이용을 위해
지금까지 소리, 화상, 동영상 등을 컴퓨터에서 어떻게 표현하는지 대략 살펴보았다. 이와 관련해서 한가지 꼭 짚고 넘어갈 부분은 특허와 데이터 포맷 독점의 문제이다. 웹에서 아이콘이나 배너 등의 비교적 작은 이미지를 표시하기 위해 흔히 사용되고 있는 GIF 포맷에는 사실 특허가 들어 있다.(GIF의 대안으로 PNG 파일 포맷을 사용하는 것이 바람직하다) 또한 시간이 지날수록 음악이나 동영상 등의 멀티미디어 데이터가 널리 사용되는데, 마이크로소프트의 윈도우 미디어 파일 형식이 점점 더 많은 부분을 차지하는 것도 우려스러운 일이다. 만약 모든 멀티미디어 데이터가 특정 회사의 파일 형식으로 통일된다면, 멀티미디어 데이터의 이용이 그 회사의 정책에 좌지우지되는 결과를 가져오기 때문이다.
추천하기