세미나 스케치-2019 하반기 (사)무대음향협회 기술 세미나

운영진
2019-12-09
조회수 148

이번 세미나에서 다룬 내용은 한 때 Dante에 밀리는 것처럼 보였던 AVB(Audio Video Bridge) 기술입니다. Avid, Presonus, MOTU 등에서 명맥만 살아남은듯 보이는 이 포맷을 새삼스럽게 다시 조망하는 이유가 무엇일까요?

상업적으로 Dante에 밀린 모양새의 AVB는 절치부심하여 Deterministic Ethernet기술, PTP V2의 도입으로 AVB/TSN(Time Sensitive Networking)으로 발전했으며 여기에 음향·영상 업계에서 요구하는 편리성과 기능들, 안정성을 갖추면서 MILAN(Media Integrated Local Area Network) 진영이 구성되었습니다.

2018년에 발표된 이 포맷은 기존의 AVID, Presonus는 물론 L-Acoustics, Adamson, d&b audiotechnik, Meyer Sound, RCF, biamp등 다양한 스피커 및 시스템 제조사와 Luminex와 Cisco를 비롯한 주요 네트워크 장비 제조사, Intel을 비롯한 대형 회사까지 연합으로 참여해 매우 유망한 장래성을 가진 것으로 평가됩니다.

11월 11일, 충남대학교 정심화 국제문화회관에서 열린 이번 세미나는 L-Aocustics를 수입 및 판매하고 있는 (주)클라우시스의 기술팀을 이끌고 있는 장균철 팀장이 진행했습니다. 세션은 크게 두 가지의 주제로 나눠져 진행되었으며 첫 시간에는 AVB/TSN과 MILAN의 기술적인 부분에 대해, 둘째 시간에는 L-Acoustics 스피커 시스템의 사용 방법에 관한 것으로 SoundVision 시뮬레이션 소프트웨어 및 LA Network Manager 매니지먼트 툴, 그리고 M1 측정툴을 이용한 시스템의 칼리브레이션과 최적화, 마지막으로 최근 이슈가 되고 있는 Immersive 시스템에 대한 이해와 L-ISA 시스템에 대해 다뤘습니다.


AVB/TSN과 MILAN의 기술적 이해

실시간 디지털 오디오 전송에 있어서 가장 중요한 것은 ‘시간 무결성’입니다. 오디오 지터 문제의 대부분은 시간 불일치로 인해 생기며, AVB/TSN은 물론 AES67등을 비롯한 여타 포맷들도 시간 무결성을 달성하는 기술 표준을 채택하고 있습니다. 이것은 시스템간의 시간이 완벽하게 동기화되어 오디오가 같은 시간에 도달하는 것을 의미합니다.

이를 정의하는 표준이 바로 IEEE 1588 PTP입니다. PTP는 Precision Time Protocol을 의미하는데, 이는 실시간으로 전달되며 시간 동기화가 철저히 이뤄져야 하는 디지털 오디오와 같은 시그널을 전달하는데 필수적인 기술이며 한 네트워크 상에서 마이크로 초 단위 이하의 동기화를 가능하게 해줘서 시간이 중요한 측정, 콘트롤, 실시간 스트리밍 동기화 등을 정교하게 해 데이터의 무결성을 유지하게 합니다.

현재는 업데이트를 거쳐 PTP(Precision Time Protocol)-IEEE 1588:2008 또는 PTPv2라고 불리며 IEEE1588 및 IEEE1588의 2008년 2차 개정판으로 제정된 국제표준으로 상대적 시간 동기화 메커니즘입니다.


원리를 조금 설명해보겠습니다.

어느 한 장치를 마스터 클럭으로 작동하도록 선택하면 이 마스터 클럭은 모든 슬레이브에 시간 동기화 메시지를 전달합니다. 시간 동기화 텔레그램이 네트워크로 전송되면서 동기화 프로세스가 시작되는데요, 모든 장치(슬레이브)는 자신의 로컬 타임과 마스터 클럭 사이의 시간 차이(지연)를 계산하여 단계적으로 2 μs 이내에 이 시간 차이에 적응합니다.

모든 네트워크 장치는 A/D 변환으로 인해 오디오 경로에 대기 시간이 도입되는 것과 같은 방식으로 처리량과 비트를 대기열에 넣기 위해 일정 시간이 걸립니다. 이 ‘체류 시간’의 지속 시간을 알고 수정하면 동기화가 훨씬 더 엄격해질 수 있죠. 특별한 하드웨어로 인해 타임 스탬프는 PTPv2가 교환하는 메시지에 사용되는 장치의 로컬 시계에서 생성됩니다. 장치는 메시지가 도착하기까지 걸린 시간 뿐만 아니라 패킷이 내부적으로 처리 될 때 발생하는 지연을 보완하기 위해 보내는 시간이나 메시지의 시간을 업데이트 할 수 있습니다.

이것은 또한 투명 클럭(Transparent Clock)과 경계 클럭(Boundary Clock)의 구분으로 더욱 정밀하고 빠르게 작동합니다. 경계 클럭 역할을하는 스위치는 PTPv2를 사용해 자체 시간을 업데이트하고 전송한 패킷에 적용합니다.

투명 클럭은 패킷이 자체에서 소비 된 시간을 계산하고 패킷이 떠날 때 그 패킷에 대한 수정을 추가합니다. 이러한 의미에서 스위치는 마치 네트워크에서 지연에 기여하지 않는 것처럼 ‘투명하게’되는 셈이죠.

PTPv2는 일련의 메시지를 사용하여 시계 사이의 시간을 동기화합니다. 마스터 클럭은 슬레이브 클럭에 동기화 메시지를 보내고 메시지가 나갈 때 타임 스탬프 t1을 기록합니다. 슬레이브 클럭이 메시지를 수신하면 바로 도착한 시점을 기록합니다(t2). 또한 마스터 클럭은 t1에 대해 기록한 값을 포함하는 Follow_Up 메시지를 슬레이브로 보냅니다. 슬레이브는 마스터에게 Delay_Req 메시지를 전송하고 그것이 전송된 시점을 기록합니다(t3). 마스터가 이 메시지를 받으면 수신된 시간을 기록하고(t4), Delay_Resp메시지로 슬레이브로 다시 보냅니다. 슬레이브 클럭은 이제 마스터에 대한 슬레이브 클럭의 오프셋과 두 클럭 간의 전파 시간을 계산하는 데 사용할 수 있는 네 개의 타임스탬프를 모두 보유하게 되는 것이죠.


너무 어렵나요? ㅎㅎ


예를 들어, PTP 소스가 시간 1:00:00 pm을 알리는 PTP 메시지를 보낸다고 가정합시다.

문제는 이 메시지가 행선지에 도달하기까지 시간이 걸리는 것인데요, 만약 PTP 패킷이 소스에 도달하는 데 1초가 걸렸다면, 소스가 1:00:00 pm을 나타내는 PTP 패킷을 받을 때면 1:00:01 pm이 될 것입니다. 따라서 네트워크 레이턴시를 보상해야 하는데, 다음 예시처럼 이는 마스터와 슬레이브 클럭 사이에 교환된 일련의 메시지를 통해 달성할 수 있습니다.

➊ 마스터 클럭이 동기화 메시지를 전송한다. 동기화 메시지가 마스터를 출발한 시간에는 t1이라는 타임스탬프가 붙는다. t1은 동기화 메시지 자체에 포함(한 단계 동작)되거나, 아니면 Follow_Up 메시지로 전송될 수 있다(두 단계 동작).

➋ 슬레이브가 동기화 메시지를 수신한다. 이 수신 시간이 t2이다.

➌ 슬레이브는 Delay_Req 메시지를 전송한다. 이 메시지가 슬레이브를 출발할 때의 시간이 t3, 마스터가 이 메시지를 받을 때가 t4이다.

➍ 마스터는 타임스탬프 t4가 포함된 Delay_Resp 메시지로 응답한다.

이런 일련의 과정들은 아래 그림을 참고해보세요.

Peer-to-Peer (P2P)를 사용하는 투명 클럭(Transparent Clocks)은 서브네트에 접속되는 장치의 수에 적절히 대응할 수 있을 뿐 아니라 네트워크 토폴로지 변화에 대응하여 신속한 복구가 가능합니다. 따라서 이 메커니즘은 확장성이 크게 향상되므로 캐스케이드 토폴로지(cascaded topology), 데이지 체인(daisy chain)으로 연결된 스위치를 다수 사용하는 대규모 시스템)에 가장 적합합니다. 즉 대규모 실시간 오디오 분배 시스템에 가장 적절하다고 할 수 있겠네요.

이는 AVB/TSN에서 여기에서 한 발 더 나아가 현장에서 요구하는 스피커 시스템에 적합한 기능을 제공합니다. 이는 라인어레이 시스템을 구성할 때 무엇보다 우선적으로 고려해야 하는 점이기도 합니다. 좀 더 설명하자면 소스를 release하는 타이밍을 모든 엔트포인트에 동일하게 해서 동시에 모든 소리를 나게 하는 기술이죠.


이제 시간 무결성은 해결했으므로 쉽고 직관적인 사용이 가능하게 해주는 기술, 즉 네트워크에 공존하는 장비들을 인식하고 서로의 기능에 대해 알아내고 콘트할 할 수 있는 상호운용성 기술이 있어야겠죠. 이는 IEEE 1722, 또는 AVDECC(Audio Video Discovery, Enumeration, Connection management, and Control)으로 정의되어 있습니다.


이제 생각할 점은 바로 ‘안정성’입니다. 이는 라이브 프로덕션 업계에서 가장 중요하게 여겨지는 덕목인데요, 장균철 팀장은 이를 소개하면서 “기능적인 면에서는 다른 포맷들도 훌륭하지만 안정성 면에서는 AVB/TSN이 정말 우수한 면이 있다”고 말했습니다.

이는 대역폭을 할당하고 각 패킷에 대해 중요도를 지정한 후 우선순위를 부여하는 작업과 밀접한 관련이 있습니다. 이를 큐잉 및 포워딩(Queuing and Forwarding)이라고 합니다. AVB/TSN의 시민감 포워딩 및 큐잉은 시민감형 데이터 전송을 위하여 순환 주기에 맞춰 큐 게이트를 컨트롤하여 포워딩하는 PSFP(Per-Stream Filtering and Policing)와 CQF(Cyclic Queuing and Forwarding)방법을 사용합니다.

무엇보다 가장 중요한 데이터는 바로 시간 동기화에 관한 패킷이고 두 번째로는 음향과 영상(프로덕션 현장에 한해)에 관한 것입니다. 큐잉은 이렇게 중요한 순서대로 우선권을 부여하는데요, 포워딩은 일종의 신호등으로 데이터 패킷이 버퍼에 쌓이지 않고 원할하게 오갈 수 있도록 콘트롤합니다. ABV/TSN은 이렇게 75%의 대역폭을 보장합니다.


이렇게 우선권이 부여되고 정리된 신호는 어떻게 전송될까요? 이를 정의한 것이 바로 AVTP(Audio Video Transport Protocol 혹은 IEE1722a 표준입니다. 이는 Unicast, Multicasting 등 관심있는 독자라면 한번쯤 들어봤을만한 네트워크 전달 방식과 관련이 있습니다.

현재 많은 미디어 관련 네트워크 포맷은 효율적인 전달을 위해 트래픽을 관리하는데 이를 IGMP snooping 기술이라 하며, 특정 사용자들만 대상으로 하는 트래픽이 모든 사용자에게 전달되지 않도록 해 네트워크 트래픽 잼이 발생되는 것을 방지합니다. AVB/TSN은 여기서 더 나아가 SRP(Stream Reservation Protocol)을 사용해 Listener가 요청했을 때에만 Talker가 데이터를 전달하게 됩니다. 또한 Listener가 없을 경우에는 아예 데이터를 보내지 않아서 트래픽을 더욱 안정적으로 유지하죠.


이어서 장균철 팀장은 “많이 받게 되는 질문 중 하나가 AVB가 다룰 수 있는 입출력 개수에 관한 것”이라면서 설명을 이어나갔습니다. 

AVB/TSN에서는 ‘채널’과 ‘스트림’의 개념을 사용합니다. 그는 이해를 쉽게 하기 위해 하나의 아날로그 멀티 케이블 안에 들어 있는 오디오 케이블의 숫자를 ‘채널’이라고 가정했습니다. 이 묶음을 ‘스트림’이라고 하죠. 따라서 8채널 스트림이 5개일 경우에는 40채널이라는 뜻입니다. 이를 얼마나 운용할 수 있는지는 네트워크 환경에 따라 다르며 이를 표로 정리하면 다음과 같습니다.


장균철 팀장은 안정적인 AVB/TSN 시스템 구성 및 예측을 위한 팁을 소개했습니다. 바로 [https://abc.statusbar.com/]인데요, 이 곳에서는 네트워크 환경, 샘플레이트, 스트림 당 채널 수 등 다양한 요소를 집어넣어 쉽게 계산할 수 있도록 해줍니다.

그는 이야기를 하면서 MILAN에 대해 간단히 언급했습니다. L-Acoustics를 비롯한 프리미엄 스피커 시스템 제조사들이 선택한 MILAN은 AVB 기술의 다음 스텝에 있는 카테고리라고 이해하면 됩니다. AVB의 기술적 특징을 그대로 유지하면서 오디오 제조사들이 함께 이끌어가는 것이 특징이며. AVB 진영에 속한 광범위한 산업계의 필요에 전부 맞출 수 없으니 MILAN 진영을 구성해서 오디오에 특화된 포맷으로 재구성한 것이라고 보면 됩니다.


마지막으로 AVB/TSN 시스템을 구성하기 위한 네트워크 제품의 선택에 대해서는 현재 Cisco 등 대부분의 네트워크 스위치 제조사들은 스위치를 구매 후 라이선스를 추가 구매하는 방법으로 AVB의 호환성을 부여할 수 있으며 Luminex나 biamp, Extreme, L-Acoustics등에서 라이브 프로덕션에 특화된 전용 스위치를 내놓기도 합니다. 혹은 Presonus나 Motu처럼 AVB 포맷을 도입한 제조사들이 호환 네트워크 스위치를 내놓기도 하니 본인이 필요한 기능과 용량을 잘 살펴보고 구매하시기 바랍니다.



이번 세미나는 L-Acoustics의 새로운 A 시리즈가 메인 음향을 구성했습니다. 시장에서 정평난 A.R.C.S의 후속 개념으로 등장한 신제품은 KS21 서브우퍼를 공유하며 top으로 10인치급의 A10과 15인치급의 A15가 라인업에 포진되어 있습니다. 두 제품 모두 wide 모델이 준비되어 있어서 좀 더 넓게 지향각을 형성할 수 있다네요. 가로 및 세로 방향 모두 리깅 및 스택이 가능하며, 새로운 기능적 특징으로는 K2에 채택되어 크게 각광받은 Panflex 기술을 적용해 가로 거치시 수평지향각을 쉽게 바꿀 수 있다고 합니다. A15 모델의 경우 144dBSPL의 강력한 성능을 발휘하기 때문에 중형급 이상의 베뉴에서도 넉넉하게 대응이 가능합니다.





장균철 팀장은 L-Acoustics의 P1 AVB 프로세서도 소개했습니다. 기본적으로 AVB뿐 아니라 AES/EBU, 아날로그 입출력도 갖췄으며 처리할 수 있는 채널은 20x18에 달해 현존하는 시그널 프로세서 중 독보적입니다. 또한 프리미엄 인스톨 현장의 요구에 맞춰 QSC의 Q-SYS 시스템을 통해 외부 콘트롤까지 가능하다네요. 무엇보다도 LA Network Manager와 통합된 콘트롤 인터페이스를 통해 전체 시스템을 쉽고 직관적으로 튜닝이 가능합니다. M1 측정 소프트웨어는 LA Network Manager 3부터는 하나로 통합될 예정이므로 앞으로 좀 더 직관적이고 편리한 사용이 가능해질 것 같습니다. 장균철 팀장은 직접 시연을 하면서 Sound Vision을 통한 시뮬레이션과 현장 측정, 그리고 LA Network Manager를 통한 통합적인 워크플로우를 직접 선보였습니다.



Immersive Sound를 실현하다. L-ISA 시스템

L-Acoustics는 일찍이 Immersive Sound 기술에 집중하면서 강력한 프로세싱 방법론을 제품화시킨 L-ISA를 출시했습니다. L-ISA시스템은 기존의 콘솔과 L-ISA 프로세서, 객체지향 믹싱을 돕는 L-ISA콘트롤러 소프트웨어, LA Network Manager를 이용한 앰프/DSP 콘트롤, Soundvision을 통한 시뮬레이션과 적합한 시스템 튜닝 등이 맞물린 토탈 패키지를 지향합니다. 이렇게 말하면 언뜻 복잡해보이지만 L-ISA는 설치된 스피커 클러스터를 최대한 이용해 각 소스의 패닝은 물론 공간감, 거리, 상하 정보 등을 구현하기 때문에 이런 종합적인 접근이 필수라네요.

L-ISA 시스템의 구현을 위해서는 스피커 배치에 있어서도 기존과는 완전히 다른 접근이 필요합니다. 일반적인 스피커 시스템 설계는 각 클러스터간 간섭을 최대한 적도록 설계하죠. 하지만 L-ISA 시스템에 있어서만큼은 객석 지역에서 모든 클러스터의 소리를 최대한 들을 수 있어야 합니다. 스피커 클러스터의 존재 이유는 소스의 분리 재생을 통한 입체감을 전달하는 것이기 때문이죠. 이를 ‘L-ISA Zone’이라고 합니다. 따라서 L-ISA 시스템의 구현에는 상당히 많은 스피커가 필요하게 되죠. 여기서 중요한 것은 각 스피커 클러스터는 서로 다른 음을 재생한다는 것입니다. 일반적인 상황에서 지나치게 많은 스피커 클러스터는 comb-filter의 문제를 일으킵니다. 하지만 L-ISA는 근본적으로 그런 문제가 없습니다. L-ISA 콘트롤러가 모든 소스를 각 스피커 시스템에 최적화해 분배하기 때문이죠.


L-ISA 프로세서가 내부에서 많은 역할을 하기 때문에 시그널 플로우 자체는 복잡하지 않습니다. 먼저 콘솔에서 어느 정도 정리된 소스를 Optical MADI 혹은 MADI BNC를 통해 L-ISA의 DSP 입력에 배치시킵니다. 모든 입력 채널은 ‘객체(object)’로 다뤄지며 최대 96개의 객체까지 입력이 가능합니다.

사운드 프로세싱은 크게 두 가지로 진행되는데, 하나는 소스에 대한 위치를 선정하는 ‘Spatial Processing’으로 여기에서 패닝, 공간감, 거리감, 상하 위치 등을 부여합니다. 또 하나는 ‘Room Engine’으로 스피커의 오디언스 - 존 안에 들어온 청자들에게 마치 다른 공간에 들어온 듯한 느낌을 주도록 룸의 잔향을 모사하는 것이죠. 이를 통해 믹싱 환경을 상황에 맞게, 콘텐츠에 맞게 완벽하게 변화시킬 수 있게 됩니다.

이렇게 음장감 및 위치정보가 입력된 소스은 출력 루팅에 따라 L-ISA가 알아서 적절하게 분배합니다. 전체 출력 채널은 총 64채널로, 이는 스피커의 개수가 아니라 스피커 클러스터의 개수를 의미합니다. 이 정도면 현존하는 거의 모든 재생환경에 대응하고도 남죠. 실제로 금년 3월 17일의 공연 [Celebrating John Williams]에서도 단 한대의 L-ISA 프로세서만으로 믿겨지지 않을 정도의 음장감을 제공했습니다.


L-ISA Controller 소프트웨어는 96개의 객체와 64개의 스피커 클러스터를 쉽게 콘트롤할 수 있는 편리하고 직관적인 환경을 제공합니다. 윈도우 환경과 맥 환경 모두 작동하며 오프라인 셋업도 지원하기 때문에 실제 시스템을 설치하지 않은 상태에서도 음장감의 프로그래밍이 가능합니다. 전체 스피커 레이아웃은 사용자가 일일히 지정할 필요없이 L-Acoustics의 시뮬레이션 소프트웨어인 Soundvision의 데이터를 직접 받아 자동으로 지정하게 되며 DAW를 통한 포스트 프로덕션 작업을 위해 VST/AAX 플러그인도 지원합니다.

장균철 팀장이 언급한 또 하나의 큰 장점은 L-ISA의 스윗스팟, 즉 앞서 언급한 ‘L-ISA Zone’의 넓이가 일반적으로 스테레오 환경을 구성했을 때보다 훨씬 넓다는 것입니다. 이는 큰 베뉴일수록 효과가 더욱 커지며 ‘전 객석에 균일한 음상과 음압을 공급한다’는 음성 확성의 기초 개념을 충실히 따르는 것이죠.


마지막으로 참석한 분들의 단체샷!





1 0