세미나 스케치-Immersive Sound 오픈 세미나 at 안양창업지원센터

운영진
2019-12-18
조회수 63

선사시대의 벽화 혹은 고대의 조각물로부터 시작되었다고 추정되는 문화 콘텐츠의 역사는 실로 다양한 표현 양식을 사용하며 발전해왔습니다. 공연 콘텐츠의 시류라고 봐야 할 연극이나 노래, 시, 그리고 유럽 교회 건축에서 흔히 볼 수 있는 스테인드 글라스나 벽화, 다양한 분야의 그림들, 음악들까지. 모든 문화 콘텐츠들은 인간의 오감을 매개체로 하여 현실감과 비현실감을 교묘하게 오가게 하며 전달력을 극대화해왔죠.

기술의 발전은 문화 콘텐츠의 표현 방법론에 대해 새로운 시대를 열면서 지금까지 역사의 전환점을 만들고 있습니다. 최근 다양한 분야에서 거론되는 것이 바로 ‘실감형’, 혹은 ‘몰입형’이라고 일컬어지는 표현 방법론인데요, 인간의 시각 뿐 아니라 청각, 촉각 등을 복합적으로 이용해 현실감을 극대화 시키는 것을 넘어 비현실적인 가상 현실(Virtual Reality)을 전달하는 것으로 발전하고 있습니다.

사실 이것이 거론된 것은 꽤나 오래된 일이지만 본격적으로 실용화되고 콘텐츠가 나오기까지는 꽤 오랜 시간이 걸렸죠. 인간의 감각을 속이는(?) 것은 생각보다 어렵기 때문입니다. 결국 세월이 흘러 실시간 연산을 위한 충분한 컴퓨팅 파워, 콘텐츠 전송을 위한 광대역 전송 기술 무엇보다도 콘텐츠 배포 및 감상을 위한 전국적인 네트워크망과 고성능 단말기들이 보급된 지금에서야 실용화를 앞두고 있습니다.

영상에 있어서는 최근 FPS게임 등의 상업적 성공과 4k 영상, 그리고 144Hz 이상의 주사율을 표현하는 기술들이 선보이며 어느 정도 윤곽이 보이는듯 합니다. 하지만 음성에 있어서는 아직도 갈 길이 멀죠.

최근 Dolby Atmos나 Auro 3D  등이 등장하며 서라운드에 이어 3차원 음장을 표현하는 기술이 선보이고 있으며 앞서가는 소수의 프로페셔널 스피커 제조사들은 객체 방식의 믹싱 방법과 다중 스피커 배치를 이용한 Immersive Audio 하드웨어들을 내놓고 있으나 통일된 어떤 방법론이나 툴, 표준 등은 전혀 정립되어 있지 않아서 도리어 혼란만 가중시킬 뿐입니다.

가장 문제가 되는 것은 콘텐츠를 만드는 측의 입장인데요, 어떤 한 포맷을 선택해서 모처럼 콘텐츠를 만든다고 해도 다른 포맷을 가진 환경에서 의도했던대로 재생이 이루어지지 않을 가능성이 현재로써는 현저히 높기 때문에 많은 제작자들이 신기술 도입에 선뜻 나서지 못하고 있는 형편입니다.

성결대학교는 지난 11월 23일, 입체음향실과 XR센터(센터장; 유현식 겸임교수)를 개소했습니다. 또한 학생들 뿐 아니라 안양시 관내지역 청년들을 대상으로 Immersive Sound에 관한 다양한 특강들을 꾸준히 개최하고 있는데요.

이번에 ‘콘텐츠원캠퍼스 구축운영’ 사업의 일환으로 기획된 [실감형 콘텐츠를 위한 몰입형 사운드] 세미나는 모든 참석자들에게 무료로 제공되어 성결대학교의 학생들 뿐 아니라 안양시를 비롯한 인근 지역의 청년들이 부담없이 최신 기술에 대한 정보를 얻을 수 있었습니다.

이번 프로젝트는 문화체육관광부와 한국콘텐츠진흥원, 그리고 안양창조산업진흥원의 지원과 더불어 성결대학교와 XR센터의 주도적인 참여, 그리고 강사로 참여한 박신정 연구소장(임산업)과 허대겸 대표(토포스)의 강의로 참석자들에게 기술적, 예술적 영감과 도전 정신을 전달했습니다. 세미나는 11월 28일(목), 아늑한 분위기의 안양창업지원센터에서 열렸습니다.



세션1. 다수의 청중을 위한 몰입형 사운드

유현식 XR센터장의 인사 및 소개로 시작된 이번 세미나의 첫 번째 시간은 (주)임산업에서 Forceon 브랜드 스피커 시스템과 LEEM 브랜드 스피커 시스템의 개발을 총괄하는 박신정 연구소장이 ‘다수의 청중을 위한 몰입형 사운드’에 대해 다뤘습니다.

그는 “강연 요청을 받고 고민이 많았다. 왜냐하면 아직 생소한 분야라 청중들의 관심이 많지 않을까 우려되었기 때문”이라면서 “또 어려운 점은 이 분야가 워낙 생소하다보니 정립된 표준 같은 것이 없다. 현재 많은 방식들이 등장하며 경쟁중인데 시네마 분야를 제외하고는 딱히 정리되어 있지 않기 때문에 주제가 매우 복잡하며 기술들도 다양하다. 그래서 발표하는 것이 매우 조심스럽다”며 “오늘은 이에 따라 다소 가볍게 개론 정도만 다뤄 보겠다. 기술적으로 깊이 들어가는 강연은 차후에 기회가 있다면 해보겠다”고 설명했습니다.

그가 이번 강연에서 주로 이야기한 것은 ‘경험의 공유’의 측면에서 몰입형 사운드를 다루는 것입니다. 그는 “관객과 공연을 펼치는 퍼포머가 같은 경험과 같은 감정을 공유하는 것은 굉장히 흥분되는 일”이라면서 “콘텐츠를 만드는 것은 결국 혼자 보기 위해서가 아니라 공감하고 같이 즐기기 위해서이다. 사운드 하드웨어 및 기술도 이 관점에서 바라봐야 한다”고 견해를 밝혔습니다.

사실, (주)임산업은 오랫동안 이와 관련된 일을 해왔는데요, 같은 공간에서 같은 사운드를 공유하는 일은 100~200명 정도의 규모라면 쉬운 일일 수 있지만 5천명, 혹은 수만 명이 넘어가면 전혀 새로운 기술이 필요해집니다. (주)임산업은 약 30년 간 이런 기술을 연구해온 제조사입니다.

대형 공연 문화가 대중화된지 오랜 시간이 흘렀지만 지금까지는 영미 및 유럽 일부 국가들을 비롯한 선진국만의 영역이었습니다. 하지만 이제는 ‘한류’ 덕분에 한국의 가수들이 빌보드 차트에 이름을 올리기 시작했으며 이에 따라 임산업도 해외의 주요 장비 제조업체와 같은 기술적 수준에 맞춘 시스템을 생산하고 있습니다. 이에 따라 송도 문화축제나 평창 동계올림픽과 같은 초대형 이벤트에 스피커 시스템을 공급, 그 성능을 증명해내기도 했죠.

박신정 연구소장은 “이러한 (주)임산업의 연구소를 이끌고 기술의 다음 단계를 연구해야 하는 것이 나의 일”이라면서 “현재는 많은 스피커 제조사들이 입체 음향에 큰 관심을 갖고 관련 제품들을 속속 개발하고 출시하고 있다”고 시장 동향을 설명했습니다. 사실 이것은 다분히 영업적인 이유가 커서, 지금까지 스테레오 시스템만으로 음향을 공급해야 했다면 Immersive Sound 시스템으로 넘어가면 훨씬 더 많은 스피커를 팔 수 있기 때문이기도 합니다.

그는 현재의 Immersive Sound 시스템을 본격적으로 논하면서 “가장 많이 거론되는 것이 바로 시네마 시장이다. 이는 일반인 입장에서 가장 좋은 소리를 들을 수 있는 환경이면서도 프로덕션, 즉 믹싱 환경과 소비자가 듣는 환경이 가장 일치되는 시스템이다. 쉽게 말해 만드는 사람과 듣는 소비자의 재생 환경이 가장 유사하기 때문에 만족감이 높을 수 밖에 없다”면서 “하지만 음악의 경우는 완전히 다르다. 프로덕션 과정에서의 믹싱 환경과 일반인의 청취 환경은 현격히 다르며 소비자들끼리의 청취 환경도 전부 제각각이다. 또한 앨범과 공연실황에서의 상황 및 소비자의 요구가 현격히 다르기 때문에 문제를 해결하기가 매우 어렵다”고 말했습니다. “결국 다른 곳, 다른 환경에서 제작자가 의도한 바로 그 사운드와 느낌이 그대로 재생될 수 있는지에 대한 질문이 선행되어야 하며, 이는 매우 어려운 문제”라는 것입니다.

또한 시스템의 구축 비용 또한 문제입니다. “성결대학교의 XR센터에는 Dolby Atmos 표준에 준하는 스튜디오가 있는데, 이와 같은 환경을 구축하려면 예산이 많이 든다. 시네마 뿐 아니라 VR, AR 콘텐츠도 마찬가지다. 결국 대부분의 상황은 정확한 모니터링조차 안되는 상황에서 콘텐츠를 만들어야 하며, 자신이 만들어낸 콘텐츠가 어떻게 재생될지 예측이 거의 불가능한 상황이 된다”며 현장의 실제적인 어려움을 설명했습니다.

박신정 연구소장은 “콘텐츠 제작 및 유통은 배포 전 단계의 프로덕션인 A 체인과 배포 후 어떻게 재생할 것인지에 대한 B체인으로 크게 나눌 수 있다”면서 “제작자의 의도를 잘 재현하는 것, 즉 B체인에 관한 것이 (주)임산업의 관심사이다. 이 경우 표준 제정이 중요하다. 시네마 시장은 비교적 표준 제정이 잘 된 편”이라고 말했습니다.

이를 전제로 한 해결책으로 그는 “소스를 잡고 프로덕션하고 유통 및 배포부터 재생단계까지 워크플로우가 제대로 정립되어 있어야 한다”고 말했습니다. 그는 현재 연구중인 소프트웨어와 다양한 플러그인들에 대해 논하면서 “어떤 포맷으로 재생할지를 결정하는 마스터 트랜스코더의 역할이 매우 중요하다”고 설명했습니다.

그는 이어서 현재 가상으로 음원의 위치를 배치하는 기술의 이론적 근거에 관해 논했습니다. 먼저 거론된 기술은 VBAP(Vector Base Amplitude Panning)인데요, 이것은 스피커의 음량과 위치를 벡터로 표현해 각 벡터의 합으로 가상 이미지를 생성하는 방식을 말합니다. 기술적으로 단순하며 스피커가 많을수록 표현력이 증가한다는 특성이 있습니다. 하지만 스피커를 무한정 늘릴 수도 없고 소리의 표현은 음량과 위치로만 되는 것이 아니기에 추가적인 기술들이 필요하죠.

이어서 언급된 것은 음원의 위치를 잡아내고, 또 재분배 하는 기술로 마이크로폰 테크닉으로도 자주 쓰이는 Ambisonics입니다. 그 중 고차 앰비소닉이라고 일컬어지는 HOA(High Order Ambisonics)는 편집이 쉽고 다양한 포맷으로 변화시키기가 쉬워서 최근 주목받고 있죠. 하지만 실제로 사용해보면 음상의 불일치가 다소 존재합니다. 특히 4개의 마이크를 사용하는 1차 앰비소닉 마이크 테크닉의 경우 음영지역이 많습니다. 심지어 3차 앰비소닉조차 모든 면의 소리를 정확하게 표현하는 것이 불가능하죠.

최근 주목받고 있는 Immersive Sound 관련 기술은 WFS(Wave Field Synth)입니다. 이는 스피커가 형성하는 가상의 면보다 밖에 있는 소리를 표현하려는 기술로 공간을 재구성하는 것을 목표로 합니다. 박신정 연구소장은 이에 대해 “고성능의 프로세서가 필요하며 스피커의 배치에 큰 제한을 받는다. 쉽게 말해 프로덕션 상황과 콘텐츠 소비 상황을 최대한 일치시켜야 한다. 객체지향 믹싱 기술을 사용해야 하는 방법들이 대부분이며, 좌표정보를 갖고 있는 음원에 대해 따로 렌더링을 해야 하기 때문에 프로세싱 자원이 많이 필요하다. 최근 많이 연구되고 있는데 비용상, 구현의 복잡함 등으로 현실적 한계가 있다. 브로드웨이나 라스베가스면 가능할지도 모르겠지만 대부분은 어렵다”고 설명했습니다.

이처럼 많은 어려움과 한계점에도 불구하고 Immersive Sound를 왜 연구해야 할까요? 그는 이에 대해 “입체 음향은 음악 표현을 더욱 풍성하게 만든다. 해외의 경우 클럽 음향 시스템도 입체 음향을 사용하는 경우가 많다. Ableton Live에서 입체음향 특수효과를 적용할 수 있는 플러그인들이 많아서 다양한 분야에서 이용된다. 공간을 바꾸는 느낌으로 쓸 수도 있다. 예를들어 동굴 혹은 숲 속, 바닷가 등에 있는 느낌을 모사하는 것이다”라며 “현재 (주)임산업은 3개의 레이어, 각 레이어당 8개의 스피커로 구성된 스피커 리그로 다양한 실험들을 하고 있다. Dolby Atmos 형태로 제작된 음악 콘텐츠에 대해서도 연구하고 있다. 워크 플로우를 언급한 이유도 이와 관련이 있다. 현재로는 Immsersive Sound 콘텐츠를 만들어도 배포할 방법이 없다. 현실적으로 배포가 가능한 이머시브 포맷은 Dolby Atmos나 Auro 3D 정도이며, 혹은 UHD 표준으로 정해진 Mpeg-H 를 꼽을 수 있다”라고 밝혔습니다.

박신정 연구소장은 마지막으로 앞으로의 연구 분야와 신기술에 대해 다뤘습니다. 그는 “라이브 공연에서 입체 음향을 어떻게 구현할 것인가가 숙제이자 많은 회사들이 도전하고 있는 분야이며 이 분야에서는 L-Acoustics의 L-ISA가 유명하다”면서 “현재 전문적인 사운드/오디오 컨설팅 그룹인 AlGruppe과 함게 요가와 관련된 콘텐츠를 구상하고 있다. 명상에 도움을 주는, 마치 새로운 공간에 온 것과 같은 경험을 제공하는 것이 목표”라고 말했습니다.

또하나 그가 언급한 주제는 ‘가변 잔향 시스템’입니다. 이는 건축 음향의 한계를 극복하는 또 다른 방법입니다. 사실, 평원, 강, 바다 등에서는 거의 울림이 없죠. 그런데 동굴과 같은 곳에서는 잔향이 생기며 그 잔향의 크기에 따라 인간은 독특한 감정을 갖게 됩니다. 작은 목소리로 많은 청중들에게 메시지를 전달해야 하는 현실적 필요에 의해, 그리고 독특하고 엄숙한 분위기의 연출을 위해 교회 같은 곳에서 잔향을 면밀하게 연출할 수 있도록 설계했습니다. 그런데 현대에서는 전기 음향을 사용하며, 콘텐츠들도 다양해져서 다양한 잔향 시간을 확보해야 할 필요성이 생겼습니다. 가장 큰 문제는 건축음향은 한 번 지어놓으면 잔향 변경이 실질적으로 거의 불가능하다는 것이죠. 기계적인 반사판의 조정 등으로 가능은 하지만 효율이 매우 떨어지며 가변 폭도 크지 않기에 별로 소용이 없다는 것이 증명되었습니다. 이 상황에서 주목받는 것이 바로 가변잔향 시스템입니다. 현재 Meyer Sound, Yamaha 등의 메이저 제조사는 물론 SIAP 까지 다양한 회사들이 관련 솔루션을 선보이고 있죠. (주)임산업도 현재 관련한 솔루션을 개발 중이며 곧 출시를 앞두고 있다고 합니다.

(주)임산업은 이 외에도 현재 우수하면서도 합리적인 가격의 스피커 시스템, Immersive Sound 구현에 대한 노하우를 통해 AlGruppe, 소닉티어 등 높은 기술력을 갖고 있는 국내 업체와 협력해서 프로젝트를 진행하며 Immersive Sound 시스템의 대중화 및 인식 제고에 노력을 기울이고 있습니다.

박신정 연구 소장은 세미나를 마치면서 “한국의 독자적인 고급 콘텐츠를 독자적인 기술로, 독자적인 하드웨어를 사용해서 즐길 수 있는 날을 꿈꾸며 열심히 기술력 개발에 매진할 것”이라고 말했습니다.


세션2. 인터페이스로써 몸

두 번째 세션 ‘인터페이스로써 몸’을 강의한 허대겸 대표는 VR콘텐츠 기획자 및 실감매체 연구자로서, 현재 NIPA-한국 정보통신 산업진흥원 집필위원으로도 활동하고 있습니다다. The School of The Art Institute of Chicago에서 뉴미디어 관련 석사를 취득했으며 University of Aberdeen, U.K.에서 Immersive Media 관련 박사 과정을 수료했습니다다. 그는 비록 사운드/오디오 분야의 전문가는 아니지만 이번 강연에서 관련 콘텐츠를 기획하는 입장에서 다양한 관점을 제시하면서 참석자들에게 신선한 충격을 던졌습니다.

그는 VR콘텐츠의 역사에 대해 다루면서 “과거에는 그림, 건축, 음악 등으로 현실감을 전달하려 노력했다”면서 “VR에 대한 개념이 처음 제시된 것은 독일의 Herman Von Helmholtz가 ‘3차원 이미지의 생리학’에 대해 주장하면서부터”라고 설명했습니다. 예전이나 지금이나 늘 변함없이 VR이 중요하게 다뤄지는 것은 바로 ‘군사’ 영역에서의 활용입니다. 시장도 충분히 크고 상업성이 있으며 기술의 요구 수준이 높기 때문이죠.

그는 초기의 VR을 다루면서 ‘파노라마’라는 표현 양식을 소개했습니다. 이는 일종의 전시 형태로, 축구장에 육박하는 큰 건물의 내벽에 정교한 그림과 그에 어울리는 전시물들이 조합되어 현실감을 더한 것입니다. 적절한 이미지와의 거리와 압도적인 사이즈 때문에 현재 기준으로도 생각보다 나쁘지 않은 현실감을 구현할 수 있었다고 합니다다. 현재는 거의 찾아볼 수 없으나 18~19세기, 대영제국, 프러시아, 이탈리아 등에서 유행했으며, 그만큼 과시할 것이 많은 ‘제국 시대’의 산물이라고 할 수 있습니다.

최초의 파노라마는 스코틀랜드에 주둔했던 영국의 군인들에게 에든버러 지역의 지형을 잘 파악할 수 있도록 하기 위해 만든 것이라고 합니다. 최초의 VR 콘텐츠도 월남전에 참전한 공군들에게 지형을 익숙하게 만들기 위해 만든 것이라고 하니 그 목적이나 성격에 있어서 대단히 흡사하다고 할 수 있겠네요.

현재 파노라마 전시는 북한 만수대 창작사 해외사업부가 캄보디아 씨엠립에 조성한 ‘앙코르 파노라마 박물관’이 대표적인데요, 물론 현대인들은 대상을 인식하는 방법이나 마인드가 예전과는 많이 다르기 때문에 다소 심심하게 여겨질 수 있지만 규모나 정밀도, 예술성에 있어서 수준이 높은 편이라고 합니다. 이처럼 실감 매체의 특징은 개인의 기록보다는 국가나 사회의 기록을 구현하는데 많이 쓰입니다.

또 하나 주목할 것은 ‘로툰다’라는 건축 양식입니다. 이는 천장이 돔으로 이뤄진 원형이나 타원형의 대형 홀을 말하며 역사적으로는 기념 혹은 신전의 용도로 쓰였습니다. 오늘날 로툰다 양식의 건물은 추모 공간에서 주로 채택됩니다. 결국 이 역시 집단의 기억을 공유하고 재현하는 것이며, 이를 VR로 구현한 것이 제주도 4.3 사건 추모를 위한 VR 콘텐츠입니다. 여기에는 가상의 로툰다 건축물 한 가운데에 놓여진 의자에 희생자들의 영상이 재생되죠.

현재 VR콘텐츠나 AR(증강현실)을 다루는데 있어서는 두 가지 방법론이 존재하는데요, 하나는 ‘내’가 ‘외부 환경을 인식’하는 것으로 이를 ‘인사이드-아웃’ 방식이라고 합니다. 반대로 공간 안에 있는 ‘나의 위치’를 인식하는 방식이 있는데 이를 ‘아웃사이드-인’ 방식이라고 합니다. 증강현실을 다룬 드라마인 [알함브라 궁전의 추억]에서 등장하는 기술이 바로 아웃사이드-인 방식을 활용한 것입니다.

이어서 그가 다룬 주제는 ‘인터페이스’입니다. 지금까지도 선호되는 커뮤니케이션 및 입력 방식은 키보드 등을 사용한 문자 방식의 명령이죠. 이는 구현이 쉽고 에러가 적은 장점이 있으나 직관적이지 않습니다. 이후 Windows나 Mac OS가 개발되면서 마우스 등을 이용한 GUI 방식이 등장했죠. 현재 주로 거론되는 것은 Natural UI입니다. 이는 사용자의 말이나 행동에 기반한 것으로 최근 유행하고 있는 AI 스피커나 스마트폰의 음성인식이 바로 이에 속합니다.

오늘의 주제인 ‘몸을 사용한 인터페이스’는 Natural UI보다 더욱 발전된 개념입니다. 예컨대 말로 명령하는 것은 아직은 정확한 명령이 필요하며 의식적으로 발화해야 합니다. 하지만 의지와 감정이 무의식적으로 몸으로 표출되는 것까지는 아직 쉽지 않습니다. ‘몸을 사용한 인터페이스’는 이런 단계까지 다루기에 더욱 많은 것을 할 수 있습니다. 예컨대 인체의 홍채를 인식해서 편의점이나 백화점 등에 진열된 많은 상품들 중 눈이 무의식적으로 어디에 향하는지를 분석해서 그 사람의 현재 감정이나 욕구를 알 수 있으며 이를 마케팅 자료로 활용이 가능한 것입니다.

그는 VR콘텐츠의 한계에 대해서도 말했습니다. 그가 말한 가장 큰 기술적인 제약은 ‘집단 체험이 어렵다’는 것입니다. 그는 “예술 문화 체험에 있어서 본질적인 부분은 ‘집단체험’”이라면서 “예컨대 미술 작품을 관람할 때 혼자 그림을 이해하는 것으로 생각하기 쉽지만 사실 그림을 완벽하게 스스로 이해하는 사람은 드물다”며 “사실은 같은 공간 안에 있는 서로 다른 사람들과 영향을 주고 받는 것이 매우 중요하다”고 말했습니다.

이를 극복하기 위해서는 기술적인 면에서 해결이 되어야 하는데요, 가장 시급한 것은 체험자의 위치 센싱입니다. 집단 체험이 되려면 중극장, 대극장 이상의 넓이가 되어야 하는데 그 정도 넓이를 커버하는 정밀한 위치 센서를 개발하는 것이 현실적으로 쉽지 않습니다.

현재 몸을 인터페이스로 사용하는 방식은 두 가지로 하나는 환경 안에서 몸의 위치나 제스춰를 인식하는 방식입니다. 기본적으로는 자동문이 이와 같은 형태이며 정밀하게는 카메라 등으로 몸의 위치, 모션 등을 캡춰하는 것입니다. 두 번째 방법은 장치가 몸의 일부가 되는 것으로 스마트워치나 HMD 등의 장비가 대표적입니다. 토포스는 현재 두 가지 방식을 모두 사용해 직관적인 경험을 제공하는 전시회를 열고 있습니다.

특히 카메라로 위치센싱을 하는데 있어서는 일반적인 CCTV용 카메라가 아닌, 로보틱스용 카메라를 사용해 단 한대의 PC로도 매우 빠른 반응이 가능하며, 단 하나의 카메라로도 매우 넓은 지역을 커버하는 것이 특징입니다. 또한 게임 엔진 등에 참여자의 위치 정보를 인식시킬 수도 있죠. 현재 기술로는 카메라 1대당 최대 60㎡까지 커버가 가능하며 카메라를 추가하면 공간을 마음껏 늘릴 수 있다고 합니다.

그는 세미나를 마치며 “앞으로 계획은 증강현실 시스템에서 사운드 뿐 아니라 스마트 글라스를 활용해 아웃사이드-인 방식으로 구현하는 시스템을 만들어보고싶다. 현재 이런 방식을 사용하는 방식은 거의 없다. 이걸 실현하는 것이 당면과제”라고 밝혔습니다.

0 0