한 가지 문제에 대해 여러 방식의 해결이 등장하는 것은 매우 당연한 일이다. 각각의 해결 방식이 조금씩 다른 목적을 가지기 때문에 모두 살아남는 경우도 있고, 그 중에서 한 가지 방식이 결국 시장을 차지하게 되기도 한다. 이 보고서의 여러 다른 섹션에 그러한 예들을 거듭 이야기하였다. 이 섹션에서는 그 중에 특히 실시간 통역이라는 문제를 해결하는 세 가지 기기, 곧 구글의 픽셀버드, 일본 소스넥스트의 포키토크, 네이버의 마스를 다루려 한다. 그에 앞서 음성기술에 관해 간단하게 알아보자.
– 음성 기술
애플의 시리와 구글의 구글 어시스턴트가 아이폰과 안드로이드에 포함된 것은 이미 오랜 일이다. 위키는 시리의 출시를 2011년으로 이야기한다. 그러나 2014년 11월 아마존이 내놓은 아마존 에코와 알렉사가 여러 다른 회사들의 서비스와 결합하면서 음성 기술의 새로운 시대가 열리기 시작했다. 이때문에 지난해(2017년)의 CES를 음성기술 대중화의 원년을 알리는 행사로 묘사한 이들이 많았다. 그러나 사실 음성기술은 매우 오랜 역사를 가지고 있으며 그만큼 다양한 기술의 조합으로 이루어진다.
대화는 인간의 가장 근원적인 소통수단이다. 시각은 가장 많은 정보를 수집할 수 있는 감각기관이지만 이는 이미 기록된 정보를 취득할 때(=책을 읽는 등)에만 그렇다. 문자를 아무리 빠르게 치는 이들도 어느 순간 답답함을 느끼고 상대에게 전화를 걸어 대화를 나누게 된다. 또한, 대화는 상대방의 지성을 파악하는 기본적인 도구이며 이때문에 인공지능이 해결해야할 궁극의 문제이기도 하다. 곧 음성기술은 필연적으로 AI 와 연결되게 된다.
음성기술은 다음의 세 단계로 구분할 수 있다.
STT(Speech To Text) —> 자연어처리/AI —> TTS(Text To Speech)
STT 는 음성을 문자(혹은 의미를 나타내는 기호)로 변환하는 기술이다. 이렇게 변환된 문자는 자연어처리, 혹은 AI 인공지능을 통해 해석되며 답변이 만들어진다. 이렇게 만들어진 답변이 다시 음성으로 변환되는 기술을 TTS 라고 한다.
이 중 세번째 단계는 이미 충분한 수준에 올라와 있다. 최근 기계학습을 이용해 유명인의 목소리로 특정한 메시지를 말할 수 있게 만든 영상을 본 이들이 있을 것이다. 그러나 소리를 문자로 바꾸는 첫번째 단계와 바뀐 문자의 의미를 파악하는 두번째 단계는 아직 만족스런 수준에 올라있지 못하다. 첫번째 단계가 만족스럽지 못한 이유는, 이 단계에서 사실상 어느 정도의 두 번째 단계 기술, 곧 의미를 이해하는 기술이 필요하기 때문이다.
이 말은, 우리가 누군가의 말을 들을 때 사실 그가 내는 소리를 그대로 듣는 것이 아니라, 그가 지금 말하는 상황과 맥락을 바탕으로 그가 하고자 하는 말을 예측한다는 뜻이다. 이때문에 다양한 발음의 차이나 사투리, 더듬는 말, 완결되지 않은 문장을 잘 이해할 수 있는 것이다. 외국어를 배울 때 일정한 수준에 오르고 나면 말하기보다 듣기가 어려워지는데, 바로 이 이유 때문이다.
즉, 첫 번째 단계를 잘하기 위해서는 두 번째 단계가 반드시 필요하다는 사실을 말해준다. 하지만 아직 인공지능 기술은 맥락을 이해할 수 있을 정도가 되지 않는다. 이런, 맥락을 이해하지 못하는 문제는 오늘날 음성기술이 다음과 같은 세 가지 문제점을 가지게 만든다.
지난해 CES에서 필자는 알렉사가 적용된 몇몇 제품을 시연해본 적이 있었으나 잘 되지 않았다. 가장 큰 이유는 CES가 매우 시끄러운 장소라는 것이다. 즉, 첫 번째 문제점은 바로 소음과 목소리를 구분하는 문제이다. 조금 더 구체적으로 말하자면, 우리는 파티장에서도 원하는 목소리에 주의를 기울일 수 있다. 바로 앞 사람의 말에 귀 기울일 수도 있으며, 책을 읽는 척 하면서 관심있는 옆 사람의 대화를 들을 수도 있다. 즉, 여기에도 목소리들을 구분하는 능력을 넘어 맥락에 관한 정보가 필요하다. 어떤 기기가 누군가의 지시를 받아야 할 때 그 누군가를 구별할 수 있어야 한다는 것이다.
두번째 문제는 이 기기들이 듣기와 말하기를 동시에 할 수 없다는 것이다. 오늘날 AI 스피커는 시리나 오케이 구글, 알렉사와 같이 어떤 시작 신호를 말로 주어야 대화를 시작할 수 있다. 또한 내가 말을 할 때와 시리가 말을 할 때가 분명하게 구분되어야 한다. 게다가 시리가 내 말을 이해하거나 아니면 자신의 말을 하는 동안에는 내가 말을 할 수 없다. 사실 여기에도 맥락이라는 요소가 등장한다. 인간들 역시 정말로 할 말이 많은 두 사람이 만난 특수한 경우를 제외하면 두 사람이 동시에 말을 지속적으로 하는 경우는 드물다. (물론 가끔, 커피숍에서 이런 경우를 볼 때도 있다. 인간의 능력은 얼마나 대단한지!) 하지만 많은 경우 대화의 흐름에 의해 한 사람의 말이 끝나는 시점과 그가 말을 덧붙이거나 상대방이 말을 시작하는 여부가 어떤 시선이나 음성 외의 정보를 통해 자연스럽게 이어진다. (한 연구는 이 간격이 0.3초 이내임을 보였다.) 때로 여러 사람이 같이 대화하는 상황에서 두 사람이 동시에 말을 시작하는 경우도 있지만 대체로 한 사람이 곧바로 자신의 말을 끊는 방식으로 혼란은 매우 빠르게 정리된다. 이 문제는 첫번째 문제보다 해결이 조금 더 어려울 것으로 보인다.
마지막 세번째 문제가 가장 어려운 문제로, 이들이 아직도 대부분의 말을 알아듣지 못한다는 점이다. 이는 위의 자연어처리/AI 라는 두 번째 단계의 문제이다. 사실 위의 세 단계에서 양쪽, 곧 소리를 문자로, 그리고 문자를 다시 소리로 바꾸는 과정을 떼어내면 그것은 문자로 주어진 입력에 대해 문자로 주어진 출력을 내는 것을 말하며, 다름아닌 챗봇이 된다. 아직 대부분의 챗봇은 우리가 전문가 시스템이라 부르는, 일반적인 ARS 에서 번호를 선택하는 것과 거의 유사한 시스템으로 이루어져 있다. 이런 한정된 문제, 곧 특정 회사의 AS 응대나 물건 구매, 검색 결과의 보고 등 선택의 갯수가 제한된 문제에 대해서는 매우 잘 작동하지만, 보다 일반적인 ‘맥락을 이해하는’ 대화가 가능하기 위해서는 ‘인공일반지능(AGI)’이 필요하다고 알려져 있으며 아직은 매우 어려운 일로 알려져 있다.
물론 이러한 단점에도 불구하고, 기술은 언제나 개선되며 성능 역시 조금씩 나아질 것이다. 조용한 집안에서 한 사람만이 이야기할 때 첫번째 문제는 크게 중요하지 않을 수 있으며, 불을 키거나 음악을 연주하라는 명령만을 내린다면 두번째 문제와 세번째 문제 역시 큰 불편으로 다가오지 않을 것이다. 필자 역시 운전 중에 친구들에게 전화를 걸 때 시리를 자주 사용한다. 단지, 친구 이름을 부르고 “전화해”라고 말했을 때 아이폰에서 그 친구에게 전화를 거는 것이 20년 전 김혜수가 운전을 하면서, “우리~집”이라고 부르던 그 광고와 어떤 차이가 있을지 때로 궁금할 뿐이다.
1. 실시간 통역
이번 꼭지에서는 구글의 픽셀버드, 네이버의 마스, 일본 소스넥스트의 포케토크를 볼 것이다. 위에서 음성기술에 대해 간략하게 설명했지만 실시간 통역은 사실 위의 세 단계 중 가운데 ‘자연어처리/AI’ 단계가 ‘번역’으로 바뀐 것일 뿐이다. 즉, 구글의 픽셀버드는 구글 번역을, 네이버의 마스는 파파고 번역을, 포케토크는 언어에 따라 구글 번역, 혹은 바이두를 이용한다고 한다.
결국 이 세 기기 또한 위에 지적한 문제들을 가지고 있다. 하지만 흥미롭게도 세 기기가 그 문제를 해결하는 방식이 모두 다르다. 조금 더 구체적으로 말하자면, 통역에는 두 단계가 존재한다. 하나는 나의 말을 상대방의 언어로 바꾸어 상대방에게 들려주는 것이며, 다른 하나는 상대방의 말을 내 언어로 바꾸어 나에게 들려주는 것이다. 첫 번째 단계는 나의 입과 상대의 귀 사이에 필요한 번역기이며, 두 번째 단계는 상대의 입과 내 귀 사이에 있어야 하는 번역기를 의미한다. 아래 세 가지 기기가 이 문제를 어떻게 해결했는지를 보자. 참고로, 픽셀버드와 마스는 이어폰이며 포케토크는 손바닥에 들어가는 기기이다.
1) 구글 픽셀버드
구글은 지난 12월 $159 (약 18만원)에 픽셀버드를 출시했다. 픽셀버드의 사용법은 이러하다. 나는 픽셀버드를 귀에 착용한다. 그 상태에서 나는 내 스마트폰을 상대에게 향한다. 나의 목소리는 내 픽셀버드가 듣고 내 스마트폰으로 보낸다. 스마트폰은 이를 번역해 음성으로 바꾸어 상대에게 들려준다. 상대는 그 말을 듣고 자신의 언어로 답하며, 스마트폰은 이를 듣고 나의 언어로 번역해 내 귀의 픽셀버드를 통해 내게 들려준다. 잘 생각해보면 알겠지만, 사실 픽셀버드는 흔한 블루투스 이어폰에 적절한 UI를 입힌 다음 두 사람이 이어폰과 스마트폰을 나눠 가지게 만들어 문제를 해결한 것이다. 지금은 구글의 픽셀 스마트폰과만 이런 기능을 쓸 수 있지만 아마 여느 블루투스 이어폰과 안드로이드 스마트폰으로도 곧 이런 비슷한 기능이 가능하게 될 것이다.
Figure 33 구글 픽셀버드
2) 포케토크(Pocketalk)
일본 소스넥스트사의 포케토크(Pocketalk)는 $300 의 가격으로 판매중인 제품이다. 사용법은 포케토크에 대고 말을 하면, 내가 설정한 다른 언어로 이를 번역해 화면에 띄워주는 것이다. (홈페이지에는 74개 언어가 가능하다고 나와있다.) 또한 상대가 그 언어로 말을 하면, 다시 나의 언어로 번역해 화면에 띄워주므로, 나는 그 내용을 보고 상대의 말을 이해할 수 있다. 곧, 입력은 음성으로, 출력은 문자로 라는, 위 음성기술에 대한 설명에서 언급했던 가장 효율적인 커뮤니케이션 방법을 사용한 것이다. 포케토크 또한 인터넷 번역기를 이용하는데 (와이파이 또는 데이터 네트웍을 사용한다) 구글, 바이두 등 다양한 번역기를 이용한다고 되어 있다.
사용법이 매우 간편하므로, 편의성은 일견 가장 뛰어나다고 볼 수 있다. 그러나 잘 생각해보면, 우리가 가진 스마트폰의 통역 앱(예를 들어 구글 Translate)에서 이미 가능한 방법이다. 그래서인지 이들의 홈페이지에서도 스마트폰보다 디자인, 마이크, 스피커, 배터리 등이 더 낫다고 이야기하고 있다.
Figure 34 소스넥스트 사의 포케토크
3) 네이버 마스(MARS)
네이버 마스는 이어폰 하나를 상대에게 주는 조금 더 진화된 UX를 가지고 있다. 곧, 나의 말은 내 이어폰에 달린 스피커로 듣고, 이 말을 연결된 스마트폰을 통해 인터넷 번역기 – 네이버 파파고 – 로 번역한 후, 다시 상대의 이어폰으로 보내어 상대의 귀에 들려준다. 상대의 말은 상대의 이어폰에 달린 스피커로 들은 후, 스마트폰을 통해 번역 된 다음 내 이어폰으로 전달된다. 분명히 조금 더 진보된 방식이지만, 어떤 기술적 문제 때문인지 당시에도 시연을 하지 않았고 1년이 지난 지금도 출시를 하지 않고 있다. 당시 예상 출시 가격을 물었을때는 30만원 정도라는 답을 들었다. 타인의 어떤 제품을 내 귀에 넣거나, 내 물건을 타인의 귀에 넣게 하는게 어떤 위생적인 문제가 있을 수 있고, 별로 중요하지 않거나 아니면 매우 치명적인 문제가 될 수 있을 것 같다.
Figure 35 네이버 마스(Mars)
2.힙에어(HIP’AIR) vs 이본(eVONE)
이 두 제품은 넘어지거나 떨어져서 다치는 현상을 일컫는 낙상 문제를 다른 방식으로 해결한다. 최근 한 언론은 ‘노년기 낙상이 암보다 위험하다’는 제목의 기사를 실었다. 이 기사에 따르면 노인 3명 중 1명이 1년에 한 번 이상 넘어지며, 넘어져서 고관절 골절이 일어날 경우 1년내 사망할 확률이 17%에 이른다는 것이다.
어떻게 이 문제를 해결할 수 있을까? 넘어져서 생기는 부상을 막기 위해서는 넘어지지 않게 만들어야 할 것이다. 하지만 어떻게 해야 넘어지지 않도록 만들 수 있을까? 그러나 안타깝게도 아직 기술은 이 문제를 깔끔하게 풀 수 있을 정도는 되지 않는듯 하다. 그러나 아래 두 제품은 나름대로 현실을 개선시킨다.
1) 프랑스 회사인 이본(eVONE)이 만드는 것은 스마트슈즈이다. 이본의 신발에는 통신을 위한 GSM 칩, 위치를 알기 위한 GPS 센서, 그리고 자세 파악을 위한 자이로 센서와 가속도 센서, 압력 센서가 들어 있다. 이를 통해 이 신발은 착용자가 중심을 잃고 넘어졌을 때 이를 미리 정해진 보호자에게 알린다. 곧, 이 신발이 해결하는 문제는 넘어진 이후 주위에 사람이 없어 빨리 의료기관으로 옮겨지지 못하는 상황을 막는 것이다.
Figure 36 스마트 슈즈 e-VONE
6개월 내에 출시예정이며 신발의 가격은 $100 ~ $150 (약 11-17만원) 으로 보통 신발과 비슷하지만 통신비용으로 매달 $20 (약 2만원)을 내야한다.
2) 힙에어(HIP’AIR)
힙에어 역시 프랑스 회사이다. 이 제품 또한 위의 이본처럼 넘어지는 것을 막지는 못하지만 그래도 더 능동적으로 문제를 해결한다. 아래 사진이 직관적으로 보여주는 것처럼 힙에어는 엉덩이를 위한 에어백이다. 힙에어 벨트의 센서는 착용자가 넘어지는 것을 감지해 0.2초 안에 부풀어 올라 고관절 부상을 막는다. (운이 없어 머리 부상을 입지는 않을까? 물론 CES 에는 목에 착용하는 에어백 헬멧도 있었다.)
Figure 37 낙상 방지 에어백 힙에어
역시 올 상반기 출시 예정으로 가격은 $800(약 90만원)로 저렴하지는 않다. 한 가지 우려는 매번 외출할 때마다 이 벨트를 차는 것이 귀찮기도 할 뿐 아니라 미관상으로도 좋지 않을 것 같다는 점이다. 바지에 내장될 수 있을 정도로 작아진다면 이 문제는 해결될 수 있을 것이다.
3. 아이빗(iBeat) vs 소피허브(Sofihub)
아이빗과 소피허브 역시 노인을 위한 제품이지만 낙상을 포함해 좀 더 넓은 의미에서 노인의 안전을 다룬다. 곧, 노인에게 어떤 문제가 생겼을 때 이를 보호자에게 알리는 방법을 각각 다른 방식으로 제공하는 것이다.
1) 아이빗(iBeat)
아이빗은 노인을 위한 스마트워치로 심박수를 체크한다. 즉 심정지(Heart attack)에 의해 심박수가 떨어졌을 때 이를 보호자에게 알린다. 이 외에도 비상 버튼을 누르면 보호자와 통화가 가능하다.
Figure 38 스마트워치 아이빗
인디고고에서 2016년 펀딩을 진행했고 2017년 여름 출시를 목표로 삼았지만 현재 2018년 3월로 옮겨진 상태이다. 당시 가격은 $100 이었지만 전시장의 직원은 가격을 $180이라 말했다.
2) 소피허브(Sofihub)
호주 스타트업인 소피허브는 집안에 방마다 배치하는 스마트 스피커를 통해 노인의 안전을 확인한다. 8개의 스피커가 한 세트로 가격은 $2,000 (약 220만원)이며, 스피커에는 동작감지센서가 달려 있어 노인의 움직임을 파악한다. 스피커는 각 방과 거실에 놓을 수 있으며 일정과 메시지를 알려줄 수 있다. 행동에 이상이 감지될 경우 스피커는 주인이 괜찮은지를 물어보고 여기에 답하거나 버튼을 눌러 괜찮다는 응답을 하지 않을 경우 보호자에게 연락이 가게 된다.
Figure 39 소피 허브
6. 같은 기술, 다른 용도