인공지능(AI) 분야는 수많은 산업에 끊임없는 변화를 일으키고 있다. 대표적인 분야가 언어다. 인공지능의 언어능력은 소설, 수필 등 창작의 영역까지도 넘보고 있다. 다만 언어에 감정을 불어넣는 일은 초기 단계다.
차세대 음성 합성 플랫폼 기업 '로보(LOVO)'는 음성인식과 감정을 파악하는 기술에 주목, 인공지능의 감정 영역에 발을 들여 놓은 기업이다.
최우용 로보 대표는 서울 강남 본사에서 가진 이투데이와 인터뷰에서 “사람들의 심금을 울리고 감정적인 교류가 가능한 인공지능 음성 합성 플랫폼을 만들고 있다”며 “로보의 미래 가치는 인공지능과 사람의 공생”이라고 밝혔다.
이어 “인공지능 음성이 사람의 영역을 대처하는 것이 아니라 편익을 늘리는 역할을 할 것”이라며 “△본인의 목소리 △사랑하는 사람의 목소리 △소속 연예인 등의 목소리 등을 복제해 브랜드 상품을 만들 수도 있다”고 말했다.
최 대표는 UC버클리에서 화학공학과를 전공하고 조지아대 공과대학 대학원에서 컴퓨터공학을 배웠다.
첫 스타트업 창업은 공기오염도 센서 기업에서 기술 부문 CTO로 일했고, 이번 창업이 두 번째다. 그는 조지아대 재학 당시 인공지능과 언어학습을 공부했으며, 현재 창업의 출발점은 감정을 인공지능에 적용, 감정 노동자들의 삶의 질을 개선하고자 하는 것에서 시작됐다.
최 대표는 “처음엔 음성을 인식해 해당 목소리에 있는 감정을 파악하는 기술에 집중했다”며 “대표적인 프로젝트가 콜센터에 고객이 전화를 걸었을 때 처음 몇 문장만으로 해당 고객의 기분과 감정을 파악하는 것이었고, 상담원이 바로 적절한 반응을 할 수 있게 했다”고 설명했다.
그러면서 “해당 프로젝트는 안내원의 목소리를 분석해 피로도, 감정 상태, 컨디션 등을 파악해 다른 동료와 교체를 하는 등의 실험을 했다”며 “약 2년간의 기간 동안 많은 연구와 과제가 진행됐고, 자사 기술은 감정을 인식했던 노하우를 기반으로 감정을 입힌 음성을 생성하는 쪽으로 발전했다”고 덧붙였다.
로보는 오랜 연구 끝에 2020년 1월 서비스를 출시했고 34개 언어를 200개가 넘는 목소리를 통해 제공하고 있다. 서비스는 출시 1년 만에 41개국 4만 명이 넘는 개인 사용자와 Fortune 500대 회사들이 마케팅, 교육, 영화, 게임, 오디오 콘텐츠, 그리고 각종 VRㆍAR 소프트웨어 개발에 사용하고 있다.
최 대표는 “약 5~10분의 녹음 파일로 화자 생성이 가능하며, 타사는 보통 20~30시간씩의 음성데이터가 있어야 한다”며 “현저히 적은 데이터로도 사람의 목소리가 가지고 있는 음정, 박자, 특징, 심지어 숨 쉬는 습관까지 그대로 전달할 수 있다”고 강조했다.
그러면서 “한 사람의 목소리로 82가지의 스타일을 구현할 수 있으며 웃음, 슬픔, 소리 지르기 등 비언어적 표현도 구사할 수 있다”며 “최근 화제가 된 노래하는 음성 생성도 가능하다”고 전했다.
로보의 미래 비전은 ‘인공지능과 역할 분담을 통해 사람이 사람답게 살며, 더 중요하고 생산적인 일에 집중을 하도록 하는 것’이다.
최 대표는 “예를 들어 인간 성우가 잠을 자는 동안 그의 인공지능은 50개의 프로젝트를 맡아서 진행한다”며 “성우는 더는 프로젝트를 쫓아 여러 군데 돌아다니지 않고 한 번 녹음으로 주 7일 24시간 일을 자동으로 진행 할 수 있을 것”이라고 내다봤다.
아울러 “현재 로보의 AI 성우 마켓플레이스는 200여 명의 성우들이 자신의 목소리 등록하여 직접 AI 목소리 제작을 하고 사용자들에게 판매한다”며 “2022년까지 2000명 이상의 성우를 마켓플레이스에 모집하는 게 목표”라고 포부를 드러냈다.
또한 “당사는 게임제작, 애니메이션 제작 분야로도 사업 확대를 추진하고 있다”며 “글로벌 게임사와 구체적으로 인공지능 성우 음성 적용을 협력하고 있다”고 덧붙였다.