잡음 환경에서도 ‘목소리’에 집중하는 차별화된 음성 솔루션, 엠피웨이브
Date2024-05-21
본문
음성인식 기술은 컴퓨터가 인간의 음성 언어를 문자로 변환하는 기술로 리빙, 의료, 자동차 등 다양한 분야에서 AI와 함께 활용되고 있다. 최근 오픈AI에서 발표한 GPT-4o의 경우 이제는 정말로 대화가 가능할 정도로 기술이 발전했음을 목도하였다. 하지만 음성인식 기술에는 치명적인 한계점이 존재한다. 바로 주변 환경의 영향을 많이 받는다는 것. 아무리 인식 성능이 뛰어나도 여러 노이즈가 혼입된 음성은 제대로 인식하지 못하는 경우가 많다.
최근 엠피웨이브는 ‘클리어센스 오디오(깨끗耳)’라는 청각 보조 애플리케이션을 개발하여 현재 출시를 앞두고 사전등록을 받고 있다. ‘깨끗耳’는 오랜 기간 연구해온 엠피웨이브의 원천 기술을 기반으로 잡음환경에서도 음성을 또렷하게 추출 해낼 수 있다. 이를 통해 난청을 겪는 사람들은 물론 일반인들도 시끄러운 장소에서 편하게 대화할 수 있다. 엠피웨이브 박형민 대표를 직접 만나 ‘깨끗耳’ 탄생 배경과 주요 기술에 대해 들어봤다.
기업 소개를 부탁드린다
엠피웨이브는 실세계 잡음정제 AI 음성인터페이스 전처리 기술을 기반으로 청각 보조 및 음성인식 전처리 솔루션 개발 스타트업이다. 현재 음성인식 기술이 굉장히 발전했지만, 일상생활에서 음성인식을 사용하기 위해 목소리를 녹음하면 주변 잡음들이 굉장히 많이 들어간다. 그래서 소리에 대한 왜곡이 심해지고 음성인식 결과도 안 좋게 나온다. 자사가 가지고 있는 기술은 마이크 신호에서 사용자의 목소리만 추출하는 기술이다. 각종 잡음정제, 신호분리, 강인음성인식 기술 등을 바탕으로 스마트폰, 가전, 로봇, 키오스크 및 음성채팅을 포함한 각종 회의 시스템 등 다양한 음성 인터페이스 관련 하드웨어와 소프트웨어 종합 솔루션을 제공하고 있다. 이미 국내외 굴지의 대기업과 중소기업의 제품에 음성인식 전처리 솔루션 적용을 위한 다양한 협업을 진행하고 있다.
저(박형민 대표)는 음성향상 및 음성인식 분야에서 25년 이상 연구를 진행해왔다. 대학원생 때부터 연구를 진행했지만 이 기술을 실제 환경에서 활용할 수 있는 정도까지 만들어내는 건 정말 어려웠다. 그래서 연구 기간이 꽤 길었는데 이제는 어떤 환경이든 상용화가 가능한 수준의 성능을 얻을 수 있겠다 싶을 정도로 핵심 기술 개발이 완성되어 창업을 하게 됐다.
주력 사업 내용에 대해 소개해달라
자사의 대표 아이템인 ‘클리어센스 오디오(깨끗耳)’는 시끄러운 환경에서도 마치 조용한 곳에 있는 것처럼 선명한 소리를 듣도록 도와주는 청각 보조 애플리케이션이다. 난청자의 청력 저하 문제 해결을 넘어, 본인 소유의 스마트폰과 이어폰을 이용해 일반인도 원하는 소리를 선명하게 들을 수 있도록 해주는 혁신적인 기술이다.
자사의 서비스는 소리 증폭의 불편함, 눈에 띄는 착용 모습 등 기존 고가의 전문 보청기가 갖고 있는 핵심 문제점들을 극복했다. 또 간편한 조작으로 듣고자 하는 소리의 왜곡 없이 뛰어난 잡음 제거 성능을 갖는 독보적 기술로 사용자에게 편안하고 선명한 소리를 제공한다.
‘클리어센스 오디오(깨끗耳)’는 세계적인 소비자 전자제품 박람회(CES) 2024에서 ‘Mobile Devices, Accessories & Apps’ 및 ‘Digital Health’ 2개 부문에서 혁신상을 수상하였다. 또 미국 대표 일간지 USA TODAY의 제품 리뷰 사이트인 Reviewed 선정 CES 2024 AccessABILITY Awards를 수상해 전 세계의 주목을 받기도 했다.
자사가 주력으로 하고 있는 아이템은 오디오이지만 이 외에도 비디오 정보를 활용해서 노이즈 소스가 될 만한 것들을 찾아내거나, 립리딩이라고 해서 사람이 말을 할 때 입술의 움직임을 목소리와 함께 인지하는 기술도 연구하고 있다. 소리는 주변 노이즈의 영향을 많이 받지만 비디오는 그런 게 없다 보니 노이즈가 심한 곳에서도 더 정확한 음성인식이 가능해지도록 다양한 연구를 진행하고 있다.
앞으로의 목표가 있다면
일단 가장 중요한 건 청각 보조 애플리케이션을 많은 사람들에게 알리는 거다. 현재 막바지 작업을 진행 중이며 상반기에 출시할 예정이다. 많은 분들이 애플리케이션을 통해 실질적으로 혜택을 보셨으면 좋겠다. 귀가 불편하신 분들뿐만 아니라 시끄러운 곳에서 의사소통이 어려운 분들에게 도움을 드리고 싶다. 실제로 난청을 겪는 분들은 사람들과의 의사소통이 어렵기 때문에 사회로부터 단절이 되는 경우가 많고, 특히 이런 분들 중 상당수가 우울증, 치매 등으로 이어질 수 있다. 즉, 난청은 단순 의사소통 문제에 머물지 않고 삶의 질이 저하되면서 다른 사회적 문제로 연결될 수 있다.
또 음성을 기반으로 한 서비스를 하고 있거나 준비 중인 기업들이 많이 있다. 그런데 마이크로 입력되는 신호에 다른 노이즈가 섞이면서 서비스의 질이 확 떨어지고 이에 대한 해결책을 찾기 어려워하는 경우가 많다. 자사는 이런 기업들에게 필요한 잡음정제 AI 음성인터페이스 솔루션을 공급하고 고객을 만족시킬 수 있는 서비스를 할 수 있도록 지원해드리고 싶다.
이러한 제품과 서비스를 통해 자사는 음성 기술로 사람과 사람, 사람과 기계를 연결할 수 있는 연결고리 역할로서 궁극적으로 인간의 삶의 질을 향상시키고 사람들에 실질적인 도움이 될 수 있는 사회적 가치를 실현하고자 한다.
관련기사 보러가기: https://www.newseconomy.kr/news/articleView.html?idxno=15458