입과 귀 없이 말하고 듣는 음성기술
페이지 정보
작성자 로보맨 댓글 0건 조회 13,406회 작성일 09-07-06 22:24본문
111111111111111111111111111111[국민일보] 과학입국 그린프로젝트 Let's Science
입장료도 없고 행사인원이나 사인보드 하나 걸리지 않은 특별한 전시회가 열리고 있다. 음성정보기술산업지원센터와 한국SIT산업협회가 주최하는 「Speech World Cyber Expo 2004」란 행사가 바로 그것. 우리나라 기업의 음성정보기술을 직접 체험할 수 있는 이 행사의 개최 장소는 온라인 공간(http://cyber.speechnet.or.kr)이다. 이 전시회를 계기로 어느덧 실생활 속으로 깊숙이 파고든 음성합성과 음성인식이라는 두 가지 형태의 음성기술에 대해 알아본다.
음성합성의 원리
‘백치 아다다 컴퓨터는 이제 옛말’남이 알아듣게 말을 하기 위해선 정확한 발음이 필요하다. 하지만 소리를 낼 수 있는 혀와 입술조차 없다. 할 수 없이 다른 사람의 입을 빌려야 한다. 발음이 정확한 성우들의 말을 최대한 많이 녹음하여 그걸 음소 단위로 쪼갠다. 예를 들면 ‘말’이란 소리는 ‘ㅁ,ㅏ,ㄹ’의 세 음소로 나누어 저장한다. 이런 작업은 컴퓨터 화면에 나타나는 소리의 파형을 보고 정밀하게 이루어진다.
모든 작업이 다 이루어지면 이젠 직접 소리를 내야 한다. 텍스트가 들어오면 거기에 알맞은 음소 단위의 소리 데이터를 찾아내 이어붙이면 소리가 난다. 어색할 것 같지만 정밀하게 이루어진 작업이라 꽤 정확한 소리를 낼 수 있다.
한 가지 문제는 사람이 하는 말에는 감정이 섞인 음의 높낮이가 있다는 점이다. 의문형이냐 서술형이냐에 따라 높낮이가 틀려진다. 뇌가 없는 기계가 그런 감정을 실어 글을 읽기란 불가능하다. 때문에 주어진 텍스트의 문장이 의문형인지 서술형인지, 어느 것이 주어인지 서술어인지를 읽기 전에 먼저 분석하는 기능이 추가되었다. 미리 알면 그 상황에 맞는 소리 데이터를 찾을 수 있다. 아직까지 완벽하진 않지만 나의 발음은 기술이 발전함에 따라 점점 더 좋아질 것이 확실하다.
음성인식의 원리
‘귀가 없어도 사오정은 아니야’청각기관 없이 소리를 듣기 위해선 사람의 귀가 어떻게 소리를 듣는지 알아야 한다. 사람은 소리마다 특정 주파수대의 에너지 분포가 다른 것을 구별하여 소리를 인식한다. 예를 들면 ‘아’와 ‘어’의 소리는 주파수가 서로 다르다. 따라서 소리마다 다른 주파수의 특성을 이용하면 기계도 소리를 들을 수 있다.
그러나 사람마다 발음이 조금씩 틀리다. 때문에 수천명이 발음한 데이터로써 각각의 소리에 대한 음성 모델링을 해서 이를 주파수로 변환시켜 데이터베이스화 한다. 그러면 입력되는 소리마다 거기 해당하는 주파수를 찾아내 어떤 말인지 알아들을 수 있게 된다.
기계가 사람의 음성을 인식할 때 제일 큰 문제는 주변의 소음이다. 사람은 소음이나 여러 명이 동시에 얘기해도 그 중에서 자신이 필요한 소리만 분리해내는 능력이 있다. 그러나 뇌가 없는 기계는 잡음과 함께 있는 그대로 소리를 받아들일 수밖에 없다. 때문에 주변의 잡음을 제거하는 기술 개발이 진행되는 속도에 따라 나의 듣기 능력도 점차 향상될 것이다.
음성기술의 활용분야와 미래
음성인식이 제일 처음 상용화된 것은 자동응답서비스(ARS)분야다. 예전에는 전화로 주식시세를 알아보기 위해서는 종목코드를 입력해야 했다. 수많은 종목코드를 일일이 찾아서 눌러야 하는 불편함을 해소한 것이 바로 음성인식기술이다. 알아보고자 하는 주식명을 말로 하면 기계가 알아듣고 그 종목에 대한 시세 정보가 흘러나오게 되었다.
음성인식기술의 또 하나 대표적인 예는 음성 다이얼링. 몇 년 전 휴대폰에 ‘우리집’이라고 얘기하면 전화가 걸리는 광고가 있었다. 당시는 휴대폰에 내장된 CPU의 성능이 떨어졌고, 또 자신의 목소리를 일일이 휴대폰에 녹음해야 음성을 인식할 수 있는 화자 종속형이어서 별로 주목을 끌지 못했다. 하지만 요즘에는 누구든지 말만 하면 휴대폰에 저장된 전화목록으로 전화가 걸리는 화자 독립형으로 기술이 발전했다.
음성인식과 정반대 역할을 하는 음성합성기술도 ARS 분야에서 가장 많이 활용되고 있다. 수시로 정보가 변하는 교통정보, 날씨정보, 주식시세 등의 정보를 바뀐 데이터만 입력하면 자동으로 음성으로 변환돼 여러 사람에게 들려줄 수 있다. 요즘에는 수신된 메시지를 음성으로 들려주는 휴대폰도 나왔다.
이런 음성인식과 음성합성 기술이 합쳐지면 여러 분야에서의 기술 발전이 가능하다. (주)보이스웨어의 연구소장 이윤근 박사는 “내년부터 우리나라에서도 서비스되는 텔레매틱스가 앞으로 음성기술을 꽃피울 수 있는 유망 분야이다”고 전망한다. 차량 정보화 시스템인 텔레매틱스는 주행 중에 이용해야 하므로 시선과 손을 사용하지 않는 음성합성과 음성인식 기술이 필수적이다.
그밖에 상호간 영어회화가 가능한 교육용 로봇, 음성을 이용하여 보안을 인증하는 화자인증기술, 컨텐츠를 다운받으면 음성으로 읽어주거나 음성을 인식하여 즉석 원고를 작성해주는 등 여러 분야에서 음성기술을 응용한 제품들이 출시되고 있다.
좀 더 미래를 내다보면, 사람과 자유자재로 대화를 나눌 수 있는 인간형 로봇을 만들기 위해선 음성기술이 필수적이다. 또한, 어느 나라에서건 자유롭게 의사소통이 가능한 자동통역시스템을 그려볼 수 있다. 조그만 단말기에 대고 우리말을 하면 음성을 인식해 자동으로 번역, 음성 합성이 된 다른 나라 말이 흘러나온다. 물론 이것은 자동번역기술이 완벽해진 다음의 일일 것이다.
텔레매틱스란?
텔레매틱스란 무선통신으로 차량과 서비스센터를 연결해 다양한 정보를 제공하는 자동차용 원격정보 서비스다. 차량에 설치된 무선 단말기를 통해 인터넷 접속은 물론 교통, 날씨, 뉴스 등 각종 정보를 얻고 금융거래, 예약, 팩스 송수신 등을 가능하게 하여 자동차가 움직이는 사무실 역할을 할 수 있다.
더불어 운전자들은 교통 상황을 포함한 각종 도로교통 정보를 파악, 목적지까지 최단 시간 내 찾아갈 수 있으며, 처음 가보는 지방에서도 길 안내를 받을 수 있다. 또 각종 구난 서비스, 도난차량 추적, 위치 확인 서비스 등이 가능하다.
이처럼 텔레매틱스는 기존의 라디오, TV, CD플레이어 등 엔터테인먼트 기능은 물론 핸즈프리 전화를 위한 전화번호부와 차량관리를 위한 차계부, 이메일 송수신의 컴퓨터 기능과 무선 인터넷 기능, 자동차 관련 정보 서비스 등의 기능을 하나의 단말기 안에서 구현하는 것이 특징이다. 특히 이런 기능들은 음성에 의해 작동하는 대화형 시스템으로서, 눈과 귀를 운전에만 집중할 수 있어야 한다.
미국의 자동차업체 GM은 별도의 회사를 설립하여 텔레매틱스 서비스를 제공하고 있는데, 현재 2백만명 이상의 가입자가 확보될 정보로 활성화되었다.
우리나라에서는 현대자동차가 내년부터 모젠이라는 텔레매틱스 서비스를 시작할 예정이며, 르노삼성자동차, 쌍용자동차 등이 각각 이동통신회사 등과 연계하여 서비스를 준비 중이다.
/이성규 객원편집위원
2004.11.09 18:02
출처 : 2004.11.09 ⓒScience Times
댓글목록
등록된 댓글이 없습니다.