Ⅴ. 감각과 인지 – 3. 소리 인식이란 무엇일까요?

인간이 가장 자연스럽게 발화하는 것은 바로 음성입니다. 음성을 통해 의사를 전달하고 이를 통해 자신의 감정을 전달합니다. 인간 이전의 동물들은 여전히 소리를 통해 의사소통 하기도 합니다. 그만큼 인간의 기본적인 행위인거죠. 인공지능은 이러한 소리를 인식하고 음성을 구별하기 위해 많은 노력을 기울이고 있습니다. 현재 음성인식은 어디까지 와 있고, 어디까지 가능할까요?

3. 소리 인식이란?

소리 인식이란 컴퓨터가 청각 자료를 수집, 분석하여 훈련된 데이터와 비교를 통해 소리를 분류하는 기술을 말한다. 소리 인식을 통해 동물의 울음소리를 듣고 동물을 분류하는 시스템, 구조요청소리를 듣고 수색을 할 수 있도록 하는 드론 등 다양한 용도에서 활용될 수 있습니다. 특히 음성 인식을 통하여 명령을 수행하는 인공지능 스피커나 스마트폰은 우리 주위에서 흔하게 볼 수 있습니다.

가. 음성인식 과정

첫 번째로 전처리 과정을 거치게 되는데 전처리 과정에서는 음성인식을 받아 디지털 데이터로 변환합니다. 그리고 잡음을 제거한 후, 특성을 추출합니다.

다음 패턴인식 과정에서는 전처리 과정에서 얻은 특징을 바탕으로 문장을 구성하는데 필요한 음소, 음절, 단어를 인식합니다.

마지막으로 언어처리 과정에서는 패턴인식의 결과인 음소, 음절, 단어를 재구성하여 문장을 복원합니다.

나. 음성인식의 어려움

1) 여러 소리의 동시 진행으로 인한 어려움

여러 소리 성분들이 겹쳐 있기 때문에, 각 소리 성분들의 특징을 잘 추출해야 분류를 잘할 수 있습니다. 까페에서 사람이 말하는 음성을 추출한다고 생각해봅시다. 까페에서는 다양한 소리들이 함께 납니다. 음악소리도 들리고, 사람들이 걷는 소리, 커피머신의 소리, 문 열고 들어오는 소리 등 다양한 소리들이 겹쳐집니다. 또한 그 소리들이 계속 나는 것이 아니라 소리가 나기도 하고 멈추기도 합니다. 이러한 특성 때문에 특성을 추출하는 것이 쉽지 않습니다.

2) 소리의 크기에 따른 어려움

우리가 얻고자 하는 목표 소리보다 큰소리가 나는 경우 목표 소리의 특성을 추출하기 어렵습니다.

이 외에도 마이크와 같은 장비의 영향이나, 주변환경의 영향을 많이 받아 공간의 크기와 종류에 따라 소리가 달라질 수 있습니다.

Think Good AI

인공지능을 이용하여 소리, 음성을 추출하고 분석하여 사용할 수 있는 방법에는 어떤 것이 있을까? 사람에게 도움을 줄 수 있는 방향으로 생각해보자.