음성 인식은 ‘Speech Recognition’과 ‘Speech-to-text(STT)’라고 하며, 컴퓨터가 인간의 음성 언어를 이해하도록 하는 기술입니다. Speech Recognition이 음성언어를 이해하는 것까지 목표로 삼는다면, STT는 음성 언어를 문자로 표현하는 것을 목표로 삼습니다. Speech Recognition이 인공지능 스피커라면, STT는 청각 장애인을 위해 자막을 띄워주는 기술을 말합니다.
최초의 음성인식 시스템은 1952년 벨 연구소에서 말하는 숫자를 단일 음성으로 인식하는 오드레(Audrey) 시스템으로 이 시스템은 한 자리 숫자를 인식할 수 있었습니다. 이후 1963년 IBM은 음성을 통해 16개의 영어단어를 인식하고, 간단한 숫자 계산이 가능한 슈박스(Shoebox)를 선보였습니다.