Ⅵ. 언어와 소통 – 3. 자연어 처리 분야에 대해 알아볼까요?

 점점 발전하고 있는 자연어 처리, 그럼 어디에서 우린 자연어처리를 확인할 수 있을까요? 우리가 그동안 편하게 사용하고 있었던 부분에도 이미 자연어처리가 적용되어 있었는데요. 구체적으로 어떤 분야에 사용할 수 있는지 알아봅시다.

Part 3. 자연어 처리가 어디에 쓰일까요?

1. 기계 번역

  기계 번역은 입력된 언어를 다른 나라의 언어로 자동으로 바꾸어주는 서비스입니다. 기계 번역에서는 언어 계통적 유사성이 높은 언어 간 번역(영어→프랑스어/독일어)은 잘하지만, 계통적 유사성이 낮은 언어 간 번역(한국어→영어)은 아직 잘하지 못합니다. 대표적인 예로 구글 번역, 네이버 파파고 번역, 카카오i 등을 들 수 있습니다.

* 구글 번역 *
https://translate.google.co.kr/

* 네이버 파파고 *
https://papago.naver.com/

* 카카오i 번역 *
https://translate.kakao.com/

2. 정보 검색 / 정보 추출

1) 정보 검색

  구글로 대표되는 검색 엔진을 만드는 학문입니다. 수많은 문서 중에서 사용자가 원하는 문서를 빠른 속도로 찾아내는 과정이며 대표적인 검색 사이트는 Google, Bing, Naver 등이 있습니다. 최근에는 대화를 통한 검색 엔진으로 발전하고 있습니다. 인공지능 비서(시리, 빅스비 등)나 인공지능 스피커에 “오늘 날씨 어때?”라고 물어보면 “오늘 날씨는~”하고 답변해줍니다.

2) 정보 추출

  정보 추출은 비정형의 문서로부터 정규화된 정보를 뽑아내는 기술입니다. 크게 개체명 인식(Named-Entity Recognition, NER)과 관계 추출(Relation Extraction)로 나눠집니다. 예를 들면, 위키피디아 문서에서 사람, 회사, 이름을 뽑아내고 뽑힌 개체 간의 관계(소속, 이직 등)를 추출하는 것이 있습니다.

3. 음성 인식

출처: 픽사베이

  음성 인식은 ‘Speech Recognition’과 ‘Speech-to-text(STT)’라고 하며, 컴퓨터가 인간의 음성 언어를 이해하도록 하는 기술입니다. Speech Recognition이 음성언어를 이해하는 것까지 목표로 삼는다면, STT는 음성 언어를 문자로 표현하는 것을 목표로 삼습니다. Speech Recognition이 인공지능 스피커라면, STT는 청각 장애인을 위해 자막을 띄워주는 기술을 말합니다.

  최초의 음성인식 시스템은 1952년 벨 연구소에서 말하는 숫자를 단일 음성으로 인식하는 오드레(Audrey) 시스템으로 이 시스템은 한 자리 숫자를 인식할 수 있었습니다. 이후 1963년 IBM은 음성을 통해 16개의 영어단어를 인식하고, 간단한 숫자 계산이 가능한 슈박스(Shoebox)를 선보였습니다.

출처: https://www.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html

  이후 오늘날까지 어떻게 하면 컴퓨터가 인간의 음성을 인식하고 그 의도를 이해하고 파악하며 적절한 반응을 보일 수 있게 할지에 대한 연구는 계속되었고 그 대표적인 사례로 Siri, Google Assistant, Alexa, Clova 등을 들 수 있습니다. 

* 카카오 Speech API 음성인식 기술 체험 사이트 *
https://speech-api.kakao.com/

4. 단어 분류 / 문장·문서 분류

1) 단어 분류

  단어 분류는 문장 내 각 단어의 카테고리를 목적에 따라 컴퓨터가 자동으로 분류하는 것입니다. 구글의 검색 엔진이나 페이스북의 문장에서 단어들을 추출해 맞춤형 광고를 보여주거나 유사한 유형의 영상과 사이트 등을 추천해주는데 주로 사용됩니다.

2) 문장·문서 분류

  문장·문서 분류는 이메일, SNS, 웹사이트, 채팅 등을 분석하여 문장이나 문서가 어떤 카테고리에 속하는지 자동으로 분류해주는 기술입니다. 뉴스 기사 같은 경우 기사를 인식하여 정치/경제/사회/세계/과학 등의 카테고리 중 해당되는 카테고리로 자동으로 분류해주는 것을 할 수 있습니다. 또한 이메일을 인식해 스팸에 해당할 때 스팸메일로 분류하는 것도 마찬가지라고 할 수 있습니다.

5. 감정 분석

출처: 픽사베이

  문장/문서의 분류 뿐만 아니라 한 문장이 어떤 의도와 감정을 나타내고 있는지 컴퓨터가 자동으로 분류하는 감정 분류도 가능합니다.

  영화 평론 사이트의 평가가 해당 영화에 대해 긍정 또는 부정으로 평가했는지 분류하는 기술 같은 것을 말합니다.

  그 외에도 제품 분석, 시장조사, 시장 분석, 순 추천 고객 지수 등이 있습니다.

6. 의미 결정/ 자동 대화 시스템

1) 의미 결정

  의미 결정은 문장에서 주어, 목적어가 무엇인지, 그들의 의미적 관계가 어떠한지 컴퓨터가 자동으로 결정해주는 것을 의미합니다. 이 기술은 주로 자동 대화 시스템에서 사용됩니다.

2) 자동 대화 시스템

  자동 대화 시스템은 사용자가 입력/말한 문장에 대해 컴퓨터가 자동으로 가장 적합한 문장을 생성해 보여주거나 음성으로 전환해 대화하는 기술을 의미합니다. 챗봇, 인공지능 비서가 이에 해당합니다. IBM에서 개발해 제퍼디!(Jeopardy!) 퀴즈쇼에서 우승한 왓슨이 이에 해당하는 대표적인 예입니다.

출처: https://towardsdatascience.com/the-decade-of-artificial-intelligence-6fcaf2fae473

  챗봇에 대해 자세히 설명하자면, 챗봇은 기계와 사람이 텍스트를 통해서 대화할 수 있는 인터페이스를 갖추고 있습니다. 챗봇은 첫 파트에서 설명했던 1950년, 앨런 튜링이 문자로 대화시 기계인지 사람인지 구분하지 못한다면 기계가 지능적이라고 했던 것이 시발점이 되었습니다. 그 후 1966년 미국 MIT 인공지능 연구소에서 처음으로 유명세를 탄 챗봇 ‘엘리자(ELIZA)’를 개발했습니다. 엘리자는 사람들의 정신적 문제를 상담하는 ‘카운슬러’를 목적으로 만들어졌으며 사람들은 엘리자가 진짜 사람이라 생각하고 치료를 받았습니다. 이는 간단한 패턴 매칭 수법을 사용하는 초기형 유사 인공지능입니다. 이후 챗봇과 관련된 하드웨어와 소프트웨어 분야 모두 수 많은 연구와 개선이 이뤄졌습니다. 챗봇은 여전히 뜨거운 감자입니다.

*영국 클레버봇 사이트*
https://www.cleverbot.com/

  의미 분석은 앞 단계의 결과를 해석하여 문장의 의미를 파악하는 작업인데, 이를 위해 각각의 의미에 대한 지식 표현이 필요합니다. 자연어에는 같은 단어이지만 뜻이 다른 동음이의어가 많은데, 문장을 이해할 때 단어가 그 문장에서 어떤 의미로 쓰였는지를 파악해야 합니다. 특정 문장에 등장하는 단어가 어떤 의미인지 판별하는 작업을 ‘단어 의미 중의성 해소’라고 합니다. 다음 예문을 통해 이해해보도록 해요.

Think Good AI

자연어를 잘 인식하고 사람의 감정을 읽는 인공지능을 개발하여 완성했을 때, 사람과 인공지능을 감정을 나누는 친구가 될 수 있을까? 인공지능과의 대화로 사람의 외로움을 해소할 수 있을까?

참고 문헌 및 사이트 ​

한선관 외(2021). 놀랍게 쉬운 인공지능의 이해와 실습. ㈜도서출판 성안당

영국 클레버봇 사이트
https://www.cleverbot.com/

Watson and the Jeopardy! Challenge Champs (https://youtu.be/P18EdAKuC1U)