Ⅵ. 언어와 소통 – 1. 인공지능은 생각할 수 있을까요?

Part 1. 인공지능과 생각

1. 우리는 인공지능과 소통할 수 있을까요?

출처 : marvel.com, warnerbros.com/movies/her

  영화 속에서 사람과 같은, 혹은 사람보다 더 뛰어난 똑똑한 인공지능을 본 기억이 있나요? 여러분도 잘 알고 있는 영화 ‘아이언맨’의 인공지능 개인 비서 자비스나 영화 ‘HER’의 사만다를 예로 들 수 있죠. 자비스는 아이언맨에게 목적지나 슈트의 상태를 실시간으로 알려주고, 아이언맨의 명령에 따라 실험실을 작동시키는 만능 비서입니다. 영화 ‘HER’의 사만다는 정말 사람 같아서 주인공이 사랑에 빠지기도 하죠.

  이 영화 같은 이야기가 우리에게도 일어날 수 있을까요? 사람처럼 생각하는 인공지능이 과연 있을까요? 인공지능이 생각할 수 있다면 어떻게 확인할 수 있을까요? 그리고 우리는 결국 인공지능과 소통할 수 있을까요?

2. 튜링테스트란 무엇일까요?

  튜링테스트(Turing test)란, 컴퓨터 과학의 아버지로 불리는 앨런 튜링이 제안한 인공지능 테스트입니다. 앨런 튜링은 1950년 ‘계산 기계와 지능(Computing Machinery and Intelligence)’이라는 논문에서 기계(컴퓨터)가 생각할 수 있다고 주장했습니다. 그리고 인공지능이 생각하는지를 판별하는 ‘모방 게임(Imitation game)’을 제안했습니다. 이 게임은 나중에 앨런 튜링의 이름을 따서 튜링테스트로 불리게 되었죠.

  튜링테스트는 사람, 인공지능 컴퓨터, 질문자가 서로 보이지 않는 독립된 공간에서 채팅을 통해 진행됩니다. 질문자가 적정 시간 동안 이들과 상호작용을 한 후에 사람과 컴퓨터를 구별해내지 못하거나 컴퓨터를 사람으로 보게 된다면 해당 컴퓨터는 인간처럼 생각하는 것으로 간주할 수 있습니다. 다시 말해, 일반적인 자연어 대화에서 사람이 컴퓨터와 사람을 구별할 수 없다면 컴퓨터가 인간 수준으로 생각하는 것으로 본다는 것이죠.

3. 튜링테스트를 통과한 인공지능은 무엇일까요?

  1966년 조세프 와이젠바움은 튜링테스트를 ‘통과한 것처럼 보이는’ 초기의 자연어 프로그램 ‘엘리자(ELIZA)’를 만들었습니다. 엘리자는 정신과 의사가 환자와 하는 대화를 흉내 낸 프로그램입니다. 간단한 패턴을 매칭하는 방법으로 대화하는 챗봇이라고 할 수 있으나 인공지능이라고는 볼 수 없습니다. 일정한 단어를 출력하면 그에 해당하는 답 중 하나를 내보내는 식으로 작동합니다. 사용자가 키워드를 입력하면 사용자의 설명을 바꾸고 그에 따른 답변을 적용해 출력하기 때문에 실제 사람과 대화하고 있다고 생각할 수 있게 했죠.

☞ 카운슬러(상담자) ‘엘리자’ 체험 사이트 ☜
http://psych.fullerton.edu/mbirnbaum/psych101/Eliza.htm

  그렇다면 정말 튜링테스트를 ‘통과한’ 인공지능 프로그램은 무엇일까요? 바로 영국의 래딩대학교에서 개발한 ‘유진 구스트만(Eugene Goostman)’입니다. 유진 구스트만은 2014년 6월에 자신을 ‘우크라이나에 사는 13세의 소년’으로 소개한 후에 30명의 심사위원들과 5분 동안 채팅으로 대화한 후 33%로 이 프로그램이 컴퓨터가 아닌 사람이라고 인정받았습니다. 튜링테스트의 통과 커트 라인이 30%이니 3%p 추가한 결과로 통과한 것이죠.
☞ 유진 구스트만 ☜
출처: https://www.bbc.com/news/technology-27762088

  일부에서는 이 결과에 대해 인공지능의 지능을 판단하기보다 사람처럼 보이는 것을 평가했다고 비판하였습니다. 유진이 영어가 모국어가 아닌 우크라이나의 10대 소년이라는 설정 덕분에 대화가 어그러지거나 엉뚱한 대답을 하는 경우도 많아 완벽한 인공지능이라고 보기에는 어려움이 있다는 것이죠. 또한 튜링 테스트가 1950년에 만들어졌기 때문에 이를 통해 인공지능을 판단하기 힘들다는 주장도 있습니다.

  그럼에도 불구하고 유진 구스트만은 튜링테스트를 처음으로 통과한 인공지능 프로그램이라고 발표되어서 생각하는 인공지능에 대한 토론에 불을 지피는 계기가 되었습니다.

4. 튜링테스트에 대해 더 생각해볼까요?

  튜링테스트는 사람과 기계 사이의 통신을 유지하면서 컴퓨터의 지능에 대한 객관적이고 표준적인 시각을 제공했습니다. 또한 사람의 신체적 능력과 지적 능력을 분리하여 시험한다는 장점이 있죠.

  그런데, 튜링테스트에도 생각해 볼 만한 문제가 있습니다. 그 첫 번째는 튜링테스트로 컴퓨터가 지능이 있는지를 판단하기보다 컴퓨터가 사람처럼 행동하는지를 측정할 수 있다는 것입니다. 주제를 계속 바꾸고, 사람처럼 오류를 만들어내거나 사람의 능력을 넘어서는 지능을 요구하는 질문에 답을 하지 않는 컴퓨터 프로그램이 통과되었다는 사실이 이를 보여줍니다.

  두 번째는 철학자 존 설이 튜링테스트를 반박하기 위해 고안한 ‘중국어 방’이라는 사고 실험의 결과에 대한 내용입니다. 방 안에는 중국어를 모르는 사람과 중국어 질문에 대한 답이 적힌 규칙이 있습니다. 이 사람은 외부에서 들어오는 중국어 질문에 대응하는 중국어 답변을 찾아 외부로 건네줍니다. 외부 사람으로서는 방 안의 사람이 중국어를 할 줄 아는 것으로 판단할 수 있습니다. 따라서 중국어 방 안의 사람이 중국어를 진짜로 이해하는 것으로 합격했음에도 중국어를 전혀 모르는 것과 같이 컴퓨터가 튜링테스트를 통과한다하더라도 사람의 지능을 가질 수 없다고 주장한 것입니다.

  이렇게 튜링테스트는 인공지능이론의 중요한 개념이 되기도 했지만, 다양한 철학적 질문을 제기할 수도 있습니다. 여러분도 튜링테스트에 대해 함께 생각해봅시다.

☞ 중국어 방 ☜

5. 위노그라드 스키마 챌린지

  이러한 튜링테스트의 문제점을 보완하고자 토론토 대학의 헥토 레베스크는 ‘위노그라드 스키마 챌린지(Winograd Schema Challenge)’를 제안하였습니다. 이 대회는 테리 위노그라드(Terry Winograd)라는 스탠퍼드 대학교수의 이름을 따왔는데, 요점은 기계가 실제로 언어를 ‘이해하고 있는지’를 시험하는 것입니다. 문장을 제시하고 그 문장에 관한 질문을 제시하고 답변하도록 하는 구조인데, 사람은 금방 답할 수 있는 문제이지만 기계에게는 결코 쉽지 않습니다. 왜냐하면, 문장 속의 ‘대명사’를 정확하게 이해해야 하기 때문이지요. 예를 한번 볼까요?

● The trophy would not fit in the brown suitcase because it was too big.

    What was too big?

    Answer 0: the trophy

    Answer 1: the suitcase

  여러분들의 이해를 위해 논문에 있는 예시를 영어 그대로 실었습니다. 해석하면 다음과 같습니다.
(참고 논문: Hector J. Levesque(2012) The Winograd schema challenge)

● The trophy    would not fit     in the brown suitcase    because        it       was  too big.

     (트로피는)  (들어가지 않는다.)   (갈색 여행 가방에)     (왜냐하면)  (그것은)   (너무 컸다.)

    What      was too big?

   (무엇이)  (너무 컸습니까?)

    Answer 0: the trophy (트로피)

    Answer 1: the suitcase (여행 가방)

  자연스럽게 한국어로 번역하면 질문은, ‘트로피는 너무 크기 때문에 갈색 가방에 넣을 수 없습니다. 무엇이 너무 컸습니까?’입니다. 이 문장에서 ‘it’(그것)이 무엇을 가리키는지, 트로피를 가리키는 것인지, 아니면 갈색 여행 가방을 가리키는 것인지 하나를 택하는 문제입니다. 인공지능이 it(그것)이 무엇인지 정확하게 판단하고 번역하는지를 시험하는 것입니다.

  지금은 이 대회가 개최되지는 않지만, 인공지능이 올바른 번역을 하기 위해 필요한 지식과 상식적인 추론, 인과 관계나 복잡한 이야기까지 포함해 설계할 수 있는지 등을 확인할 수 있습니다. 현재 개발된 인공지능 번역은 문장 속의 대명사가 무엇을 가리키는 것인지 잘 판단하고 있는데요, 참고로 예시 문장을 구글 번역과 네이버 파파고 번역을 이용해 번역한 결과는 다음과 같습니다. 표현은 살짝 다르지만 두 프로그램 모두 정확하게 번역했다는 것을 알 수 있습니다.

☞ 구글 ☜

☞ 네이버 파파고 ☜

6. 역튜링테스트, CAPTCHA​

  튜링테스트는 사람 질문자가 컴퓨터와 인간을 구분하는 것이라면 역튜링테스트(Reverse Turing test)는 반대로 컴퓨터가 사람과 컴퓨터를 구분하는 형태입니다. CAPTCHA는 역튜링테스트라고 할 수 있습니다. 컴퓨터는 인식할 수 없으나 사람은 쉽게 인식할 수 있는 문자, 사진, 그림을 통해 사람과 컴퓨터를 구별하는 것입니다.

  기존의 문자와 사진, 그림을 일그러뜨린 형태로 변형한 후 이를 사용자에게 입력하도록 요청합니다. 컴퓨터 프로그램이 변형시킨 이미지는 사람이 쉽게 인식할 수 있지만 컴퓨터 프로그램은 변형된 이미지를 인식하지 못하므로 테스트를 통과하지 못한다면 테스트 대상이 사람이 아님을 판정할 수 있습니다. 또한 ‘로봇이 아닙니다.(I’m not a robot.)’이라는 문구에 체크하도록 하여 사람의 행동 패턴으로 사람임을 구별하고, 사진이나 그림을 제시하여 정교하게 이미지를 구분하여 체크하도록 요청하기도 합니다.

  왜 컴퓨터 인간을 구분해야할까요? CAPTCHA는 주로 계정 생성이나 게시물 등록에 많이 이용됩니다. 봇의 공격을 차단하여 광고성 게시물을 방지할 수 있고, 오직 사람만 계정을 등록할 수 있도록 아이디를 자동 생성하지 못하도록 막습니다. 또한 개인정보를 보호할 때도 활용하여 개인정보를 수정, 보완할 때 사용하기도 합니다.

  그러나 영원한 건 없습니다. 인공지능의 OCR기술이 발전하면서 문자 CAPTCHA를 판독할 수 있는 프로그램이 많아졌습니다. 안면 인식 시스템과 사진 분석 프로그램의 발달로 사진, 그림 CAPTCHA 또한 위기를 맞았습니다. 이를 방지하기 위해 더 까다롭고 복잡한 방식의 CAPTCHA들이 등장하고 있습니다.

Think Good AI

여러 사례처럼 대화가 가능한 인공지능 로봇이 등장하고 있다. 이런 로봇이 생각한다고 할 수 있을까? 대화나 채팅을 통해 입력된 사람의 정보를 이용한다면 어떤 문제가 발생할까?

참고 문헌 및 사이트

※ 한글 자막을 켜고 보세요.

▶ 인공지능과 피지컬 컴퓨팅 금성출판사

▶ 앨런 튜링 – 계산 기계와 지능
http://kimyonghun.blogspot.com/2013/04/computing-machinery-and-intelligence.html

▶ 튜링테스트: Can a computer pass for a human? – Alex Gendler / TED
https://youtu.be/3wLqsRLvV-c

▶ 지식채널e 엘리자(Eliza) 모두들 대화하고 싶어하는 그녀. ‘당신은 내 마음 아나요?’
https://jisike.ebs.co.kr/jisike/vodReplayView?siteCd=JE&prodId=352&courseId=BP0PAPB0000000009&stepId=01BP0PAPB0000000009&lectId=10260989#none

▶ 유진 구스트만이 튜링테스트를 통과했다고? 허튼소리!(http://www.bloter.net/archives/195952)

▶ 생각하는 인공지능 ‘유진’ ‘놀라운 결과 아니다’(https://youtu.be/kfDwJ_2EYTk)

▶ Hector J. Levesque(2012) The Winograd schema challenge.

▶ Winograd schema challenge(https://en.wikipedia.org/wiki/Winograd_Schema_Challenge)

▶ CAPTCHA (https://ko.wikipedia.org/wiki/CAPTCHA#reCAPTCHA)

Part 1. 튜링테스트 Quiz

튜링테스트를 제안한 사람은 앨런 튜링이다.

Correct! Wrong!

다시 확인해보세요.

튜링테스트는 질문자가 컴퓨터를 사람이라고 판단하면 컴퓨터는 지능을 가진 것이라고 본다.

Correct! Wrong!

튜링테스트는 인공지능 역사에 중요한 역할을 하며, 문제점은 발견되지 않았다.

Correct! Wrong!