Ⅳ.자료와 학습(초급) – 3. 비지도학습

인공지능이 스스로 학습을 할 수는 없을까요? 정답을 하나하나 가르쳐주는 지도학습은 인간의 한계를 뛰어넘을 수 없습니다. 그럼 이제 인공지능 스스로 학습할 수 있는 방법을 찾아볼까요?

3. 비지도학습

1. 비지도학습의 개념 쉽게 이해하기

  정글에서 영희가 처음 늑대소년을 만났을 때로 돌아가 봅시다. 늑대소년은 영희와 친해지기 위해 영희의 개입 없이 소년 스스로 선물이라는 시도를 통해 성공과 실패의 경험을 하였습니다. 그 과정에 영희의 피로도는 도시에서와 달리 피로도가 거의 없는 편입니다. 왜냐하면 늑대소년 스스로 다량의 데이터를 학습함으로써 스스로 그 답을 찾아가기 때문입니다. 이를 비지도학습(Unsupervised Learning)이라고 합니다. 지도학습에서는 정해진 답(레이블)이 필요 없습니다. 선물하면서 파악한 영희의 취향을 바탕으로 늑대소년 스스로 좋아하는 그룹과 싫어하는 그룹을 구분하였기 때문입니다. 각 데이터에서 파악한 특징(Feature)을 바탕으로 기계가 각 데이터를 군집화(Clustering)한 것입니다. 물론 군집화한 데이터의 양이 적을 때에는 새로운 데이터가 나타났을 때 정확히 파악할 확률이 떨어질 수 있습니다. 하지만 늑대소년이 시도한 선물의 횟수가 많을수록 영희가 좋아할 확률은 높아집니다. 즉, 비지도학습에 사용된 데이터의 양이 많아 빅데이터가 될수록 군집화의 성향이 분명해지고 그 특징을 바탕으로 어떤 그룹에 속한 데이터인지 파악할 확률은 점점 높아지게 됩니다.

2. 군집화(Clustering)

  군집화(Clustering)는 말 그대로 다양한 데이터들을 덩어리로 무리짓는 것입니다. 군집화를 위한 알고리즘 역시 다양하지만 여기서는 군집화의 개념만 짚고 넘어가도록 합시다.

기계학습7

 위의 그래프에 표시된 데이터들을 2개의 묶음으로 나누어 봅시다. 해보았나요? 그럼 이번에는 다시 3개의 묶음으로 나누어 봅시다. 어떻게 묶을 수 있을까요?

 아마 대부분의 사람들이 비슷한 형태로 묶음을 만들었을 것입니다. 이처럼 데이터의 특징을 분석하여 유사한 데이터들을 모아 같은 그룹으로 묶는 것을 군집화(Clustering)라고 합니다.

출처: 픽사베이

군집화의 대표적인 사례로는 고객 분석이 있습니다. 카드사에서 고객 정보와 카드 결제 내역을 바탕으로 고객의 유형을 여러 가지로 분류하는 것은 대표적인 군집화의 활용 예시입니다. 고객의 특성을 몇 가지 묶음으로 만들어 각 그룹의 특성에 맞는 카드를 출시한다면, 상품 수요를 높일 수 있겠죠? 실제로 신한카드에서는 2014년, 남성과 여성 고객을 각각 9가지 유형으로 분류하여 총 18개 유형의 카드 상품을 출시하기도 했답니다. 이러한 고객 세분화 외에도 데이터 압축, 인터넷 중독 위험군 유형 분류 등에 군집화가 사용될 수 있습니다.

 이러한 군집화는 군집들 사이의 거리는 멀수록, 그리고 한 군집 내에 속한 데이터들 간의 거리는 가까울수록 잘 나누어진 군집이라고 볼 수 있습니다.

3. 추천시스템

유튜브 맞춤동영상 추천

멜론 비슷한 음악추천

출처: 각 사이트

페이스북 알 수도 있는 사람 추천

  추천 시스템이란 내가 좋아하는 영상, 음악, 사람, 물건과 같이 아이템을 추천해주는 시스템을 말합니다. 그러면 새로운 아이템을 추천해주는 기준은 무엇일까요? 여러 종류가 있겠지만 대표적인 것이 사용자의 정보가 가장 큰 기준이 됩니다. 

출처: 유튜브

 이러한 추천시스템을 가진 사이트들은 어떻게 내 취향을 알아서 이렇게 잘 추천해줄까요?

바로 협업 필터링(Collaborative Filtering, CF) 이라는 방법을 사용합니다. 협업필터링은 많은 사용자들로부터 얻은 기호 정보에 따라 사용자들의 관심사들을 자동적으로 예측하게 해주는 방법입니다. 대표적으로 사용자 기반 추천과 아이템 기반 추천 두가지로 나눌 수 있습니다.

 

1. 사용자 기반추천(User-based Recommendation)

출처: 픽사베이

  사용자 기반추천은 나와 비슷한 성향을 가진 사람이 고른 상품을 추천해줍니다. 위의 그림에서 보듯이 나를 유저2 라고 생각해봅시다. 유저1은 피자와 샐러드를 좋아하는 나(유저2)와 비슷한 성향을 가졌습니다. 그리고 그 외에도 콜라를 좋아합니다. 그래서 추천시스템의 협업필터링은 나에게 유저1이 선택한 콜라를 추천해주는 것입니다.

 

2. 아이템 기반추천(Item-based Recommendation)

출처: 픽사베이

  아이템 기반추천은 아이템을 중심으로 비슷한 아이템들을 산 사람은 같은 취향을 가질거란 생각 아래에서 아이템을 중심으로 선택하는 것을 이야기합니다. 피자와 양배추를 먹은 사람이 콜라도 샀다면 피자와 양배추를 산 사람에게 콜라를 추천하는 식이죠.

Think Good AI

앞에서 배운 군집화와 추천시스템을 사용하여 다음과 같이 인공지능이 인간에게 도움을 주고 있다. 또 다른 활용 방법에는 무엇이 있을까?

– 범죄 발생 지역을 군집화 시켜 위험한 지역을 알려준다.

– 인터넷에서 사용자가 자주 주문하는 품목과 그 빈도를 분석하여 미리 물류센터에 저장해 놓는다.

part4-3.. 비지도학습 QUIZ

비지도학습에는 레이블이 필요하다. ( O , X)

Correct! Wrong!

-비지도학습에는 기계가 스스로 그 답을 찾으므로 레이블이 필요하지 않다.

비지도학습에는 유의미한 데이터양이 많을 수록 정확도가 떨어진다.( O , X)

Correct! Wrong!

비지도학습에서 유의미한 데이터의 양이 많으면 군집화된 데이터 그룹의 특성이 명확해지므로 새로운 데이터가 어느 그룹에 속할지 판단하는데 정확도가 올라갑니다..

비지도학습은 답(Label)이 존재하는 데이터를 학습한다. (O, X)

Correct! Wrong!

비지도학습에서는 데이터들이 보여주는 경향성이나 패턴을 찾는 것이 중요하다. (O, X)

Correct! Wrong!

다양한 데이터들을 덩어리로 무리짓는 것을 무엇이라 하는가?

Correct! Wrong!

군집화