책리뷰

빅데이터 분석대로 미래는 이루어진다 / 우종필

Walnut 2021. 5. 3. 10:10
728x90
반응형

 이 책은 2017년 3월 세종대 경영학과 우종필 교수가 쓴 책이다. 이미 4년이 넘는 시간이 흘렀지만, 빅데이터에 관한 흥미로운 다양한 사례가 나와 기초적인 이해를 하기에 쉽게 접근할 수 있는 책이다. 

 우종필 교수는 트럼프 대통령의 당선을 빅데이터 분석으로 예측하여 유명해졌다. 2016년 당시 미국 제45대 대통령 선거는 민주당 힐러리와 공화당 트럼프의 선거 경쟁이 치열하게 이루어진 해였다. 당시 대부분의 언론들은 힐러리의 당선을 예상했지만, 결과는 트럼프에게 돌아갔다. 나 역시 트럼프의 당선은 놀라운 결과였는데, 이러한 반응은 아무래도 언론의 영향이 컸음을 인정할 수밖에 없다. 수많은 언론들의 선거 여론조사 예상치에도 불구하고, 우종필 교수는 어떻게 트럼프의 당선을 맞출 수 있었던 걸까?

 저자는 선거 기간동안 도널드 트럼프와 힐러리 클린턴의 검색을 구글 트렌드에서 분석했을 뿐이었다! 선거 결과 예측을 사람들의 키워드 검색 데이터를 통해 해냈다니 빅데이터에 대한 호기심이 증대했다.

 

Image from RIDI Books

 

1. 빅데이터가 무엇이길래?

 "우리들이 사용하는 카드내역이나 모바일 폰의 위치정보뿐만 아니라 페이스북에 매일 올리는 사진과 동영상들, 트위터에 올린 댓글들, 블로그의 자료들, 방문한 포털사이트와 검색어들, 온라인 쇼핑몰 및 구매 내역, 심지어 카카오톡 대화 내용까지 모두 다 데이터화 된다. 이처럼 기록으로 데이터화된 것들이 모두 빅데이터라고 생각하면 된다.

 빅데이터의 정의를 보면 '빅 Big+데이터 data'의 합성어로 방대한 양의 데이터를 의미하는 것이 맞지만, 기존에 데이터로 불렸던 정형 데이터 Structured data뿐만 아니라 데이터로 취급되지 않았던 '반정형 데이터'와 '비정형 데이터'를 포함한다는 것이다."

 정형 데이터는 숫자로 나타낼 수 있는 데이터를 의미하고, 반정형 데이터는 인터넷 홈페이지 구축이나 포털사이트 뉴스의 형식 등에 관련된 데이터이다. 비정형 데이터는 텍스트, 이미지, 동영상 혹은 음성처럼 구조화되지 않은 형태의 데이터이다. 빅데이터는 이러한 다양한 종류의 데이터 전부를 포함하는 것이다. 

2. 우종필 교수가 분석 도구로 사용한 구글 트렌드는 무엇일까?

 "구글 트렌드(www.google.com/trends)는 특정 검색어에 대한 검색량을 그래프로 제공하는데, 개별 국가뿐만 아니라 국가의 특정 지역이나 도시에서의 검색량까지 제공한다.

 주의해야 할 점은 특정 기간 동안 실제 검색 횟수를 제공하는 것이 아니라 검색 횟수를 표준화한 후 가장 높았던 검색량을 100으로 가정하고, 나머지 검색량을 0~100 scale의 기준으로 제공하기 때문에, 검색 기간이 바뀌면 검색량의 수치도 다르게 나타난다."

3. 구글 트렌드에서 제공하는 검색량만 가지고 유권자들의 표심을 읽어도 괜찮을까?

 요즘에는 사람들이 인터넷이나 모바일 폰으로 검색하는 경우가 많아졌다. 구글 트렌드에서 호감이나 비호감에 대한 정보까지는 알 수 없지만, 일반적으로 본인이 관심 있는 후보를 더 많이 검색한다는 점을 가정으로 검색량이 많다는 것은 호감의 비율이 높다는 것으로 생각할 수 있다. 

 "구글 트렌드처럼 빅데이터를 이용한 방법은 응답자들의 사회적 바람직성에 대한 편향을 줄일 수 있다는 장점이 있다. 일반적으로 사람들은 속마음을 상대방에게 보이는 것을 원치 않는 경향이 있다." 

 2016년 미국 대선에서 '샤이 트럼프' 현상이 나타났는데, 이들은 외부에는 자신의 표심을 드러내지 않고 실제 투표장 안에서는 본인의 진솔한 감정을 표현함으로써, 대선에서 엄청난 역전을 만들어낸 것이다. 

4. 빅데이터가 어떻게 활용되고 있을까?

 - 2012년 예보 실패로 현재는 서비스를 제공하지 않지만, 구글 독감 트렌드 서비스를 선보인 적이 있다. 독감에 걸린 환자들이 구글에서 고열, 기침, 독감, 두통 등 독감에 관련된 단어를 검색하는 것에 착안해 그 지역에 독감이 시작되었다는 것으로 인식하고 서비스를 제공했었다고 한다. 

 - 2016년 브렉시트 역시 여론조사와 다른 결과가 나왔는데, 구글 트렌드에서의 키워드 분석은 여론 조사와 다른 결과를 보여주고 있었다고 한다. 책의 그래프를 살펴보면, 'Brexit'와 'Eu Referendum' 검색량이 시작이 흐를수록 거의 비슷하게 증가하고 있는데, 이는 유권자들의 관심이 증대됨을 의미한다. 흥미로운 점은 잔류에 대한 여론 조사 영향이 컸음에도 불구하고, 구글 검색에는 'Leave EU'와 'Vote Leave'가 'Remain EU'와 'Vote Remain'의 검색량을 앞지르고 있었다는 사실이다. 

- 아마존은 고객들의 데이터를 활용하여 예측배송 시스템을 적용하고 있다. 고객들의 정확한 구매시기를 파악함으로써 구매 예상 물건들을 근처 지역에 미리 배송함으로써 배송 시간을 줄이고, 물품 할인 정보를 때맞춰 제공하는 등의 맞춤형 서비스를 제공하는 것이다. 

 - 이 외에도 범죄 추세를 예측함으로써 범죄 예방에도 활용될 수 있고, 대중들에게 효과적으로 다가갈 수 있는 키워드를 분석함으로써 효과적인 마케팅 방안을 수립할 수 있다. 기업에서도 객관적인 데이터로 의사결정을 하는데 도움을 줄 수 있으며, 소비자들의 관심이 높아지는 어떤 상품에 대하여 빠른 대응을 함으로써 기업의 매출을 증대시킬 수도 있을 것이다. 정확하지는 않지만 기업에 대한 관심도 분석을 통해 기업 매출이나 주식을 예측할 수도 있다. 다만, 주가는 호재나 악재에 민감하게 반응하므로 구글 트렌드로 예측하는 것이 무의미할 수도 있다고 저자는 말한다. 

5.  빅데이터에는 어떠한 한계점이 있을까?

 - 2013년 미국의 독감 예측이 빗나간 이유는 2012년 발령한 독감 비상 때문이었다고 한다. 각종 미디어에서 독감의 발생을 보도하여 독감에 걸리지 않은 사람들까지 관련 검색을 하는 바람에 감기 전염률을 과대 측정한 것이라고 한다. -> 빅데이터의 결과를 100% 신뢰하는 것이 안전할 수 없다.


 - 빅데이터상에서는 인과관계까지는 제공하지 않는다. 데이터 분석을 위해서는 상관관계만으로 해석하는 것은 올바르지 않고, 좀 더 정확한 분석을 위해서는 인과관계를 면밀히 조사해야 한다. 

 

 

  

반응형