Big Data Mining

2011. 10. 26. 23:04전략 & 컨설팅/STEEP

Big data mining과 미래 예측에 대해 나는 낙관적인 쪽은 아니지만, 확률상으로는 꽤 긍정적일 수 있다고 생각한다.

소설을 '개연성 있는 허구'라고 한다면 Foundation의 Psychohistory가 그 대표적 사례일 수도 있겠다.
그러나 서구 과학은 분석과 통합에 치중하면서 인간이라는 복잡한 계를 너무 단순하게/쉽게 생각하고 있다는 생각을 지울 수 없다.

물론, data itself에 대해서는 분석의 가치와 의의와 효과가 있다고 당연히 인정한다만.


http://news.nate.com/view/20111026n00383
중앙일보 퍼옴.

미국 캘리포니아주 샌타크루즈시 경찰이 순찰차에 설치된 컴퓨터를 통해 ‘범죄 예보’를 확인하고 있다. 작은 사진은 컴퓨터가 범죄 발생 가능성이 높다고 꼽은 10개 지점을 지도 위에 표시한 모습. [새너제이머큐리뉴스 제공]
재·보궐 선거 날이 밝았다. 어느 후보가 이길까. 결과를 알려면 투표 집계가 끝날 때까지 기다려야 한다. 이럴 때면 ‘미래를 미리 알 수 있는 방법은 없을까’ 하는 상상이 절로 든다. SF소설의 고전 『파운데이션』 은 인간의 행동법칙을 수학 방정식으로 정리, 미래를 내다보는 심리역사학(psychohistory) 학자가 주인공이다. 2002년 개봉한 영화 ‘마이너리티 리포트’에는 범죄가 일어나기 전 범죄 시간과 장소·범인을 미리 알려주는 치안 시스템 ‘프리크라임(precrime)’이 등장한다. 최근 현실세계에서도 과학의 힘으로 미리 앞날을 내다보려는 시도가 늘고 있다. 물리법칙으로 사회 문제의 해법을 찾는 사회물리학(Social Physics) 연구가 주축이다. ‘빅(big) 데이터’에 숨은 정보를 연구하는 데이터 과학(data science)도 떠오르고 있다.

미국 캘리포니아주의 작은 도시 샌타크루즈. 이곳 경찰은 지난 7월 ‘범죄 예보(crime forecast)’ 시스템을 도입했다. 매일 범죄 발생 가능성이 높은 장소 10곳과 예상시간대를 콕 집어 알려주는 컴퓨터 프로그램이다. 수학자인 조지 몰러 UC샌타크루즈대 교수, 마틴 쇼트 UCLA대 교수가 만들었다.

 빈집·빈차털이 등의 범죄는 사건발생 현장 혹은 그 인근에서 제2, 제3의 범행이 재발하는 경우가 많다. 지진이 난 지역에 여진(餘震)이 반복되는 것과 비슷한 현상이다.

 프로그램 개발자들은 이에 착안, 지진학자들이 여진 발생 가능성을 계산할 때 사용하는 알고리즘과 비슷한 방정식 모델을 만들었다. 도시를 152×152m 단위로 세분한 뒤 과거 8년간 발생한 범죄 패턴을 분석, 격자별 후속범죄 가능성을 따지는 방식이다. 매일 밤 그날 발생한 범죄 정보가 업데이트되고, 컴퓨터는 이를 바탕으로 ‘내일의 범죄’를 예보한다. 과거 범죄에 대한 통계 정보만 제공하던 기존 경찰 전산 시스템과는 딴판이다.

 프로그램 개발을 도운 제프 브랜팅험 UCLA대 인류학과 교수는 LA타임스와의 인터뷰에서 “범죄도 일종의 물리적인 과정(physical process)이다. 범죄자들이 어떻게 움직이고 어떻게 피해자들에게 접근하는지 알 수 있으면 (범죄에 대해) 어마어마한 부분을 이해할 수 있다”고 말했다.

 샌타크루즈 경찰은 올 연말 혹은 내년 1월, 6개월간의 테스트 결과를 발표할 예정이다. 지역 언론은 이와 관련, “도입 후 3주간의 예보 정확도가 71%에 달했다”고 보도했다. 범죄가 예보된 10곳 중 7곳에서 실제 사건이 일어났다는 얘기다. 순찰에 나선 경찰에게 현장에서 범인이 체포된 사례도 있다.

 
◆전염병 유행 미리 알아=미 국가정보국(DNI) 산하 정보고등연구계획국(IARPA)은 지난여름 학계와 업계에 독특한 연구용역을 제안했다. 남미 21개국의 웹페이지와 블로그 등을 자동 검색, 전염병 창궐 등 정치·사회적 혼란을 예측하는 시스템을 만들어 달라는 것이었다. 기한은 3년. 내년 4월 프로젝트 시작을 목표로 올 연말까지 연구기관을 결정할 계획이다.

 인터넷을 검색한다고 전염병이 번지는 것을 미리 알 수 있을까. 세계 최대 인터넷 검색업체인 구글은 2008년 독감 관련 검색어를 집계, 국가·지역별 독감 유행 상황을 예측하는 서비스(www.google.org/flutrends)를 시작했다. 독감 환자만 독감 정보를 검색하는 것은 아니지만 “과거 사례를 보면 상당한 관련이 있다”는 게 구글의 주장이다. 실제로 구글의 예측값은 미 질병통제예방센터(CDC) 등 각국 보건기구의 사후 집계 결과와 거의 일치한다. 더구나 보건기구들의 통계가 대개 일주일 단위인 데 반해 구글의 서비스는 실시간이다. 이 같은 내용은 2009년 2월 세계적인 과학저널 ‘네이처’에도 소개됐다.

 비슷한 사례가 또 있다. 미 컴퓨터 업체 hp의 연구진은 지난해 소셜네트워크서비스(SNS) 트위터에서 오가는 내용을 토대로 할리우드 영화의 흥행 수익을 거의 정확히 예측했다. 재·보선을 앞두고 트위터 이용 추이로 선거 판세 변화를 포착하려는 시도도 기본적으로 같은 원리다. 미 과학재단(NSF)은 이런 흐름을 반영, 지난 8월 SNS를 이용해 지진 피해를 실시간으로 확인하는 연구에 자금을 지원하기로 결정했다.

 정하웅 KAIST 물리학과 석좌교수는 이와 관련, “사회물리학·데이터과학 등의 비약적인 발전으로 향후 10년 정도면 과학으로 미래를 예측하는 분야에서 가시적인 성과가 나타나기 시작할 것”이라고 전망했다.

 복잡계 네트워크 이론의 권위자인 미 노스이스턴대 물리학과의 앨버트-라스즐로 바라바시 교수의 견해는 좀 더 낙관적이다. 그는 최근 뉴욕 타임스와의 인터뷰에서 “빅 데이터 안에는 미래를 예측할 수 있는 거대한 힘이 숨겨져 있다”며 “당신의 매 시간 위치 정보가 있다면, 나는 당신이 한 시간 혹은 하루 뒤 어디에 있을지 93%의 정확도로 맞힐 수 있다”고 장담했다.

김한별 기자


◆빅 데이터
=스마트폰·SNS 대중화에 힘입어 폭발적으로 늘고 있는 대규모 디지털 데이터. 거대한 크기(volume), 빠른 데이터 생성·유통 속도(velocity), 형태적 다양성(variety)이 특징이다. 빅 데이터에 숨겨져 있는 유용한 정보를 캐내 미래를 예측하는 기술을 데이터 마이닝(data mining)이라고 한다