사람들이 언제부터 미합중국을 단수형으로 부르기 시작했는지 보여주는 도표를 인용했던 어느 책에서 이 책을 추천하길래 읽어 보았는데, 개인적으로 빅데이터를 상업적으로 다루는 엔지니어 입장에서는 아쉬움이 남는 내용들이었다. 이 책을 쭉 읽어 내려가면서 언어에 관심이 많은 우리 첫째 아이와 대화를 나누었는데, 결론은 이 책에 흥미로운 이야기가 담겨 있기는 하지만 "그래서 어쩌라고?"라는 말이 나온다는 것이었다. 이 책의 맨 뒤에 책 내용을 바탕으로 국내 상황에 대한 특별좌담을 수행한 내용이 담겨 있는데, 빅데이터 분야 전문가로 유명한 송길영 다음소프트 부사장이 한 말이 내가 가진 견해와 맞아 떨어졌다. 이 책에서 하는 이야기가 새롭고 유의미하긴 하지만 만약 일반 대중의 먹고, 사랑하고, 자는 일상의 변화를 보려는 목적이라면 한계가 있다는 말이다. 물론 그 좌담에서 한국 인문학계에서 빅데이터를 활용한 연구는 개척단계로 구축되어 있는 데이터가 너무 부족하다는 것, 데이터를 선택하고 가공할 수 있는 능력, 거기에 인문학적 통찰을 더해 무엇을 말할 것인가를 판단할 수 있는 능력이 중요하다는 사실을 언급하고 있기는 하다.이 책의 저자 두 명은 각각 하버드대, MIT 출신으로 "30세 이하 주목할만한 30인"과 "전세계 35세 이하 혁신가 탑 35"에 이름을 올린 젊은 수재들이라 한다. 그래서인지 책 내용이 매우 현학적이면서도 유머가 가득하다. 이들은 3000만권 이상의 책을 디지털화하여 앤그램 뷰어와 함께 제공하고 있는 구글의 데이터를 사용해 특정 단어들과 이름들이 긴 시간 동안 얼마나 자주 언급되는지 그 도표를 분석하였다. 구글이 제공하는 웹사이트(books.google.com/ngrams)에 들어가 간단히 키워드 검색을 통해 저자들과 똑같은 일을 할 수 있다. 불행히도 현재시점에서 한국어 베이스는 제공하지 않는다. 엔그램을 사용해 다양한 단어들을 비교 분석한 결과, 단어의 순위와 빈도 사이에는 반비례가 성립한다는 지프의 법칙을 찾아낼 수 있었다고 한다. 만약 어떤 단어의 순위를 숫자로 나타냈을 때 다른 단어의 순위보다 열 배 크다면 그것의 빈도는 다른 단어의 10분의 1이란 말이다. 수세기 동안 우리가 기대하는 것보다 여러 책들에 등장하는 단어들의 수가 적은 편이라는 말이다. 그런데 거의 모든 불규칙동사는 빈도가 매우 높다고 한다. 동사 가운데서 불규칙동사는 겨우 3퍼센트에 불과하지만 가장 빈도가 높은 열 개의 동사는 모두 불규칙 동사라는 것이다. 이는 지프의 법칙에 반하는 사례라 한다. 또한 불규칙 동사들이 자연선택에 의한 진화와 똑같은 과정을 거친다는 사실도 발견할 수 있다고 한다. 불규칙 동사들이 반감기는 그것의 빈도의 제곱근과 같았다면서, 다시 말해 빈도가 100분의 1인 어떤 불규칙동사는 열 배 빨리 규칙화될 것이라는 말이다. 현재 추세가 계속된다면 2500년경에는 불규칙동사 177개 가운데 83개만이 불규칙으로 남을 것이라 전망하기도 했다. 엔그램에 사람 이름을 키워드로 넣게 되면 그들이 얼마나 빨리 명성을 얻고, 또 그 명성이 얼마만큼 이어지는지 눈으로 볼 수 있다. 여러 유명인사들로 검색해본 결과, 데뷔, 기하급수적 성장, 절정, 점진적 쇠락의 형태는 거의 동일했으며, 모든 집단이 대략 태어난 지 4분의 3세기쯤에 정점에 도달했다고 언급하고 있다. 하지만 데뷔 연령은 점차 빨라지며, 명성이 높아지는 속도도 빨라지고 있다고 한다. 1800년대 사람들의 데뷔 연령은 43세였지만, 20세기 중반부터는 29세로 낮아졌다는 말이다. 또한 1800년대 사람들은 데뷔 후 명성이 두 배가 되는데 약 8년이 걸렸지만, 1950년생 집단은 3년 밖에 걸리지 않았다고 한다. 그리고 이 데이터와 직업 데이터를 같이 보면 또 재미있는 정보를 얻을 수 있다고 한다. 직업으로 따지면 배우들은 20대말이나 30대 초에 유명해지고 작가들은 30대 후반에 유명해지며, 정치인들은 대체로 40대, 50대, 심지어 60대까지도 별로 유명하지 않다가 갑자기 명성을 얻게 된다고 한다. 과학자들은 60대에 명성을 얻고, 수학자의 경우 명성을 얻을 때쯤이면 이미 죽은 뒤라고 한다. 그 밖에도 이 책에서는 나치 치하의 탄압, 스탈린의 정적 탄압, 미국의 국내 공산주의 타도 운동, 중국 천안문 사건과 같이 국가권력이 벌인 검열 운동의 효과에 관한 통찰력을 제공해주는 자료도 보여주고 있으며, 집단기억이 개인기억과 비슷한 특징을 가진다는 사실도 증명한다. 특히 집단적인 기억이 최고치에 비해 절반으로 떨어지는 시기가 갈수록 짧아지고 집단이 학습에 소요되는 시간도 점점 더 빨라지고 있다고 한다. 물론 왜 그런지에 대해서는 정확히 알지 못한다고 첨언하고 있다.이 책은 결국 디지털 정보가 점점 중요해지는 사회에서 기계가 우리의 마음을 비롯해 모든 것을 기록하여 디지털화 시키는 상황에 까지 도달할 수 있다는 점을 지적한다. 이게 사회적 이슈가 될 수도 있지만, 인문학을 연구하는 이들에게는 새로운 지평이 열리는 것과 같다고 말한다. 즉, 인류가 벌인 활동에 관한 역사적 기록의 창조 및 보존과 연관된 빅데이터 혁명의 결과물은 우리가 우리 자신을 바라보는 방법을 바꿀 것이란 말이다. 또 우리 사회의 본질을 더 효율적으로 탐색할 수 있는 관찰 도구를 창조하게 해줄 것이며, 결국 빅데이터는 인문학을 바꾸고, 사회과학을 변형시키고, 상업 세계와 학계 사이의 관계를 재조정할 것이라고 말한다. 전반적으로 이 책에서 보여주고 있는 것은 구글에서 제공하는 빅데이터 도구들을 어떻게 인문학 분야에 활용할 수 있는지 그 아이디어를 제공해주는데 의의가 있다고 볼 수 있다. 1차적으로 우리 인간만이 가지고 있다는 언어분야의 연구에 이 정보들을 활용할 수 있다는 것이다. 물론 그 데이터 분석의 통찰력은 언어학 연구자들이 제시해야 하겠지만 말이다.
빅데이터가 일으킬 인문학 혁명 오늘날 우리의 일거수일투족은 디지털 기록으로 남는다. 교통카드와 신용카드 사용 내역, 페이스북에서 누른 ‘좋아요’, 구글 검색, 이메일과 문자 메시지, 그리고 이 모든 것을 찍고 있는 CCTV. 이 기록들만으로도 우리의 하루를 재구성할 수 있을 만큼, 현대인은 수없이 많은 디지털 지문과 발자국을 남기며 살고 있다. 뿐만 아니라 도서관이나 박물관에서 잠자고 있던 옛 문헌들, 그림과 지도, 심지어 유물과 유적까지 과거인의 삶도 속속들이 디지털 세계로 진입하고 있다. 짧은 시간에 기하급수적으로 불어나는, 형태도 제각각이고 가치나 질도 제각각인 이 엄청난 양의 디지털 기록, 즉 빅데이터가 바로 인문학이 새롭게 맞닥뜨린 기록의 현장이다. 인간을 이해하기 위해서는 이제 책을 넘어서 데이터를 읽어야 하는 시대가 온 것이다. 디지털 시대의 인문학은 곧 데이터를 읽는 눈이다. 빅데이터 인문학: 진격의 서막 은 지금까지 인간이 축적해온 기록 유산과는 규모 면에서 비교가 불가능한 어마어마한 양의 디지털 기록, 즉 빅데이터라는 새로운 환경에서 인문학이 맞이하게 될 혁명적인 변화를 보여주는 책이다. 30대 초반의 과학자인 두 저자는 첨단 과학기술이 제공하는 도구를 사용한다면, 인문학이 인간에 관해 지금껏 알지 못했던 새로운 사실들을 밝혀낼 수 있으리라 전망한다. 빅데이터는 그동안 물리적, 기술적 한계 때문에 접근할 수 없었던 많은 영역을 열어젖히며 인문학을 확장해나갈 것이다.
chapter 1 빅데이터가 일으킬 인문학 혁명 -8
역사적 변화를 측정하는 현미경이 있다면 | 디지털 지문 | 빅데이터 | 연구자들의 신대륙, 디지털 데이터 | 구글의 야심, 단 하나의 도서관 | 롱데이터 | 더 많은 데이터, 더 많은 문제들 | 컬처로믹스
Episode 1 그림 한 점은 단어 몇 개의 가치와 맞먹을까? -36
chapter 2 데이터 오디세이: 언어는 어떻게 진화하는가 -38
장기적 관점 | 문자언어, 빅데이터의 가장 오래된 조상 | 1937: 데이터 오디세이 | 멱법칙 | 언어 진화의 화석, 불규칙동사 | 2005: 또 다른 데이터 오디세이 | 불규칙동사의 반감기 | 존 하버드의 반들반들한 구두 | 색인은 죽지 않았다 | 장미를 분해해 꽃잎 세기
Episode 2 불규칙동사의 배신 -68
chapter 3 데이터로 사전 만들기 -70
29세 억만장자의 심리학 | 페이지의 페이지들 | 빅데이터와 저작권 문제 | 그림자 데이터 만들기 | 저작권 문제의 돌파구, 엔그램 | 단어란 무엇인가 | 사전편찬, 인간의 오래된 그러나 불완전한 기술 | DIY 사전 | 사전이 발견하지 못한 단어들 | 빅데이터로 보는 언어의 성장과 죽음
Episode 3 baby와 sitter가 만나기까지 -102
chapter 4 사람은 어떻게 유명해지는가 -104
데이터 청소하기 | 스티븐 핑커의 명성을 사다 | 명성은 어떻게 찾아오는가 | 라이트 형제의 바람터널 | 거의 유명하면 충분히 유명하다 | 명성을 질병처럼 다루기 | 명예의 전당 | 더 빨리, 더 많이 유명해지는 만큼 더 빨리 잊힌다 | 어떻게 유명해질 것인가: 직업 선택을 위한 가이드 | 지난 200년 동안 가장 유명한 사람
Episode 4 버즈 올드린을 아십니까? -150
chapter 5 침묵의 소리: 빅데이터가 말하는 억압과 검열의 역사 -152
샤갈의 명성 | 퇴폐 미술전 | 나치의 분서 정책 | 사라진 이름들 | 검열을 자동으로 추적할 수 있을까 | 억압과 검열을 넘어 백만 개의 통로로 스며들다 | 후기
Episode 5 권리는 또 다른 권리를 낳고 - 사상의 번식과 진화 -182
chapter 6 기억과 망각의 속도 -184
기억 실험 | 집단기억과 집단망각에 관한 연구 | 망각곡선 | 오래된 것들의 퇴장, 새로운 것들의 입장 | 큰 아이디어는 천천히 움직인다 | 누가 언제 발명했는가 | 발명품이 널리 확산되기까지 | 사회는 점점 더 빨리 배우고 있다 | 문화를 수량화할 수 있을까 | 데이터가 그리는 아름다운 곡선 | 엔그램 중독자들
Episode 6 화성인들은 화성에서 오지 않았다 -216
chapter 7 유토피아, 디스토피아, 데이터토피아 -220
과거의 디지털-책, 신문, 미출간 원고, 물건들 | 현재의 디지털 | 미래의 디지털 | 디지털 기록의 양면성 | 데이터는 권력이다 | 과학과 인문학, 지평을 공유하다 | 데이터는 사회과학의 오랜 꿈을 실현할 수 있을까
부록
빅데이터로 보는 문화사 : 1800~2000 _ 253
■ 감사의 말 _ 278
■ 도표에 대하여 _ 286
■ 주 _ 288
■ 특별 좌담 _ 인문학을 위한 빅데이터 사용 설명서 _ 341
김재중(번역자, 경향신문 기자), 송길영((주)다음소프트 부사장), 천정환(성균관대학교 국어국문학과 교수), 허수(한림대학교 한림과학원 교수)
■ 찾아보기 _ 370