라벨이 설문조사한계인 게시물 표시

빅데이터의 진실 (구글 검색, 거짓말, 데이터과학)

이미지
구글 검색 데이터를 분석한 결과, 사람들이 설문조사에서 밝히는 내용과 실제 검색어 사이에는 엄청난 괴리가 존재합니다. 제가 5년 전 데이터사이언스 교육 과정을 이수하면서 처음 접한 이 현상은, 수만 건의 데이터셋을 정렬하고 분석하는 과정에서 더욱 명확해졌습니다. 사람들은 사회적으로 용인되는 답변을 내놓지만, 검색창 앞에서는 가장 솔직한 자신을 드러낸다는 사실이 수치로 증명되고 있습니다. 모두 거짓말을 한다 구글 검색 데이터가 드러낸 인간의 이중성 세스 스티븐스 다비도위츠가 구글 트렌드 데이터를 분석하며 발견한 가장 충격적인 사실은 '사회적 바람직성 편향(social desirability bias)'의 실체였습니다. 이는 사람들이 설문조사에서조차 익명성이 보장되는데도 불구하고 사회적으로 용인되는 답변을 선택하는 심리적 경향을 의미합니다. 제 경험상 국비교육 과정에서 다룬 데이터셋은 기껏해야 수십만 건 수준이었지만, 구글이 보유한 검색 데이터는 그 규모가 비교할 수 없을 정도로 방대합니다. 실제로 페이스북 같은 소셜미디어에서 사람들은 토요일 밤마다 화려한 파티 사진을 올리지만, 넷플릭스 시청 데이터는 대부분이 집에서 혼자 드라마를 몰아보고 있다는 진실을 보여줍니다. 저 역시 제 검색 기록을 누군가 본다면 매우 불편할 것입니다. 키보드를 수집하던 시절의 쇼핑 목록, 자전거 유지관리 팁을 찾던 검색 기록까지는 괜찮지만, 개인적인 고민이나 은밀한 검색어들은 제 전화기에서조차 즉시 삭제하곤 합니다. 암묵적 연상 검사(implicit-association test)는 이러한 무의식적 편견을 측정하는 도구입니다. 이 검사에서 대부분의 사람들은 특정 인종의 얼굴과 긍정적 단어를 연결할 때 몇 밀리 초 더 오랜 시간이 걸린다는 결과가 나왔습니다. 쉽게 말해, 우리가 의식적으로 부정하는 편견이 무의식 속에 자리 잡고 있다는 뜻입니다. 데이터는 우리가 스스로에게조차 하는 거짓말을 숫자로 드러냅니다( 출처: 하버드대 암묵적 편견 프로젝트 ). 빅데이...