지속가능한 세상을 위한 데이터 이야기

   
박옥균
ǻ
이상북스
   
15000
2022�� 02��



■ 책 소개


데이터로 가득 찬 세상을 헤쳐나가는 힘
제대로 알아서 똑똑하게 활용하자!

우리의 일상과 데이터는 이제 떼어놓고는 생각할 수 없는 지경에 이르렀다. 너무 익숙해져 없으면 못살 것 같은 이메일과 포털 사이트 활용, 컴퓨터 게임, 하루에도 몇 번씩 들여다보는 카카오톡과 인스타그램, 페이스북, 생활의 일부분이 된 인공지능 빅데이터, 플랫폼 경제와 블록체인, 메타버스까지. 데이터 기술의 발전은 일상생활의 필수 기능은 물론 우리의 상상을 뛰어넘는 모습을 매일 새롭게 선보이고 있다.

‘지속가능한 세상을 위한 데이터 이야기’는 데이터로 가득 찬 시대를 살아가는 청소년들에게 인류의 출발과 함께 발전해 온 데이터의 발전 과정과 현재의 모습을 조목조목 설명하고, 청소년들이 열어 갈 미래 사회의 새로운 모습까지 가늠할 수 있는 균형 잡힌 데이터 교양을 제시한다.

저자는 컴퓨터 통신이 시작되던 시기부터 오랜 기간 데이터를 다루는 현장에서 데이터 기술을 개발하고 활용한 경험을 바탕으로 단순한 기술로서의 데이터가 아니라 통합적인 데이터 이야기를 전달한다. 과학, 기술, 인문 등 다양한 각도에서 데이터를 살펴보면서 독자들은 데이터에 관해 스스로 익히고, 체험하고, 개발할 수 있는 능력을 키울 수 있다. 각자의 관심에 따라 데이터를 활용하고 구축하면서, 지속가능한 데이터 생활을 해 나갈 잠재력을 키우는 데 이 책은 좋은 길잡이가 될 것이다.

■ 저자 박옥균
저자 박옥균은 서울대학교 물리교육과에서 ‘과학’과 ‘교육’을 공부했습니다. 중학교에서 3년 동안 과학을 가르쳤고, 포털 사이트 ‘파란’의 전신 ‘하이텔’에서 엔지니어로 일했습니다. 2002년부터 도서 정보 사이트 ‘리더스가이드’를 운영했으며, 2013년부터 빅데이터 관련 기술을 공부하면서 도서 6만 종에 대해 빅데이터 작업을 진행했습니다. 빅데이터 관련 특허 두 건(‘도서 관리 시스템 및 도서 관리 방법’, ‘집단 지능을 이용한 상품 검증 방법’)을 등록했고, 데이터 교육과 관련한 자문과 최신 흐름에 대한 컨설팅을 수행하고 있습니다. 지은 책으로는 여러 사람이 함께 쓴 ‘100인의 책마을’이 있습니다.

■ 차례
들어가며

1장 태초에 데이터가 있었다!
1. 데이터의 탄생
2. 문명과 데이터
3. 데이터와 언어
4. 지식과 정보 그리고 데이터
5. 빅데이터
2장 데이터는 어떻게 발전해 왔을까?
1. 컴퓨터가 닮고 싶은, 뇌
2. 데이터가 모여 생기는, 패턴
3. 전문용어에서 일반어가 된, 알고리즘
4. 정보 알고리즘 vs 데이터 알고리즘
5. 빅데이터와 AI

3장 우리 생활 속 데이터는 어떤 모습일까?
1. 데이터 씨와 함께하는 하루
2. 의학과의 만남
3. 법과의 만남
4. 예술과의 만남
5. 콘텐츠와의 만남

4장 데이터가 만든 세상, 데이터가 만들어 갈 세상
1. 데이터 발자국
2. 데이터 중독
3. 데이터 시대의 학습
4. 미래 직업
5. 포스트휴먼

5장 빛과 어둠이 공존하는 데이터 사회
1. 데이터 경제학
2. 데이터 정의론
3. 데이터 민주주의
4. 오래된 민주주의를 찾아서

이미지 출처

 




지속가능한 세상을 위한 데이터 이야기


태초에 데이터가 있었다!

데이터와 언어

컴퓨터에 적합한 언어는 무엇일까?

인공지능에서 가장 중요한 것이 언어입니다. 우리가 가장 많이 쓰는 인공지능형 프로그램이 번역기인 것을 보면 알 수 있지요. 언어를 인공지능으로 처리하려면 자연어 처리가 필요해요.


‘자연어 처리’는 컴퓨터가 마치 인간처럼 언어를 자연스럽게 처리한다는 뜻입니다. 자연어 처리를 위해서는 명사 같은 단어뿐만 아니라 다양한 언어의 특성을 디지털 데이터로 만들 수 있는 말뭉치가 필요합니다. ‘디지털 언어 사전’으로 비유할 수 있지만, 단어 중심의 기존 사전과는 달리 문맥 중심의 사전이라 기존 사전보다 복잡하고 높은 기능을 요구합니다.


영어는 150년이 넘는 기간 동안 언어를 분석해 축적해 왔습니다. 그만큼 말뭉치 연구와 결과물이 풍부하겠지요? 한글은 국립국어원에서 2015년부터 말뭉치를 만들기 시작했어요. 아직 얼마 되지 않았지요. 구글 번역기에서 가끔 한국어 번역이 어색한 것은 그런 말뭉치 데이터가 풍부하게 구축되어 있지 않기 때문이라고 할 수 있습니다.


지식과 정보 그리고 데이터

인간의 정신적 산물인 지식은 여전히 중요한데 어느 때부터인가 정보 또는 데이터에 대해서만 이야기합니다. 무슨 이유 때문일까요? 결론부터 말하면, 지식은 여전히 중요하지만 기술의 발달로 인해 정보와 데이터를 더욱 잘 다룰 수 있게 되었기 때문입니다.


정보가 본격적으로 세상의 중심으로 나타나기 시작한 시기는 1970년대입니다. 미국은 제2차 세계대전 이후 경제가 급속하게 발전했습니다. 1970년대에 이르러 모든 가정에 전화기가 공급되었고, 통신 기술도 크게 발달합니다. 처음에는 대화를 나누는 전화로만 사용되던 통신이 전자식 전화기가 나오면서 전화기 버튼을 이용하는 홈쇼핑 등에 사용되기 시작했습니다. 이게 조금 더 발달하면서 단말기라는 기계가 보급되기 시작합니다. 단말기는 문자를 볼 수 있고, 지금의 키보드처럼 문자와 기능을 가진 버튼이 있었습니다. 기업들은 단말기에 다양한 ‘정보’를 제공하기 시작했습니다.


IT 혁명 시대

1990년대 초 인터넷이 등장하면서 IT 혁명이라고 할 정도로 정보 서비스가 크게 발달합니다. 우리나라는 이때 IT 강국이 되었습니다. 조금 다른 이야기지만, 왜 한국이 IT 강국이 됐는지 생각해 보았나요? 지금은 50-60대가 된 베이비부머 세대가 이때 20-30대였습니다. 젊은 세대라 변화에 대한 열정이 있었고, 이전 세대에 비해 대학을 졸업한 인구가 많아져서 학습 능력 또한 높았다고 할 수 있어요. 시기와 사람이 잘 맞아떨어진 경우라고 할 수 있지요.


내용의 질이나 가치 면에서는 데이터보다는 정보가, 정보보다는 지식이 더 우위라고 해야겠지요. 여기에 하나를 더해 지식을 넘어서는 '지혜'를 포함할 수 있지만, 기본적으로는 데이터, 정보, 지식, 이렇게 세 가지만 생각하면 됩니다. 그런데 그 가치와는 반대로 세상의 관심사가 정보와 데이터로 넘어가는 이유는 속도와 양의 엄청난 발전 때문입니다.


IT 시대가 되면서 누구나 정보를 실시간으로 접할 수 있게 되었습니다. IT 시대 전에는 주로 데이터가 연구나 학문 등에 사용되었습니다. 뉴스 등에 제공되는 정보에는 데이터가 부족했어요. 그런데 모바일 시대가 오고, 컴퓨터 저장 용량이 늘고, 통신 속도가 빨라지면서 ‘주어진’ 정보만 전달하는 것이 아니라 데이터를 취합해 ‘새로운’ 정보를 만들어 제공하는 기술이 발달하게 됩니다. 학문의 영역뿐만 아니라 일반 기업들도 데이터를 손쉽게 가공하게 됨으로써 ‘누구나’ 데이터를 이야기하는 시대가 열린 것이지요.


지식과 정보는 그 자체로도 사용할 수 있지만, 데이터는 대부분 음식의 재료처럼 요리 과정을 거쳐야 정보나 지식이 될 수 있어요. 데이터를 잘 활용하면 지금까지 없던 정보와 지식을 만들 수 있습니다. 정보와 지식의 양과 질이 데이터를 통해 크게 확장할 수 있게 된 것이지요.


빅데이터

어떤 지식을 공부할 때 무조건 외우는 것보다 조금 비틀어 보고 다르게 생각해 보는 사람이 그 지식을 풍부하게 적용할 수 있다고 합니다. 빅데이터라는 표현도 그렇습니다. 어떤 사람들은 빅데이터라는 표현을 두고 ‘데이터를 많이 다루는 기술이구나’ 또는 ‘많은 데이터가 있는 분야에 적용할 수 있는 기술이겠구나’ 생각합니다. 맞는 이야기지만 뭔가 부족합니다.


연결되어 가치가 높아지는 데이터

‘구슬이 서 말이어도 꿰어야 보배다’라는 속담에 힌트가 들어 있어요. 구슬은 지금처럼 유리가 흔하지 않았던 옛날에는 보석과도 같은 것이었을 겁니다. 그런데 서 말(4리터짜리 페트병 열두 통 부피)이면 무척 많은 양입니다. 귀중한 보석이 아무리 많더라도 다듬고 정리해야 가치가 있다는 뜻으로 새길 수 있겠죠.


이때 필요한 것이 구슬이 가지고 있는 데이터를 보는 눈입니다. 파란색에는 젊음이라는 데이터가 있음을 간파하고, 또 각각의 구슬 크기를 나누는 기준 데이터를 만들어 짝을 지어 놓으면, 구슬을 사려는 사람들의 다양한 요구를 빠르고 정확하게 맞출 수 있습니다.


이제 꿰는 눈이 생겼다면 무엇을 해야 할까요? 구슬(데이터)을 모아야겠죠. 데이터를 모으는 방법은 크게 두 가지가 있습니다. 하나는 무료로 얻는 방법, 두 번째는 만드는 방법.


공공 데이터베이스 외에 기업의 웹사이트도 참고할 수 있어요. 이런 곳에서 데이터를 가져오는 기술을 크롤링이라고 합니다.


여기서 주의할 것이 있어요. ‘허락한’ 경우만 데이터를 가져올 수 있다는 점이에요. 남이 애써 만든 것을 그냥 가져오면 도둑질이 되지요. 다행히 포털 사이트 같은 큰 사이트들은 가져갈 수 있는 데이터를 미리 정해 놓고 잘 가져갈 수 있도록 지원하고 있어요.


어떤 정보를 만들고 싶은데 데이터가 없는 경우에는 데이터를 만들어야겠지요. 대표적인 경우가 메타데이터입니다. 메타데이터는 주어진 데이터를 묶어 새롭게 만든 데이터를 뜻해요. 앞에서 언급한 ‘구슬’은 색깔, 크기, 재료 등이 기본 데이터일 거예요. 그런데 젊음이나 건강 같은 의미를 지닌 구슬 목걸이를 찾는 사람을 위해 파란색 구슬과 초록색 구슬에는 ‘시원함’, 노란색 구슬과 빨간색 구슬에는 ‘따뜻함’이라는 데이터를 연결해 놓으면 어떨까요? 이때 ‘시원함’, ‘따뜻함’은 원래 있던 데이터가 아니라 기존의 색깔 데이터를 넘어선 새로운 데이터, 즉 메타데이터가 되는 것이지요.


구슬의 크기나 색깔 등의 데이터만 가진 상인보다 ‘느낌’이라는 새로운 데이터를 가진 상인이 물건을 더 많이 파는 것은 당연한 일이겠지요. 이렇게 메타데이터는 새로운 데이터이기 때문에 메타데이터를 이용해 만든 정보는 귀중한 가치를 가지게 됩니다.



빛과 어둠이 공존하는 데이터 사회

데이터 경제학

데이터의 물신성

데이터와 화폐는 어떤 관계가 있을까요? 최근에는 ‘데이터가 돈’이라는 이야기를 많이 합니다. 데이터를 사고팔기도 하고 가상 화폐도 나올 정도니까요.


데이터가 돈과 안보에 영향을 미치는 것까지는 받아들일 수 있습니다. 그런데 데이터가 신의 위치에 올라설 수 있다는 주장도 있습니다. 유발 하라리는 <호모 데우스>에서 ‘데이터가 신’이 되었다고 말합니다. ‘데이터교’라는 종교가 탄생했다고까지 이야기합니다. 책 제목 ‘호모 데우스’(Home Deus)에서 ‘호모’는 사람 속을 뜻하는 학명이고, ‘데우스’는 라틴어에서 유래한 말로 ‘신’이라는 뜻입니다. 하라리는 데이터가 신과 같은 위치가 되었다는 근거로 불멸, 행복, 신성을 이야기합니다. 이 세 가지 가치가 데이터와 어떤 관계가 있을까요?


‘불멸’은 생명공학의 발달과 관련이 있습니다. 하라리는 데이터와 AI를 이용하는 생명공학의 발달로 인해 죽음도 초월한 존재의 탄생, 사이보그 공학으로 인간의 능력을 뛰어넘는 초인간의 도래, 뇌와 컴퓨터의 연결로 인간이 비유기체와 합성되는 미래를 이야기합니다.


‘행복’과 관련해서는 약물 치료 혹은 생화학적 구성의 변경으로 끝없는 쾌락이 가능한 미래를 이야기합니다. 이렇게 데이터의 활용으로 불멸과 행복이 가능해진다면 사람들이 데이터를 신처럼 믿지 않겠느냐고 이야기합니다. 인간이 만든 데이터에 신의 지위를 부여한다니 많이 당황스럽습니다. 그런데 과거에도 물질에 신의 영역을 부여한 경제학자가 있었습니다.


바로 카를 마르크스입니다. 그는 자본주의의 가장 큰 특징 가운데 하나로 물신숭배를 꼽았습니다. 인간 노동의 산물에 불과한 상품이나 화폐 자본이 마치 고유의 힘을 가진 것처럼 독자적으로 움직이며, 결국 인간을 지배하게 된다는 것입니다. 화폐는 상품과 상품, 상품과 인간을 연결하기 위해 만든 것이지만, 어느 순간 지배력을 가지게 됩니다. 화폐가 자신의 논리에 따라 움직이고, 돈이 돈을 벌고, 인간의 관계에 영향을 미치고, 사회적 신분을 규정하기까지 합니다. 인간과 사회 전체를 지배할 능력을 가지게 됩니다.


플랫폼의 데이터는 이용자들이 입력하고, 활동하고, 반응함에 따라 만들어집니다. 하지만 그 데이터의 소유자는 플랫폼 기업이지요. 플랫폼 기업은 그 데이터를 이용해 돈을 벌 뿐만 아니라 우리의 생활을 규정합니다. 먹고 싶은 음식을 골라 주고, 입고 싶은 옷을 찾아 주고, 여행 갈 곳을 알려 주고, 사랑하는 사람과 해야 할 일을 알려 줍니다. 데이터를 잘 만드는 사람에게는 보상을 해주고, 보상을 받은 사람들은 경제적 혜택뿐만 아니라 사회적 명망도 가지게 됩니다. 유튜브는 이런 과정을 가장 쉽게 알 수 있는 플랫폼입니다.


데이터의 소유권

데이터가 물신성을 가진다면, 데이터를 소유한 기업들은 어떨까요? 유발 하라리의 표현을 빌리자면, 구글 같은 플랫폼 기업이 ‘신’처럼 전지전능한 지위를 가질 수도 있겠지요.


그렇다면 어떻게 해야 할까요? 하라리는 특정 플랫폼 기업이 데이터를 소유하게 해서는 안 된다고 말합니다. 독점해서는 안 된다는 이야기입니다. 하지만 GAFA(구글-애플-페이스북-아마존의 약어)는 각 분야에서 시장을 거의 독점하고 있습니다.


문제는 플랫폼 기업은 이전에 없던 형태라 규제할 근거가 없다는 것입니다. ‘배달의민족’ 같은 플랫폼은 소비자에게 상품 가격을 높게 받지는 않습니다. 그렇기 때문에 새로 법이 만들어지기까지는 소비자의 피해 구제를 목적으로 한 현재의 법으로는 규제하기 힘든 상황인 거죠. 법이 기술의 발전을 따라가지 못하는 일들이 벌어지고 있습니다. 데이터 플랫폼은 앞으로도 계속 발전할 것이므로 이런 일은 반복될 가능성이 높습니다.


결국 중요한 것은 데이터의 소유권입니다. 데이터의 대부분은 국민들 한 사람 한 사람에 의해 만들어진 것인데, 독점 기업들이 마음대로 사용한다는 것이 문제입니다. 사용자로부터 생성한 데이터의 공유, 데이터에서 발생한 이익의 나눔 등에 대해 다양한 논의가 이루어질 필요가 있습니다. 모든 데이터의 이용자가 함께 고민해볼 주제입니다.


데이터 민주주의

"바보야, 문제는 클릭이야!"


미국의 유명한 정치 구호를 패러디한 표현입니다. 보통은 ‘클릭’을 넣은 자리에 ‘경제’라는 말이 들어갑니다. 전 미국 대통령 빌 클린턴의 대표적인 정치 구호였죠. 그런데 문제가 클릭이라니, 무슨 말일까요?


소셜 미디어의 가짜 뉴스(게시물)가 진짜 뉴스(게시물)보다 여섯 배는 더 많이 전파된다고 합니다. 여기서 전파는 바로 ‘클릭’을 의미하죠. 해당 게시물을 클릭한 사람은 그 게시물을 보려고 했겠죠? 그러니 가짜 뉴스가 범람한다는 의미입니다. 가짜 뉴스를 읽은 사람들은 결국 바른 판단을 하기 어렵게 됩니다. 시민들이 가짜뉴스에 의존해 투표를 한다면 민주주의는 어떻게 될까요?


이런 현상을 보고 많은 사람들이 ‘민주주의가 무너지고 있다’고 말합니다. 주인이 주인답지 못할 때, 민주주의에 가장 큰 위기가 옵니다. 민주주의에서 말하는 주인의식은 큰소리로 자기 주장 을 펼치거나 같은 생각을 가진 사람들과만 가깝게 지내려는 의지 또는 행동이 아닙니다. 민주주의의 주인의식은 국가나 사회 전체를 생각하는 마음가짐입니다. 하지만 현실은 정반대로 가고 있습니다. 심리학에서는 확증 편향이라는 말을 합니다. 사람은 자신의 생각이나 판단에 부합하는 정보에만 주목하는 경향이 있다는 말이지요. 하지만 디지털에서 왜곡된 뉴스들은 단순한 확증 편향을 넘어 정당한 정책까지 음모론으로 왜곡해 버립니다.


디지털 음모론

전문가들은 이처럼 특정 성향에 치우친 뉴스를 지속적으로 소비할 경우 ‘필터 버블’(filter bubble)에 갇힐 수 있다고 경고합니다. 필터 버블은 소셜 미디어의 맞춤형 필터링 서비스가 사용자의 시각을 좁히는 거품으로 작용하는 현상을 가리킵니다. 페이스북이나 트위터 등 SNS를 통한 뉴스 소비가 늘면서 이런 필터 버블은 갈수록 심화되고 있습니다.


소셜 미디어의 어떤 특성이 이런 상황을 만들고 있을까요? ‘클릭’은 플랫폼 사업자에게는 ‘돈’입니다. 클릭 수가 많아지면 플랫폼에 있는 시간이 많아지고, 그 시간이 많아질수록 광고 매출이 늘어납니다. 다큐멘터리 영화 <소셜 딜레마>에 나오는 증언들을 보면, 클릭을 유도하기 위해 페이스북이나 유튜브의 알고리즘은 ‘더 강한’ 자극을 주도록 설정되었다고 합니다.


디지털 공간과 극단의 정치화

민주주의 자체가 사이버 공간에서 훼손되고 있습니다. 디지털이 일으킨 문제 중 가장 큰 문제는 공동체의 붕괴입니다. 흔히 대화에서 금기되는 주제로 ‘정치’와 ‘종교’를 꼽습니다만, 기성세대 사람들은 만나면 정치 이야기를 곧잘 합니다. 정치 이야기는 말하지 않으면 답답함을 느끼는 주제이기 때문이지요. 그래서 정치 이야기를 하다가 말싸움으로 연결되는 경우도 많습니다. 하지만 계속 만나야 할 사람들이기에 그 과정을 통해 조금씩이라도 서로의 정치 입장을 이해해 왔습니다.


지금은 그럴 필요가 없습니다. 소셜 미디어에서 자기와 같은 부류의 사람들을 만나 실컷 해소할 수 있으니까요. 그렇게 되면서 정치만 극단으로 가는 것이 아니라 사회 공동체도 점점 극단으로 가고 있습니다. 공동체가 무너지면 사회가 무너지고 국가가 무너질 수 있습니다. 현재 세계 각국에서 국가가 무너지지는 않았지만 포퓰리스트가 권력을 잡는 선거 결과가 나오고 있습니다. 일부 국가에서는 독재자가 집권하고 있습니다.


모든 발전에는 ‘빛’과 ‘어둠’이 있는 듯합니다. 인터넷의 발달로 시민이 정치에 직접 참여할 기회가 넓어진 것은 분명합니다. 하지만 불평등과 정치 극단화 현상도 함께 나오고 있습니다. 새로운 기술이 주는 혜택만 보지 말고, 우리가 잃어 가는 소중한 가치는 없는지 살펴야 할 것입니다. 그런 관점에서 민주주의를 위해 소셜 미디어에 관한 법률에 대해 새롭게 논의하고, 독재의 수단이 되지 않도록 규제할 방법을 찾고, 공동체의 복원을 생각하는 연구가 필요해 보입니다. 구체적으로는 정치 주장이나 입장을 극단화하는 알고리즘을 통제할 법을 만들고, 디지털 문화를 위한 인문학 작업이 필요하지 않을까 싶습니다.


* * *


본 도서 정보는 우수 도서 홍보를 위해 저작권자로부터 정식인가를 얻어 도서의 내용 일부를 발췌 요약한 것으로, 저작권법에 의하여 저작권자의 정식인가 없이 무단전재, 무단복제 및 전송을 할 수 없으며, 원본 도서의 모든 출판권과 전송권은 저작권자에게 있음을 알려드립니다.