K-Class

  • >
  • VIDEO >
  • K-Class
제목 디지털인문학과 데이터과학
작성자 관리자 작성일 2018.04.09 11:17 조회 266

 

 수학4
디지털인문학과 데이터과학
강연자 : 장원철_서울대 통계학과 교수
 

 

셰익스피어가 알고 있었던 단어의 개수는 얼마인가? 예송논쟁에서 중요한 역할을 한 알려지지 않은 역사적 인물들은 과연 있을까? 문학작품에서 진위여부를 정량적으로 판단할 수 있을까? 숫자와 가장 어울리지 않을 것 같은 인문학이 어떻게 21세기에 데이터과학을 새로운 파트너로 만났을까? 이번 강연을 통해 모든 질문에 대한 답변을 찾아보고자 한다.


■ 강연자 : 장원철_서울대 통계학과 교수
■ 패   널 : 임채영_서울대 통계학과 교수
■ 사회자 : 김근수_연세대 물리학과 교수

 

 

 

 

 

 

 

 

 

 

[ 강연자 소개 ]

1969년 아폴로 우주선이 달 착륙하던 해에 태어났다. 왼손잡이라고 주목받는 것 이외에 아주 평범한 학생시절을 보냈으며 대부분의 시간을 독서, 야구경기 시청과 공상하는데 보내곤 했다. 칼 세이건의 <코스모스>를 읽고 천문학자를 꿈꾸었으며 “주간야구”를 구독하면서 야구단에서 일하는 모습을 상상하기도 했다. 통계학을 통하여 천문한, 유전학, 역학, 뇌인지과학, 사회과학 등 다양한 분야의 학자들과 공동연구를 진행하면서 어린시절 꿈을 좇고 있다. 

2012년 카이스트 정재승 교수와 함께 한국야구학회 창립을 주도, 학회부회장을 맡았고 과학자들의 작은 도시 강연기부 프로그램인 “과학, 10월의 하늘을 날다”를 위해 매해 강연 재능기부를 하고 있다. 과학자과 일반 대중과의 소통에 관심이 많으며 정보의 홍수시대에 통계학을 이용하여 어떻게 유용한 정보를 얻을 수 있는지 알리고자 대중강연에 적극적으로 참여하며 있으며 여전히 롯데 자이언트가 다시 우승하는 날을 기대하고 있다. 

 

[ 강연요약문 ]

예송논쟁에서* 중요한 역할을 한 알려지지 않은 역사적 인물들은 과연 있을까? 세익스피어가 알고 있었던 단어의 개수는 얼마인가? 어떤 문학작품의 진위여부를 정량적으로 판단할 수 있을까? 숫자와 가장 어울리지 않을 것 같은 인문학이 어떻게 21세기에 데이터과학을 새로운 파트너로 만났을까? 이 모든 질문에 대한 답변이 궁금하다면 4월 4일 바로 이 강연을 들어야 합니다!

 

2003년까지 인류가 만들어 낸 자료의 총 크기가 5엑사바이트(1018바이트) 정도인데 요즘은 이틀에 한번 꼴로 이 정도 규모의 자료가 생성된다고 합니다. 하지만 이러한 정보의 홍수 속에서 실제로 유용한 정보를 찾는 것은 건초더미에서 바늘 찾기 만큼 어려운 일입니다. 정보가 21세기의 기름이라면 분석은 연소엔진이라는 비유가 있듯이 쏟아지는 정보의 바다에서 등대를 찾아 헤매는 우리에게 데이터과학은 나침반과 같은 존재입니다.

 

빅데이터의 시대를 맞이하여 인류가 궁금해 왔던 많은 문제에 대해서 답변이 이루어지고 있습니다. 꿈의 재생과 유전체 정보에 대한 분석은 인류가 오랫동안 갈망해오던 시대의 서막을 알리고 있지만 한편에서는 빅데이터의 그늘을 두려워하는 시선도 존재하는 것이 사실입니다.

 

이러한 데이터의 시대에서 한발 짝 옆에 비껴 서있는 것 같은 인문학에서도 변화의 물결은 감지되고 있습니다. 디지털 인문학은 역사, 문학 등 다양한 인문학 분야의 오래된 질문에 대해 디지털화된 대규모 자료를 이용하여 새로운 답변을 얻어내고자 하는 분야입니다. 

 

예를 들면 셰익스피어는 약 18,000개의 단어를 작품에 사용했는데 그 중 “road”, “hurry”와 같은 단어를 포함한 1700개의 단어는 그가 새로 만들어 냈다고 합니다. 그렇다면 그가 실제로 알고 있었던 총 단어의 숫자는 얼마나 될까요? 또한 그의 작품 중에 진위여부에 대한 논란이 끊이지 않는 작품들에 대해서 정량적 분석을 통한 진위여부의 판단은 가능할까요?

이와 같이 문학작품을 정량적으로 분석하는 분야를 ‘양식측정학’이라고 합니다. 19세기 말에 시작된 양식측정학은 구글 도서관 프로젝트와 구텐베르크 프로젝트를 통한 대규모 문학 작품의 디지털화와 텍스트 마이닝의* 등장으로 비약적인 발전을 이루게 됩니다. 

 

이 강연에서는 디지털 인문학을 통하여 문화 예술 전반에 대한 새로운 시각을 제공하고자 합니다. 조산왕조실록의 분석을 통한 예송논쟁의 재조명에서부터 미국대통령 주례연설문 실제 작성자의 발견까지, 전혀 어울릴 것 같지 않는 커플 ‘데이터과학’과 ‘디지털 인문학’과 함께 정보의 바다로 같이 떠나 보지 않으시겠습니까? 

 

* 예송논쟁 : 예송(禮訟) 또는 예송논쟁(禮訟論爭)은 예절에 관한 논란으로, 효종과 효종비 인선왕후가 죽었을 때 계모인 자의대비(慈懿大妃)가 얼마동안 상을 치러야 하느냐(복상기간)을 둘러싸고 현종, 숙종 대에 발생한 서인과 남인간의 논쟁이다. (위키백과)
* 텍스트 마이닝 (Text Mining) : 사람이 써 놓은 글을 분석해서 뭔가 쓸 만한 내용을 뽑아내는 것. (구글)

 

[패널 토의 ]

 

1. 모든 것은 통계다.
통계학은 실제로 어떻게 활용되고 있는가? 그 다양성과 깊이

 

[3분수학] 과학의 도구로서의 통계학 : 임채영_서울대 통계학과 교수

 

2. 데이터과학의 조건, 데이터과학자가 되려면?
수학과 통계학의 차이, 지금 핫한 데이터과학, 인공지능시대의 데이터과학자

 

3. 예측과 오류
선거예측, 범죄예측, 역사적 오류 사례 등

 

※참고자료

조재근 <통계학, 빅데이터를 잡다> 한국문학사
조던 엘런버그 <틀리지 않는 법: 수학적 사고의 힘> 열린책들

 

전체 0 개의 코멘트가 있습니다.
0 / 500byte