본문 바로가기
DATA/데이터

데이터사이언스 기본이론

by sollab 2022. 10. 12.

[출처] 김솔희. "지역문제 해결을 위한 데이터사이언스 기반의 시스템 분석 연구." 국내박사학위논문 서울대학교 대학원, 2021. 서울

 

 


세계적인 영향력을 가진 영국의 경제지 The economist는 2017년 5월에 ‘세상에서 가장 가치있는 자원은 데이터’
5)라는 기사를 실으며 데이터의 중요성을 언급하였다. 4차산업혁명 시대에 정보통신기술의 발전과 함께 가용할 수 있는 데이터의 종류(Variety)와 속도(Velocity), 크기 (Volume)가 증가하는 데이터 환경의 변화 속에서 데이터 분석을 통해 가 치(Value)를 창출하는 데이터사이언스(Data science)가 대두되고 있다.

 

데이터사이언스라는 용어는 여러 학자로부터 통계학 및 컴퓨터공학 분 야에서 대두되기 시작하였으며 학술대회와 학회지 같은 학문 영역의 하나로 자리매김하고 있다(Figure 2-1). 먼저 John Tukey(1962)는 통계학 (Statistics) 분야에서 통계적 추론을 하나의 구성요소로 보는 데이터 분석(Data analysis)이라는 새로운 학문을 제안하면서 등장하였다. 이후 Mosteller & Tukey(1968)의 공동저서인 “Data Analysis, Including Statistics”에서 데이터 분석은 본질적으로 경험적 과학(“Data analysis is intrinsically an empirical science”, 1962. p.63)이라고 기술하였 다. 이후 1990년대 후반에 통계학자들이 컴퓨터 과학자들과 함께 대규모 데이터셋의 계산에서 수학적 정확성(Mathematical rigor)에 대한 필요성 을 논의하면서 두드러지게 되었다(Kelleher & Tierney, 2018).

 

통계학자인 Jeff Wu(1997), Chikio Hayashi(1998) 및 William Cleveland(2001)은 통계학 분야에서 데이터사이언스라는 용어를 사용하 였다(Macnaughton, 2017). 또한, 컴퓨터 과학의 노벨상이라고 불리는 튜링상(Turing Award)을 수상한 Jim Gray는 데이터사이언스를 과학의 네 번째 패러다임(경험, 이론, 계산, 그리고 데이터)으로 정의하고 과학에 관한 모든 것이 바뀌고 있으며, 그 이유는 정보기술의 발달과 데이터 범 람(data deluge) 때문이라고 주장했다(Hey et al., 2009; Bell et al., 2009). 또한 국내의 데이터 전문가 중 한명인 김옥기(2018)는 데이터 과학, 무엇을 하는가? 저서에서 데이터과학이란 고차원적인 분석 알고 리즘을 사용한 분석만을 의미하는 것이 아니라, 데이터를 “정제, 가공하여 적절한 곳에 인간의 영감을 더해 다양한 사회적, 경제적, 경영적 문제를 해결하는 지속적인 과정”이라고 정의하였다.

 

[Figure 2-1] Milestones of Data Science in researchers and journals and their definitions

 

데이터사이언스에 대한 정의는 연구자에 따라 다양하지만, 이를 종합하면 광의의 데이터사이언스는 다양한 형태의 대규모 데이터로부터 지식과 유용한 패턴을 추출하기 위한 일련의 원칙, 문제 정의, 알고리즘 및 프로 세스를 망라하는 융합분야로 정의할 수 있다(Dhar, 2013; Leek, 2013; Hayashi, 1998). 통계학자 John Tukey의 제자인 Donoho는 2015년 Tukey Centennial Workshop에서 Tukey(1962)의 질문에 대한 50년 뒤의 답변이라는 형태로 Tukey의 데이터 분석 분야에서의 선구자적인 업적과 더불어 데이터 사이언스의 기원을 추적하는 주제로 발표하였다. 그러면서 그는 그동안의 통계학자들은 데이터를 이용한 모형화에만 초점을 맞추었을 뿐 데이터의 탐색, 준비, 표현, 변환, 시각화, 발표와 같은 과정 의 중요성을 인지하지 못하였다고 비판하였다.

 

Donoho(2015)는 데이터사이언스란

좁은 의미에서의 통계 방법론 혹은 정량적인 방법론이 아니라 다음 6가지의 활동을 포괄하는 학문 분야라고 정의하였다:

1) 데이터 탐색과 준비(Data exploration and preparation)

2) 데이터 표현과 변환(Data representation and transformation)

3) 데이터를 이용한 연산(Computing with data)

4) 자료를 이용한 모형화(Data modeling)

5) 데이터 시각화와 프레젠테이션(Data visualization and presentation)

6) 데이터사이언스에 대한 과학(Science about data science).

 

 

이와 비슷하게 Brady(2019)는 데이터사이언스는

1) 분야별로 전문성에 기반하여 연구목적에 맞는 적합한 데이터를 수집하고,

2) 적절한 프로그 래밍 기술을 통해 원데이터를 분석 가능한 데이터로 표현하고 구조화하며,

3) 통계적·수학적으로 모형화하여 통찰을 얻고,

4) 데이터를 시각화하 여 묘사하며,

5) 기록보관 및 데이터 관리정책을 다루는 일련의 과정으로 이루어져 있다고 정의하였다.

 

 

데이터사이언스 분야에서 활용 가능한 데이터가 빅데이터의 형태로 증가하고 있으며, 이와 더불어 다양한 분석 방법의 진보로 지역 특성이 고려된 데이터는 다방면의 다양한 형태로 빠르게 진화되고 있다. 이러한 흐름에 발맞춰 지역문제를 해결하는 방안을 모색하는데에 적합한 데이터를 취득하고 정제하여 적절한 방법론을 통해 분석한 결과를 효율적으로 표현 할 수 있는 시각화 단계를 수행할 수 있다.

댓글