데이터 과학자(Data Scientist)란 데이터를 수집, 정리, 조사, 분석, 가시화할 수 있는 전문가를 말합니다. 구조화되지 않은 대규모 데이터 속에서 숨겨진 정보를 찾아내는 데이터 과학자(Data Scientist)는 스마트(Smart) 시대에 최고의 인재입니다. 빅데이터 시대에는 데이터를 관리하고 분석할 수 있는 인력의 중요성이 높아지면서 데이터 과학자(Data Scientist)에 대한 관심이 증가하고 있습니다. 글로벌 IT 업체도 데이터 과학자(Data Scientist) 확보에 심혈을 기울이며 인재 확보와 내부 역량 강화에 노력하고 있습니다.
기업들의 데이터 과학자 확보 기반 강화
이베이(eBay)의 경우 고객 데이터를 분석하고 의미있는 정보를 찾아내는 일을 맡은 직원의 수가 5,000명에 이르며 IBM은 사내에 200명 이상의 수학자들이 ‘분석학(analytics)’을 집중적으로 연구하고 있으며, 관련 특허를 취득하면서 미래 사업을 준비하고 있습니다.
EMC는 데이터 과학자(Data Scientist) 들의 집합인 ‘애널리틱스’ 랩이라는 부서를 운영하면서, 빅 데이터에서 통찰력을 얻어낼 인재들을 확보하고 있습니다. 이들은 경제학, 통계학, 심리학 등을 전공한 박사급 인재들로 애널리틱스 랩을 운영하고 있으며, IT기술과 엔지니어링, 수학등의 능력 또한 보유하고 있습니다.
현재 데이터 과학자(Data Scientist) 의 역량을 갖춘 인재는 매우 부족한 실정입니다. 미국에서는 2018년까지 14만~19만명의 전문가와150만명 정도의 데이터 관리자와 분석 인력이 부족할 것이라 예측하고 있습니다.
데이터 과학자(Data Scientist)의 수요가 향후 5년간 급증할 것으로 예상되며, 기업 내에서도 중요한 역할을 담당하는 21세기 유망직업 중 하나로 부각되고 있습니다. 데이터 처리와 분석 능력을 갖춘 인력은 IT 분야뿐만 아니라 대부분의 기업과 조직에서 필수적으로 확보해야 할 핵심 인력이 되었습니다.
데이터 과학자(Data Scientist) 의 역량
미국 공영방송인 NPR에서 “최근 기업들은 머리는 수학/통계지식으로, 손은 컴퓨터 해커수준으로, 눈은 예술적 안목을 가진 사람(Data Scientist)을 찾는 데 애를 먹고 있다” 라고 한 보도에서 데이터 과학자가 가져야할 역량을 잘 묘사하고 있습니다.
대표적인 데이터 사이언티스트인 존 라우저 아마존 수석 엔지니어는 포브스와 인터뷰에서 데이터 과학자의 자질로 6가지를 선정하였다.
• 데이터 과학자의 기본 자질은 ①수학과 ②공학능력
• 데이터를 분석하는데 있어 필수인 가설을 세우거나 검증하는데 필요한 ③비판적 시각과 이를 잘 작성할 수 있는
④글쓰기 능력
• 다른 사람에게 잘 전달할 수 있는 ⑤대화 능력이 필요
• ⑥호기심과 개인의 행복도 중요한 소양
데이터 과학자는 대규모 데이터를 분석한 결과를 생생하고 차별화되게 시각화하여 이해하기 쉽게 전달하는 역량도 중요합니다. 시각화는 데이터 분석 결과를 전달하는 마지막 단계로서 데이터의 문맥화를 통한 해석 작업입니다. 정교한 모형과 시각화 도구를 활용하면 더 큰 비즈니스 가치와 통찰력을 제공할 수 있다.
데이터 과학자의 기술 역량
데이터 과학자가 지녀야 할 역량에 대해서 설명을 하자면 ①해킹 스킬(Hacking Skills)은 IT 기술을 의미하며 특히 대규모 데이터베이스 구축과 관리 기술, 하둡 및 클라우드 시스템 기술, 가시화 기술등이 여기에 해당합니다. ②수학과 통계 기술(Math & Statistics Knowledge)은 데이터 분석에서 필요한 통계모델링 기술과 분석결과의 적절한 해석 등에 관한 백그라운드 지식을 의미합니다. 마지막으로 현업지식(Substantive Expertise)은 빅데이터가 발생하는 현업의 업무지식을 의미합니다. 이 세가지를 골고루 갖춘 사람을 데이터 과학자라고 합니다. 재미있는 사실은 IT 기술과 업무 지식만을 갖춘 전문가를 위험한 인물로 묘사하고 있는데 이는 수학 및 통계지식이 결여된 분석결과를 중요한 의사결정에 사용하면 위험하게 된다는 의미입니다. 데이터 과학자들이 주로 다루는 기술들은 다음과 같습니다.
① 하둡(Hadoop), 맵리듀스(MapReduce) 및 분산 파일 시스템 도구와 관련 있는 에코 시스템(Echo System)
② 파이썬(Python), 자바(Java), 피그(Pig), 하이브(Hive) 와 같은 프로그래밍 언어
③ 기계학습(Machine Learning)
④ SQL, NoSQL, NewSQL와 데이터베이스 도구 사용
⑤ 자연어 처리(Natural Language Processing)
⑥ 통계도구
데이터 과학자 양성
데이터 과학자 양성 프로그램의 교육과정도 데이터 과학자가 가져야 할 역량을 배양하는데 초점을 맞추어야 합니다. 즉 IT 기술과 수학 및 통계지식 그리고 현업 지식을 갖추기 위한 과목들로 구성되어야 합니다. 기존의 IT 분야 기술 관련 전체 과목보다는 데이터 관련 과목들 ①데이터베이스 ②데이터 마이닝 ③데이터베이스 프로그래밍등에 초점을 맞추어 학습하는 것이 중요합니다.
노스캐롤라이나주립대학교 석사과정은 빅데이터 분석가 양성을 목적으로 SAS 등의 재정 지원에 힘입어 2007년 출범했습니다.(http://analytics.ncsu.edu) 교육학, 공학, 생명과학, 수리과학, 경영학, 인문사회과학등 10개 단과대학의 교수진이 참여하고 있으며, 통계학, 컴퓨터과학, 재무론, 마케팅 등은 물론 보고서 작성(Technical Writing) 등의 과목으로 구성되어 있습니다. 특히 기업체의 데이터 분석 경험이 풍부한 실무진이 참여해 실무 현장의 데이터 분석을 잰행하는 산학 협력 프로그램이 특징적입니다.
서울대학교를 비롯한 각 대학교들은 기존 데이터마이닝 학과와 정보통계처리학과 교육 영역을 확장해 빅데이터를 다루고 있습니다. 충북대학교의 경우 ‘비즈니스 데이터 융합학과’ 대학원을 개설하였으며 수강과목으로는 대용량데이터베이스, 기업프로세스, 통합적 분석, 빅데이터EDA, 대용량 멀티미디어 자료처리, 분산병렬처리, 빅데이터세미나, 비즈니스 데이터분석, 정보검색과 활용, 기업정보 시스템 구축, 비즈니스 인텔리전스, IT산업과 빅데이터 컴퓨팅, R-데이터마이닝, ABAP 프로그래밍, 클라우드시스템 등이 있습니다.
'빅데이터 > 빅데이터 이해' 카테고리의 다른 글
빅데이터 시대의 개인정보 보호법 (0) | 2017.08.03 |
---|---|
빅데이터의 빛과 그림자 (0) | 2017.08.03 |
[2편] ‘기술’ 빅데이터 처리 기술(Process Technology) (0) | 2017.08.03 |
[1편] ‘자원’ : 활용할 수 있는 빅데이터 발견하기 (0) | 2017.08.03 |
‘일각고래 프로젝트’ (2012년 미국 대선) (0) | 2017.08.03 |