데이터 과학자(Data Scientist)란 데이터를 수집정리조사분석가시화할 수 있는 전문가를 말합니다구조화되지 않은 대규모 데이터 속에서 숨겨진 정보를 찾아내는 데이터 과학자(Data Scientist)는 스마트(Smart) 시대에 최고의 인재입니다빅데이터 시대에는 데이터를 관리하고 분석할 수 있는 인력의 중요성이 높아지면서 데이터 과학자(Data Scientist)에 대한 관심이 증가하고 있습니다글로벌 IT 업체도 데이터 과학자(Data Scientist) 확보에 심혈을 기울이며 인재 확보와 내부 역량 강화에 노력하고 있습니다.

 

 

기업들의 데이터 과학자 확보 기반 강화

이베이(eBay)의 경우 고객 데이터를 분석하고 의미있는 정보를 찾아내는 일을 맡은 직원의 수가 5,000명에 이르며 IBM은 사내에 200명 이상의 수학자들이 분석학(analytics)’을 집중적으로 연구하고 있으며관련 특허를 취득하면서 미래 사업을 준비하고 있습니다.

 

EMC는 데이터 과학자(Data Scientist) 들의 집합인 애널리틱스’ 랩이라는 부서를 운영하면서빅 데이터에서 통찰력을 얻어낼 인재들을 확보하고 있습니다이들은 경제학통계학심리학 등을 전공한 박사급 인재들로 애널리틱스 랩을 운영하고 있으며, IT기술과 엔지니어링수학등의 능력 또한 보유하고 있습니다.

 

현재 데이터 과학자(Data Scientist) 의 역량을 갖춘 인재는 매우 부족한 실정입니다미국에서는 2018년까지 14~19만명의 전문가와150만명 정도의 데이터 관리자와 분석 인력이 부족할 것이라 예측하고 있습니다.

 

데이터 과학자(Data Scientist)의 수요가 향후 5년간 급증할 것으로 예상되며기업 내에서도 중요한 역할을 담당하는 21세기 유망직업 중 하나로 부각되고 있습니다데이터 처리와 분석 능력을 갖춘 인력은 IT 분야뿐만 아니라 대부분의 기업과 조직에서 필수적으로 확보해야 할 핵심 인력이 되었습니다.

 

 

데이터 과학자(Data Scientist) 의 역량

미국 공영방송인 NPR에서 최근 기업들은 머리는 수학/통계지식으로손은 컴퓨터 해커수준으로눈은 예술적 안목을 가진 사람(Data Scientist)을 찾는 데 애를 먹고 있다” 라고 한 보도에서 데이터 과학자가 가져야할 역량을 잘 묘사하고 있습니다.

 

대표적인 데이터 사이언티스트인 존 라우저 아마존 수석 엔지니어는 포브스와 인터뷰에서 데이터 과학자의 자질로 6가지를 선정하였다.

 

 데이터 과학자의 기본 자질은 ①수학과 ②공학능력

 데이터를 분석하는데 있어 필수인 가설을 세우거나 검증하는데 필요한 ③비판적 시각과 이를 잘 작성할 수 있는 

  ④글쓰기 능력

 다른 사람에게 잘 전달할 수 있는 ⑤대화 능력이 필요

 ⑥호기심과 개인의 행복도 중요한 소양

 

데이터 과학자는 대규모 데이터를 분석한 결과를 생생하고 차별화되게 시각화하여 이해하기 쉽게 전달하는 역량도 중요합니다시각화는 데이터 분석 결과를 전달하는 마지막 단계로서 데이터의 문맥화를 통한 해석 작업입니다정교한 모형과 시각화 도구를 활용하면 더 큰 비즈니스 가치와 통찰력을 제공할 수 있다.

 

 

데이터 과학자의 기술 역량

데이터 과학자가 지녀야 할 역량에 대해서 설명을 하자면 해킹 스킬(Hacking Skills) IT 기술을 의미하며 특히 대규모 데이터베이스 구축과 관리 기술하둡 및 클라우드 시스템 기술가시화 기술등이 여기에 해당합니다수학과 통계 기술(Math & Statistics Knowledge)은 데이터 분석에서 필요한 통계모델링 기술과 분석결과의 적절한 해석 등에 관한 백그라운드 지식을 의미합니다마지막으로 현업지식(Substantive Expertise)은 빅데이터가 발생하는 현업의 업무지식을 의미합니다이 세가지를 골고루 갖춘 사람을 데이터 과학자라고 합니다재미있는 사실은 IT 기술과 업무 지식만을 갖춘 전문가를 위험한 인물로 묘사하고 있는데 이는 수학 및 통계지식이 결여된 분석결과를 중요한 의사결정에 사용하면 위험하게 된다는 의미입니다데이터 과학자들이 주로 다루는 기술들은 다음과 같습니다.

 

① 하둡(Hadoop), 맵리듀스(MapReduce) 및 분산 파일 시스템 도구와 관련 있는 에코 시스템(Echo System)

② 파이썬(Python), 자바(Java), 피그(Pig), 하이브(Hive) 와 같은 프로그래밍 언어

③ 기계학습(Machine Learning)

④ SQL, NoSQL, NewSQL와 데이터베이스 도구 사용

⑤ 자연어 처리(Natural Language Processing)

⑥ 통계도구

 

 

데이터 과학자 양성

데이터 과학자 양성 프로그램의 교육과정도 데이터 과학자가 가져야 할 역량을 배양하는데 초점을 맞추어야 합니다 IT 기술과 수학 및 통계지식 그리고 현업 지식을 갖추기 위한 과목들로 구성되어야 합니다기존의 IT 분야 기술 관련 전체 과목보다는 데이터 관련 과목들 데이터베이스 데이터 마이닝 데이터베이스 프로그래밍등에 초점을 맞추어 학습하는 것이 중요합니다.

 

노스캐롤라이나주립대학교 석사과정은 빅데이터 분석가 양성을 목적으로 SAS 등의 재정 지원에 힘입어 2007년 출범했습니다.(http://analytics.ncsu.edu교육학공학생명과학수리과학경영학인문사회과학등 10개 단과대학의 교수진이 참여하고 있으며통계학컴퓨터과학재무론마케팅 등은 물론 보고서 작성(Technical Writing) 등의 과목으로 구성되어 있습니다특히 기업체의 데이터 분석 경험이 풍부한 실무진이 참여해 실무 현장의 데이터 분석을 잰행하는 산학 협력 프로그램이 특징적입니다.

 

서울대학교를 비롯한 각 대학교들은 기존 데이터마이닝 학과와 정보통계처리학과 교육 영역을 확장해 빅데이터를 다루고 있습니다충북대학교의 경우 비즈니스 데이터 융합학과’ 대학원을 개설하였으며 수강과목으로는 대용량데이터베이스기업프로세스통합적 분석빅데이터EDA, 대용량 멀티미디어 자료처리분산병렬처리빅데이터세미나비즈니스 데이터분석정보검색과 활용기업정보 시스템 구축비즈니스 인텔리전스, IT산업과 빅데이터 컴퓨팅, R-데이터마이닝, ABAP 프로그래밍클라우드시스템 등이 있습니다.

+ Recent posts