온프레미스 데이터센터가 기업 IT 투자 순위에서 뒤로 밀리고 있다는 것은 잘 알려진 사실이다. 기업 IT가 클라우드로 이동하고 있는 것이다. 그리고 이런 흐름을 숫자로 확인하는 보고서가 나왔다.



시너지 리서치의 최근 조사에 따르면, 2015년 2분기부터 2017년 2분기까지 전통적인 데이터센터 하드웨어와 소프트웨어에 대한 투자는 18%가 하락했다. 같은 기간에 퍼블릭 클라우드 지출은 35%가 증가했다. 전체적인 데이터센터 장비 시장은 5% 성장해 300억 달러 이상의 규모를 기록했다.

시너지 리서치 그룹의 최고 애널리스트 존 딘스데일은 “클라우드 서비스 매출이 연간 40% 이상 계속 증가하고, 기업 SaaS 매출도 30%, 검색 및 소셜 네트워킹 매출은 20% 이상 증가했다는 점에서 퍼블릭 클라우드 인프라에 대한 지출이 계속 강세를 보이는 것은 당연한 일이다”라고 밝혔다.

Synergy Research


반면에 온프레미스 비즈니스는 계속 감소하고 있으며, 3대 업체인 시스코, HPE, 델 EMC는 퍼블릭 클라우드 인프라 시장을 두고 경쟁을 벌이고 있다. 퍼블릭 클라우드 시장에서는 네트워크 장비가 강점인 시스코가 우세를 보이며, 프라이빗 클라우드 시장에서는 델 EMC가 선두를 차지하고, HPE와 마이크로소프트가 그 뒤를 잇고 있다.

시너지 리서치의 보고서는 또 ODM(Original Design Manufacturers)의 브랜드명 없는 서버 장비 시장이 활성화되고 있다고 밝혔다. ODM 시장은 실질적으로 유명 장비 시장보다 더 큰데, 많은 기업이 구글과 페이스북의 방식을 따르고 있기 때문이다. 구글과 페이스북은 델 EMC나 HPE의 좀 더 비싼 서버 대신 이른바 ‘화이트 박스’ 서버를 구축해 사용한다.

딘스데일은 “이들 중 일부는 새로운 서비스나 애플리케이션에 사용되지만, 많은 수가 기업의 자체 데이터센터 투자로 인한 것이다. 퍼블릭 클라우드 구축은 ODM과 화이트 박스 솔루션 시장의 빠른 성장에서 퍼블릭 클라우드 구축이 한몫했으며, 따라서 데이터센터 인프라 시장은 점점 더 경쟁이 치열해지고 있다”고 설명했다.

시너지 리서치는 시스코와 델 EMC, HPE, 마이크로소프트 외에 IBM, VM웨어, 화웨이, 레노버, 오라클, 넷앱을 주요 업체로 언급했지만, 순위는 밝히지 않았다.  editor@itworld.co.kr

원문보기: 
http://www.itworld.co.kr/t/34/%ED%81%B4%EB%9D%BC%EC%9A%B0%EB%93%9C/106515#csidxb473feb0680d86cab701ba56654021f 



언론에서는 온통 스마트폰과 소셜 미디어 앱에 대한 이야기뿐이다. 그러나 첨단 기술 세계를 제대로 경험하려면 스마트 홈 기기를 주목해야 한다. 이 기기들이 제공하는 편리함과 즐거움을 알게 되면 아마 깜짝 놀랄 것이다.
하지만 어떤 기기부터 사야 스마트 홈을 꾸밀 수 있을지 막막할 수 있다. TechHive가 직접 테스트해보고 사용할만한 가치가 있다고 판단한 기기들을 소개한다. 매우 저렴하거나 완벽한 제품들은 아니지만, 스마트 홈을 시작하는 기기로 손색이 없을 것이다.





구글 홈
구글 홈은 와이파이로 연결되는 스피커로, 구글 픽셀 폰에도 적용된, 모르는 게 거의 없는 디지털 비서인 구글 어시스턴트를 기반으로 작동한다. 사용자 인터페이스는 전적으로 음성 명령을 통해 구동된다. 구글 홈(구글 스토어에서 129달러에 판매)은 교통 상황, 날씨, 최신 뉴스 헤드라인과 스포츠 경기 현황, 그 외의 다양한 정보를 말해준다. 기본적으로 구글 검색을 통해 찾을 수 있는 정보라면 대부분 찾아서 읽어준다고 보면 된다.
또한 구글 홈을 통해 음성 명령으로 다른 기기도 조작할 수 있다. 지원되는 기기 목록은 아직 빈약하지만 네스트 서모스탯(Nest Thermostat), 필립스 휴(Philips Hue) 스마트 전구, 구글 크롬캐스트 등이 포함된다. 또한 스포티파이(Spotify), 판도라(Pandora), 구글 뮤직의 음악과 튠인(TuneIn)을 통한 인터넷 라디오도 스트리밍할 수 있다.
경쟁 제품 아마존 에코(Echo)와 비교하면 구글 홈의 디자인이 더 낫고 스피커 음질도 더 좋고 기반이 되는 디지털 비서의 지능도 더 높다. 구글 홈에는 꽤 정확한 언어 번역 엔진까지 있다. 전체적으로 구글 홈은 와이파이 연결 스피커 중에서는 최고의 제품이다. 단, 지원되는 스마트 홈 기기의 다양성 측면에서는 아마존 에코를 이길 수 없다.





아마존 에코와 에코 닷(Echo Dot)
애초에 아마존 에코가 있었기에 구글은 이를 모방해서 더 개선된 제품을 만들 수 있었다. 아마존의 알렉사(Alexa) 디지털 비서가 탑재된 에코는 구글 홈이 하는 일은 거의 다 할 수 있지만 검색 기능이 구글 홈에 비해 떨어진다(아마존은 마이크로소프트 빙 검색 엔진을 사용함). 또한 에코의 기둥 모양 디자인은 식상하고, 볼륨을 높이면 스피커에서 왜곡이 발생한다.
다만 에코는 현재 구글 홈에 비해 서드파티 지원이 훨씬 더 풍부하며, 훌륭한 2세대 에코 닷을 포함해 에코를 보완해주는 자매 제품도 있다.
사실 본지는 50달러짜리 에코 닷이 180달러의 에코보다 가치 면에서 더 우수하다고 생각한다. 여러 개의 닷을 집안 여기저기에 배치해서 각종 스마트 기기, 각 방의 와이파이로 연결된 스피커를 제어할 수 있다. 다만 닷에서 뛰어난 음질은 기대하지 말아야 한다. 조그마한 스피커는 뉴스를 읽는 용도로는 무난하지만 제대로 된 음악 재생을 위한 다이나믹 레인지는 없다. (음악을 듣고 싶다면 따로 전원이 공급되는 스피커를 닷에 연결할 것을 추천함)





링 비디오 도어벨(Ring Video Doorbell)
링 비디오 도어벨은 클라우드 연결 도어벨 카메라로, 스마트폰 앱에 직접 연결되어 집 안에서든 멀리 떨어진 곳에서든 방문자를 볼 수 있게 해준다. 집에 사람이 있는지 여부를 확인하기 위해 도둑이 도어벨을 누르는 경우가 있는데, 이 제품의 장점은 라이브 비디오 피드를 통해 이를 보고 직접 말을 할 수 있다는 점이다. 도둑에겐 사람이 집 안에서 말을 하는 것으로 들린다.
집 현관까지 신호가 가는 강력한 와이파이가 필요하다. 필자의 와이파이는 성능이 약한 편이라 연결에 약간의 문제가 있었다. 그래도 200달러짜리 링은 포기할 수 없는 제품이다. 설치하기 쉽고 배터리로 전원 공급이 가능하므로 배선도 필요 없다. 누가 현관 앞에 단순히 접근하기만 해도 이를 알려주는 움직임 경보 기능도 좋다. 덕분에 필자의 개 산책 도우미가 집에 도착하면 벨을 누를 필요도 없이 바로 알 수 있다. 클라우드를 통해 비디오에 접근하려면 연간 사용료 30달러를 내야 하지만 만일의 경우를 위한 유용한 비디오 증거를 확보하는 비용으로 치면 싼 값이다.




필립스 휴 백색 및 컬러 조명 키트
스마트 전구는 사용하는 즉시 큰 효과를 볼 수 있다. 필립스가 판매하는 180달러짜리 이 키트는 현존하는 가장 뛰어난 스마트 전구 시스템 중 하나로, 3색 LED 스마트 전구(다양한 색 또는 흰색으로 빛나도록 조정 가능)와 최대 50개의 전구를 필립스 휴 모바일 앱에 연결할 수 있게 해주는 필립스 휴 브리지로 구성된다.
휴 스마트 전구를 구입할 이유? 우선 스마트폰에서 전구의 색과 밝기를 정확히 설정할 수 있다. 또한 특정 시간에 전구가 켜지고 꺼지도록 예약이 가능하며 아마존 알렉사 플랫폼 또는 구글 홈을 통한 음성 명령으로 전구를 작동할 수도 있다. 물론 램프는 직접 마련해야 한다. 사진의 마리아 번슨(Maria Berntsen) 유리 램프는 따로 판매되는 제품이다.




아이디바이스 소켓(iDevices Socket)
60달러의 아이디바이스 소켓은 비교적 저렴한 비용으로 스마트 조명을 구현할 수 있는 방법이다. 아이디바이스는 스마트 기능을 전구 자체에 집어넣는 대신(사진의 전구는 예시 용도일 뿐임) 소켓에 넣었다. 이 소켓에 램프와 조명 기구를 연결하면 된다.
아이디바이스 소켓은 최대 60W까지의 표준 에디슨 전구와 호환된다. 스마트폰 앱을 사용해서 전구를 켜고 끄고 예약 시간을 설정하고 밝기를 조정할 수 있다(밝기 조절이 가능한 전구인 경우). 시리와 아마존 알렉사 음성 명령에도 반응하며, 윗면에 독립적인 LED 조명이 있어 다양한 야간 컬러 전등으로 맞춤 설정이 가능하다. 아직 리뷰는 하지 않았지만 현재 사용 중이며 마음에 쏙 드는 제품이다.




구글 크롬캐스트 울트라
크롬캐스트는 예전부터 인터넷 TV 애청자들의 필수 도구였다. 최신 크롬캐스트 울트라는 4K 지원이 추가되고 로드 시간도 빨라졌다. 선물을 받을 사람이 이미 이전 버전의 크롬캐스트와 1080p 텔레비전을 갖고 있다면 굳이 69달러를 주고 살 만한 가치는 없다. 그러나 비디오 스트리밍 기기가 없는 사람이고 안드로이드 폰 사용자라면 크롬캐스트 울트라가 좋은 선물이 될 것이다.
작은 크롬캐스트 동글을 TV의 남는 HDMI 포트에 연결한다. 그 다음 스마트폰(아이폰 사용자도 가능)을 사용해서 넷플릭스(Netflix), 유튜브, 훌루(Hulu), HBO 등을 포함한 다양한 스트리밍 TV 서비스의 콘텐츠를 찾아 보면 된다. 그러나 아마존 프라임을 강조하는 파이어 TV와 달리 크롬캐스트에서는 아마존 콘텐츠를 볼 수 없다. 그 부분을 제외해도 크롬캐스트 울트라는 넷플릭스, 유튜브, 부두(Vudu)의 4K 비디오를 4K TV로 스트리밍해서 보는 용도로 썩 괜찮은 제품이다.




오포 소니카 와이파이 스피커(Oppo Sonica Wi-Fi Speaker)
집에 놀러 온 친구가 자신의 스마트폰에 있는 음악을 공유하고자 할 때, 블루투스의 편리함을 빛을 발한다. 와이파이는 훨씬 더 넓은 대역폭을 제공하며 소스에서 스피커로 스트리밍하면서 음악을 압축하지 않는다는 장점이 있다. 오포의 소니카 와이파이 스피커는 이 두 가지 무선 기술을 모두 지원한다. 또한 애플 마니아를 위해 애플 에어플레이 기술까지 지원한다.
299달러 가격대의 다른 대부분의 스피커와 달리 소니카 와이파이는 두 개의 개별 클래스 D 증폭기를 사용해 2.5인치 "와이드밴드" 드라이버 한 쌍을 구동하고, 두 개의 추가 클래스 D 증폭기로 그 사이에 장착된 3.5인치 우퍼를 구동한다. 스피커 캐비닛 좌우 끝부분의 패시브 래디에이터가 풍부한 저음역대의 울림을 보강한다.
당연한 말이지만 스피커는 무엇보다 귀가 즐거워야 한다. 아델의 고음부터 말러 심포니의 웅장함에 이르기까지 오포 소니카 와이파이는 탁월한 충실도로 음악을 들려준다.




네스트 프로텍트(Nest Protect) 스마트 연기 및 일산화탄소 경보기
연기 경보기와 일산화탄소 경보기 기능을 겸비한 99달러의 네스트 프로텍트는 전통적인 방식의 경보기가 가진 고질적인 여러 가지 문제를 없앤 제품이다. 우선 스테이크를 바짝 익히거나 할 때 작동하는 오경보를 폰에서 바로 끌 수 있다. 또한 프로텍트에 문제가 발생하거나 배터리가 얼마 남지 않은 경우 폰으로 알림을 받게 된다. (끊임없이 울려대는 소리를 이제 듣지 않아도 된다!) 또한 네스트 프로텍트는 전체 경보를 울리기 전에 "부엌에서 연기가 납니다"와 같이 일반적인 언어로 상황을 알릴 수 있다.
이 경보기는 와이파이로 연결되고 모바일 앱과 연동되므로 세계 어느 곳에서나 알림을 받을 수 있다. 유선 버전 또는 배터리 버전으로 판매되며 각각에는 밤에 프로텍트 아래를 지나갈 때 빛을 밝혀주는 원형 LED 전등이 포함된다. 몇 개월째 2세대 네스트 프로텍트를 사용 중인데 그동안 한 번도 문제를 겪은 적이 없다. 눈에 띄는 화려한 스마트 홈 제품은 아니지만 요긴한 제품이다.




원문보기: 
http://www.itworld.co.kr/t/63417/%EC%82%AC%EB%AC%BC%EC%9D%B8%ED%84%B0%EB%84%B7/102248#csidx5d02cf4a27d293696a3a34211a66970 






지난 2014년 개최된 브라질 월드컵의 우승팀을 유일하게 맞춘 이는 누구일까요? 사람도, 동물도 아닌, 바로 MS의 가상 비서 서비스인 '코타나'입니다. 국가별 우승 빈도와 피파 랭킹 등 데이터를 합쳐서 월드컵 우승팀 예측에 성공했는데요, 여기에는 바로 머신 러닝(Machine Learning)이라는 기술이 적용됐죠.

머신 러닝은 '컴퓨터를 학습시킬 수 있는가'라는 질문에서 시작했습니다. 인공지능이 인간과 같은 사고를 하는 컴퓨팅, 즉 사람처럼 행동하게 하는 그 모든 것을 총칭한다면, 머신 러닝은 데이터를 분석하여 숨겨진 특성, 즉 패턴을 발견해 학습 모델을 구축하는 기술입니다. 더 나아가 경험으로부터 습득한 지식을 기반으로 스스로 성능을 향상시키는 과학이라고 볼 수도 있습니다.

지금까지 IT 산업에서는 과거의 데이터를 이용해서 현재 상황을 설명하는 데 급급했습니다. 사람이 직접 실험으로 얻은 데이터를 대조해가며 숨겨진 패턴을 찾아야 했기 때문이죠. 그래서 “미래를 대비하여 이런 것을 미리 준비하는 것이 좋습니다”는 예측보다는, “과거에는 이런 일을 했습니다”라는 보고용 데이터를 만드는 데 그쳤습니다.

사실 많은 사람들이 알고자 하는 것은 바로 미래에 관한 예측 분석 보고서일 것입니다. 머신 러닝의 강점은 기계가 스스로 데이터에 숨겨진 속성을 찾아준다는 것입니다. 그래서 업무 방향성을 끌어나간다거나, 계약을 체결해야 할 비즈니스 결정자에게 머신 러닝은 유용한 기술이죠.

예를 들어, 소비자 3,000명의 상품 구매 정보를 갖고 있다고 가정해봅시다. 머신 러닝을 도입하면 사람이 하던 작업 속도보다도 빠르고 정확하게 '맥주를 구매한 사람이 기저귀도 함께 사는 경우가 많다'라는 결과를 얻을 수 있습니다. 이에 의사 결정권자는 맥주와 기저귀를 인접한 매대에 올려놓고 상품을 팔아서 수익을 더 많이 창출할 수 있겠죠.

한편, 머신 러닝과 유사한 딥 러닝이라는 용어가 있습니다. 딥러닝은 머신 러닝과 비교했을 때 메커니즘 측면에서 큰 차이가 없을 수는 있는데요, 딥러닝의 핵심 학습 방식은 바로 자율 학습(Unsupervised Learning)입니다.

보통 머신 러닝은 의미(레이블)을 부여한 훈련 데이터를 기반으로 다른 데이터를 파악하는 지도 학습(Supervised Learning)을 사용했습니다. 페이스북이나 맥의 아이포토에서 '이 사람이 영희다'라고 계속 입력해야 영희의 얼굴을 정확하게 인식할 수 있는 것이 바로 그 예죠.

그런데 비디오나 음성, 자연어 등 연속적인 데이터 스트림에서는 의미를 붙이기가 힘듭니다. 그래서 의미가 없는 데이터를 통해 기계가 스스로 결정하고 파악할 수 있는 자율 학습이 적합하다고 판단한 연구원들이 도전하는 분야가 바로 딥 러닝입니다.

그렇다면 왜 머신 러닝이 화두가 되고 있는 것일까요? 사실 머신 러닝이라는 개념은 1959년 논문을 통해 처음 언급됐을 정도로 그 역사는 깊습니다. 하지만 과거에 이 개념을 기술로 발전시키기에는 컴퓨팅 환경이 충분하지 않았죠. 다행히 최근 4~5년 사이 빅데이터라는 개념이 도입됨에 따라 수많은 데이터를 추출할 수 있는 기술이 발전했으며, 클라우드 컴퓨팅의 도입으로 컴퓨팅 인프라가 강화됐습니다. 이제 미래 예측이 필요한 그 모든 곳에서 머신 러닝을 활용할 수 있는 시대가 열린 셈이죠. editor@itworld.co.kr 

원문보기: 
http://www.itworld.co.kr/t/69500/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/91546#csidx6202d1ee23addb89415599c5c2f0bd5 





머신 러닝이 데이터 깊숙이 묻혀 있는 패턴을 발견해준다는 점에서 애플리케이션의 성능을 높이고, 사용자의 수요에 더욱 민감하게 만들 수 있다는 잠재력이 있다. 제대로 고안한 알고리즘을 통해 인간의 사고와 분석적 한계를 뛰어넘어 엄청난 양의 이질적인 데이터로부터 가치를 뽑아낼 수 있다. 머신러닝은 개발자가 비즈니스에 필수적인 분석을 그 어떤 애플리케이션에도 적용하고, 고객 경험을 높이거나 제품 추천을 제공하고, 더욱 개인화된 콘텐츠를 제공하는 것까지 달성하게 해준다.

아마존과 마이크로소프트와 같은 클라우드 제공업체들은 개발자가 머신러닝을 손쉽게 통합할 수 있는 클라우드 기반의 솔루션을 제공함으로써 최근 화제를 불러일으켰다. 무엇인가 굉장해 보이기는 하나, 개발자들의 주의가 필요해 보인다.

클라우드 기반의 머신러닝 도구는 개발자가 머신러닝을 활용하여 참신한 기능을 구현할 수 있도록 한다. 하지만 이런 도구를 적절하게 활용하지 않으면 형편없는 결과로 사용자에게 좌절감을 줄 수 있다. 마이크로소프트의 나이 감지 머신러닝 도구를 시험해본 사람이라면 알겠지만, 사용 편의성이 뛰어난 만큼 중대한 정확도 문제가 대두한 바 있으며, 신뢰하거나 중요한 의사를 결정할 때 참조할 수 없는 경우도 많다.

머신 러닝을 자신의 애플리케이션에 도입하려는 개발자는 성공을 위한 일부 핵심 요소를 염두해야 한다.

1. 알고리즘의 데이터가 많으면 더욱 정확해진다. 따라서 가능하다면 부차 표본 추출은 피한다.

머신러닝 이론에는 예측 오차에 대한 매우 직관적인 특성이 있다. 쉽게 말해서 머신러닝 모델과 (이론상 최고의 오류를 달성하는) 최적 예측변수 사이의 예측 오차의 공백은 세 부분으로 분류할 수 있다.

1. 모델을 위한 적절한 기능적인 형태가 없기 때문에 발생하는 오차
2. 모델을 위한 최적의 파라미터가 없기 때문에 발생하는 오차
3. 모델에 충분한 데이터를 제공하지 않기 때문에 발생하는 오차

훈련 데이터가 제한된 경우 문제를 위해 필요한 모델 복잡성을 뒷받침하지 못할 수 있다. 통계의 기능적 법칙을 통해 우리는 가능하다면 부차 표본이 아닌, 우리가 가진 모든 데이터를 이용해야 한다.

2. 주어진 문제에 가장 적절한 머신러닝 학습법을 선택하는 것이 핵심이며, 이는 성공가 실패를 결정하기도 한다.
예를 들어, 정확도가 높은 GBT(Gradient Boosting Tree)는 업계 실무자들이 널리 활용하고 있는 인기 감독 학습 알고리즘이다. 하지만 그 높은 인기에도 불구하고 모든 문제를 위한 알고리즘으로써 맹목적으로 취급해서는 안 된다. 대신에 항상 가장 정확한 결과를 위해 데이터의 특성에 가장 적합한 알고리즘을 항상 사용해야 한다.

이 개념을 입증하기 위해 GBT와 선형 SVM(Support Vector Machine) 알고리즘 사이의 정확성을 인기 있는 텍스트 범주와 데이터세트 rcv1에서 비교하는 실험을 해봐도 된다. 실제로 실험해본 결과, 선형 SVM이 이 문제에 대한 오류율 측면에서 GBT보다 우월하다는 사실을 발견했다. 이는 텍스트 영역에서 데이터가 종종 고차원적이기 때문이다. 선형 분류자는 N개의 예시를 N-1 차원으로 완벽하게 분리할 수 있어, 단순한 모델은 이런 데이터에서 제대로 기능하게 된다. 게다가 모델이 간단할수록 한정된 수의 훈련 예제로 파라미터를 학습할 때 문제가 덜 발생하여 과적응을 방지하고 정확한 모델을 제공할 수 있다.

한편, GBT는 매우 선형적이며, 더욱 강력한 성능을 자랑하지만, 학습이 더 어렵고 이런 설정에서 과적응의 경향이 더욱 크다. 때로는 정확도가 떨어질 수도 있다.

3. 뛰어난 모델을 얻기 위해서는 방법과 그 방법에 관한 파라미터를 반드시 잘 선택해야 한다.
데이터가 공학자가 아닌 사람들에게는 간단하지 않을 수 있다. 현대의 머신러닝 알고리즘은 변경할 수 있는 부분이 많다. 예를 들어, 인기 있는 GBT 알고리즘 단독으로도 트리(Tree) 크기 제어 방법, 학습률, 행이나 열의 샘플 채취 방법론, 손실 함수, 조직화 옵션 등을 포함하여 최대 12개의 파라미터를 설정할 수 있다. 일반적으로 프로젝트에서는 각 파라미터에 대한 최적값을 찾아 주어진 데이터 세트에 대해 가장 높은 정확도를 얻어야 하는데, 그리 쉬운 일이 아니다. 직관과 경험이 도움되긴 하지만, 데이터 공학자는 최선의 결과를 위해 다수의 모델을 훈련하면서 교차 검증 점수를 파악하고, 다음에 시도할 파라미터를 결정하는 일을 고민해야 할 것이다.

4. 머신러닝 모델이 데이터와 마찬가지일 수도 있다. 부적절한 데이터 수집과 청소로 일반화가 가능한 예측 가능한 머신러닝 모델을 구축하는 능력이 저하될 수 있다.
주제와 관련된 전문가와 데이터를 신중하게 검토하여 데이터와 그 이면의 생성 프로세스에 대한 통찰력을 얻는 것이 좋다. 종종 이 과정으로 기록, 기능, 값, 샘플 채취 등과 관련된 데이터 품질 문제를 식별할 수 있다.

5. 데이터의 특징을 이해하고 (새로운 기능을 만들어내면서 기존의 것들을 없애) 향상시키면 예측 가능성을 높일 수 있다.
머신러닝의 기본적인 역할 중 하나는 머신러닝 알고리즘을 효과적으로 활용할 수 있는 풍부한 기능 공간에서 미가공 데이터를 표현하는 것이다. 예를 들어, 수학적 변화를 통해 기존의 기능을 토대로 새로운 기능을 개발하는 '기능 변화'는 이를 인기 있는 방법이다. 그 결과 기능 공간(즉, 데이터를 특징짓기 위해 사용하는 기능의 집합)은 (여러 기능들 사이의 비선형성과 상호작용 등) 데이터의 여러 복잡한 특성을 잘 잡아내며, 이는 다음 학습 프로세스에 중요하다.

6. 기업 가치에 부합하는 적절한 목적/손실 함수의 선택은 애플리케이션의 궁극적인 성공에 중요하다.
거의 모든 머신러닝 알고리즘이 최적화 문제로 표현되고 있다. 기업의 특성에 기초하여 최적화의 목적 함수를 적절히 설정하거나 조정하는 것이 머신러닝의 성공을 위한 핵심이다.

그 예로, SVM은 모든 유형의 오류의 가중치가 동등하다고 가정함으로써 바이너리 분류 문제에 대한 일반화의 오류를 최적화한다. 이는 고장 감지 등 특정 유형의 오류의 비용이 다른 것보다 더욱 중요할 수 있는 비용에 민감한 문제에 적합하지 않다. 이때, 가중치를 고려하기 위해 특정 유형의 오류에 더 많은 패널티를 더함으로써 SVM 손실 함수를 조정하는 것이 좋다.

7. 적절한 훈련 및 시험 데이터를 취급함으로써 모델을 제품에 배치할 때 시험 데이터를 유입되는 데이터처럼 보이도록 한다.
이 점이 시간에 의존하는 데이터일 경우 얼마나 중요한지 알 수 있다. 이때, 훈련, 조율, 시험 모델을 위해 표준 교차 검증 접근방식을 사용하면 잘못되거나 정확하지 않은 결과로 귀결될 수 있다. 그 이유는 배치 단계에서 유입되는 데이터의 특성을 적절히 모방하지 않기 때문이다. 이를 바로잡기 위해서는 배치 시 모델이 사용되는 방식을 반드시 모방해야 한다. 훈련한 모델을 시간의 측면에서 더욱 새로운 데이터에 대해 검증하는 시간 기준 교차 검증을 이용해야 한다.

8. 배치 전 모델의 일반화의 오류를 이해한다.
일반화의 오류는 모델이 보이지 않는 데이터를 얼마나 잘 처리하는지를 측정한다. 모델이 훈련 데이터를 잘 처리한다고 해서 반드시 보이지 않는 데이터에 잘 일반화되는 것은 아니다. 모델의 일반화의 오류를 예측하기 위해 실제 배치 용법을 모방한 신중하게 설계한 모델 평가 프로세스가 필요하다.

인지하지도 못한 채 교차 검증의 규칙을 위반하기 쉬우며, 교차 검증을 올바르지 않게 수행하는 방식이 명확하지 않아 연산을 위한 지름길을 이용하려 시도할 때 자주 발생한다. 배치 성능에 대한 과학적인 예측을 얻기 위해 모델을 배치하기 전에 적절하고 성실한 교차 검증에 주목하는 것이 중요하다.

9. 텍스트, 시계열, 공간, 그래프 데이터, 이미지 등의 비구조화 및 준구조화 데이터를 처리하는 방법을 파악한다.
대부분의 머신러닝 알고리즘은 각각 객체의 특성을 기술하는 일련의 기능으로 객체를 표현하는 기능 공간에서 데이터를 다룬다. 실제로 이런 형식으로 해당 세트에 도입되는 대신 데이터는 종종 미가공 형태로 유입되며, 머신러닝 알고리즘의 소비를 위해 반드시 바람직한 형태로 만들어야 한다. 예를 들어, 이로부터 다양한 특징을 추출하기 위해 다양한 컴퓨터 비전 기법을 사용하는 방법이나 텍스트를 특징짓기 위해 자연어 처리 기법을 적용하는 방법을 알아야 한다.

10. 기업 문제를 머신러닝 알고리즘으로 변화하는 문제를 학습한다.
사기 감지, 제품 추천, 표적 광고 등 기업에서 중요하게 여기는 일부 문제를 실제적으로 해결한 '표준' 머신러닝 공식이 있다. 이런 잘 알려진 문제뿐만 아니라, 덜 알려졌지만 예측 정확성이 더 높은 더욱 강력한 공식이 존재한다. 블로그와 포럼에서 일반적으로 논의하는 일련의 소규모 예시 외의 기업 문제의 경우 적절한 머신러닝 공식이 덜 명확하다.

개발자에게 있어서 이런 성공을 위한 10가지 핵심 요소를 학습하기가 것이 쉽지 않아 보일 수 있지만 낙담할 필요는 없다. 사실 개발자들은 데이터 공학자가 아니다. 개발자가 머신러닝이 제공하는 모든 도구를 활용할 수 있다고 생각하는 것 자체가 무리일 수 있다. 하지만 그렇다고 해서 개발자가 자신의 애플리케이션의 성능을 높이기 위해 일정 수준의 데이터 공학을 배우지 않아도 된다는 것은 아니다. 적절한 기업 솔루션과 향상된 자동화가 있으면 개발자는 높은 정확성을 보유한 머신러닝 모범 사례를 이용해 모델 구축부터 배치까지 모든 것을 할 수 있다.

자동화는 애플리케이션 내 머신러닝 확산의 핵심이다. 개발자와 밀접히 협력할 수 있는 소수의 데이터 공학자를 확보할 수 있다 하더라도 충분한 인력을 확보할 수는 없다. 스카이트리(Skytree)의 오토모델(AutoModel)의 사례가 모델 정확성 최대화를 위한 최적의 파라미터와 알고리즘을 자동으로 결정하는 데 도움이 될 수 있다. 사용이 간편한 인터페이스를 통해 개발자는 훈련, 조율, 시험 모델의 과정을 거치면서 통계적 실수를 방지할 수 있다.

머신러닝 프로세스 내의 자동화는 여러 측면에서 데이터 공학자나 개발자를 위해 인공지능의 원리를 통합하고, 알고리즘이 생각하고 학습하는 모델 구축 작업의 부담을 크게 덜어줄 수 있다. 즉, 데이터 공학자를 머신러닝과 분리하여 생각할 수 있다는 생각이 실수이며, 특히 업무에 필수적인 모델의 경우에는 더욱 그렇다. 기초 기술의 정확함, 정교함, 확장성 등에 대한 생각 없이 적용할 수 있는 간편한 머신러닝 기능의 가능성을 인지하자. 이를 통해 높은 예측 정확성과 머신러닝이 제공해야 하는 이로 인한 높은 비즈니스적 가치를 얻을 수 있다. 게다가 애플리케이션에서 형편없는 모델을 제공하면 실제로 역효과를 낳고 사용자들 사이에서 제품이나 서비스에 대한 불신이 신속하게 쌓일 수 있다. editor@itworld.co.kr 

원문보기: 
http://www.itworld.co.kr/news/94517?page=0,1#csidx620e9bed4447bedb465e0344a220834 






최근 구글의 머신러닝 기반의 인공지능 바둑 알고리듬인 알파고(AlphaGo)와 이세돌 9단과 바둑 대결이 학계와 IT업계는 물론, 일반인들에게도 큰 관심을 끌고 있다.

구글의 모기업인 알파벳(Alphabet)과 바둑(Go)의 합성어인 '알파고'는 딥마인드의 머신러닝과 시스템 신경과학 분야의 기술을 활용해 고전 전략 게임인 바둑에서 프로 바둑 기사를 이길 수 있도록 설계된 인공지능 프로그램이다.

바둑은 인간이 즐기는 경기 가운데 가장 많은 경우의 수를 갖고 있는 굉장히 복잡한 게임으로 컴퓨터가 프로 기사를 이기는 것은 아주 오랜 시간이 걸릴 것으로 예상되어 왔다. 그러나 알파고 팀은 유럽 바둑 챔피언인 판후이를 런던 사무실로 초청해 경기를 진행했는데, 알파고가 판후이를 5대 0으로 이겨 프로 기사를 이긴 최초의 프로그램이 되었다. 2016년 3월, 알파고는 서울에서 이세돌 9단과 경기를 진행할 예정이다.

2014년 1월, 구글은 영국 런던의 인공지능업체인 딥마인드(DeepMind)를 인수했는데, 이 인수전에는 IBM, 페이스북 등이 참여했었다.

구글, 이번엔 인공지능 업체 인수 … 대용량 데이터 분석 알고리듬 강화
구글 딥마인드, 게임법을 스스로 터득하는 'DQN' 개발

머신러닝(Machine Learning)이란 알고리즘을 기반으로 컴퓨터를 학습시킴으로써 방대한 데이터를 분석해 그 결과를 예측하는 것을 말한다. 직역하면 기계학습이라고 부르는 이 기술은 인공지능(Artificial Intelligence)의 한분야로 빅데이터 핵심 기술로 각광받고 있다.

ITWorld 용어풀이 | 머신 러닝(Machine Learning)
“기계에 지능을 더하는” 머신러닝의 이해 - IDG Tech Report 

머신러닝은 데이터를 수집, 분석해 미래를 예측한다는 목적은 여타 빅데이터 분석과 유사하지만 컴퓨터 스스로가 방대한 데이터를 수집, 학습할 수 있다는 점에서 차이를 두고 있다.
또한 인공지능에서 빠질 수 없이 거론되는 딥 러닝(Deep learning)은 머신러닝 기법 가운데 하나로, 머신러닝의 가장 어려운 문제를 해결할 잠재력을 지닌 지도 러닝(supervised learning) 기술이다.

머신러닝 입문 가이드 - IDG Deep Dive 

머신러닝의 기술적인 토대가 만들어진 시기는 50여 년 전이지만 얼마 전까지만 해도 학계를 벗어나면 머신러닝의 인지도는 미미했다. 머신러닝에는 막대한 컴퓨팅 자원이 필요한데, 이를 비용 효율적으로 사용할 수 있는 인프라를 갖추기 어려웠기 때문이다.

최근 머신러닝에 대한 관심과 활동이 폭증한 이유는 다음과 같다.
- 무어의 법칙(Moore's Law)으로 컴퓨팅 비용이 급격히 낮아져 지금은 최소한의 비용으로 강력한 컴퓨팅 성능을 폭넓게 이용할 수 있다.
- 새롭고 혁신적인 알고리즘이 더욱 빠른 결과를 제공한다.
- 데이터 과학자들이 머신러닝을 효과적으로 적용하기 위한 이론과 실무 지식을 축적했다.

무엇보다 빅데이터가 대대적으로 도입되면서 일반적인 통계 기술로는 해결이 불가능한 분석 문제가 발생했다. '필요가 곧 발명을 낳는다'는 말이 있듯 기존 통계 분석 방법으로 풀 수 없는 비즈니스 과제들이 발생해 새로운 빅데이터 분석기술이 필요하게 된 것이다.

“머신러닝이 다시금 주목을 받을 수 있었던 이유는...” 서울대 노영균 교수

머신러닝이 현재 부상하는 기술이라고 하지만 실제 적용된 사례는 이미 상당히 많다. 사기 방지, 타겟팅 디지털 디스플레이, 콘텐츠 추천, 자동차 품질 개선, 유망 잠재 고객에 집중, 미디어 최적화, 의료보건 서비스 개선 등 전 산업군에 걸쳐 활용되고 있다.

머신러닝, 소프트웨어 버그 수정에 탁월…10배 성능과 파급 효과 기대 : MIT

이런 무궁무진한 가능성으로 인해 구글, 야후, 네이버, 카카오 등 초대형 데이터를 다루는 업체뿐만 아니라 IBM, 마이크로소프트, SAS, 스플렁크와 같은 빅데이터 솔루션 업체들도 머신러닝 전문업체들을 인수하는 등 대규모 투자를 아끼지 않고 있다.

IBM, 스파크 기반의 머신 러닝 서비스 예정…블루믹스와 통합
MS, 데이터 예측 분석 서비스 ‘애저 머신 러닝’ 국내 출시
스플렁크, '스플렁크라이브!' 개최...신제품 대거 출시
“SAS코리아, 국내 BI 및 고급 분석 툴 소프트웨어 시장 선도”...한국 IDC

현재 머신러닝 분야에서 빠른 행보를 하는 업체는 단연 구글이다. 머신러닝을 위시한 인공지능에 사활을 걸고 있는 구글은 관련 기술에 집중 투자를 하면서 세간의 이목을 집중시키고 있다.

구글 CEO 피차이는 "머신러닝과 인공지능에 대한 구글의 투자는 최우선순위 사업"이라며 "머신러닝과 인공지능을 검색, 광고, 유튜브, 구글 플레이 등 모든 제품에 적용하고 있다. 아직 초기 단계지만, 곧 조직적인 구글의 인공지능 사업이 윤곽을 드러낼 것이다. 모든 분야에 머신러닝이 적용되는 세상을 상상해 보라"고 강조했다.

‘머신러닝의 중요성 강조한’ 구글 알파벳의 첫 실적 발표
구글 인박스, 머신러닝으로 이메일 답장 속도 높인다
구글, “머신러닝으로 스팸 메일 잡는다”…지메일 관리 도구 포스트마스터 개발

특히 구글은 2015년 11월 앱의 지능 향상을 목표로 하는 머신러닝 프로젝트인 텐서플로우(TensorFlow)를 오픈소스로 공개했다. 텐서플로우는 스마트폰과 데이터센터의 수천만 대 컴퓨터에서 모두 실행할 수 있는 구글의 차세대 내부 머신러닝 시스템이다.

구글, 오픈소스 툴 ‘텐서플로우’공개… 머신러닝 기술 외부로 오픈한다
구글의 텐서플로우 공개가 중요한 4가지 이유

구글이 이를 오픈소스화함으로써 머신러닝 기술은 오픈소스라는 새로운 발전 동력원이 생겼다.  구글이 텐서플로우를 오픈소스로 공개한 지 며칠이 지나지 않아 마이크로소프트도 DMLT(Distributed Machine Learning Toolkit)이라는 자체 머신러닝 프로젝트를 오픈소스로 공개, 배포했다.

MS, 머신러닝 오픈소스 툴킷 DMLT 공개

이어 야후는 머신러닝 과학자들을 대상으로 지금까지 중 가장 큰 데이터 집합을 공개했다. 공개된 데이터는 사용자가 뉴스를 클릭한 시간, 뉴스 피드를 본 후의 활동 등을 담은 총 1,100억 건의 기록이며, 용량은 13.5TB, 또는 압축해서 1.5TB다. 야후는 지난 번 공개된 데이터 집합보다 약 10배 더 큰 규모라고 밝혔다. 야후는 지난 해에도 마케팅 업체 크리테오(Criteo)를 통해 1TB 용량에 40억 건의 데이터를 공개한 바 있다.

야후는 "데이터는 머신러닝 연구의 생명선과 같다"며, "그러나 진정한 대규모 데이터 집합에 접근하는 것은 대형 업체 소속의 머신러닝 연구자, 데이터 과학자에게만 허락된 특권이었고, 학계 연구자에게는 매우 어려웠다"고 데이터 공개 목적을 밝혔다.

"관대한 야후", 1,100억 건 사용자 행동 데이터 머신러닝 연구용으로 공개

그러나 현재 밝혀진 머신러닝 기술 속에는 상당한 거품이 존재한다는 시각도 있다. 가트너는 2015년 주목해야 할 미래 기술 분야로 머신러닝을 선정한 바 있다. 하지만, 2015년 신기술 하이프 사이클에서는 빅데이터를 대신해 최정점에 위치하면서 허황된 기대가 가장 극심한 수준인 5개 기술 가운데 하나로 지목했다.


출처. 가트너 2015

글로벌 칼럼 | 머신러닝과 달콤한 가짜 약

머신러닝 전문가들은 이런 주장을 일축한다. 현재 머신러닝은 과대포장된 것이 아니라 오히려 과소평가를 받고 있다는 것이다.

하버드 대학 정량사회과학(Quantitative Social Science) 연구소 책임자 개리 킹은 "머신러닝은 결코 헛된 망상이 아니지만 그렇다고 무슨 일이든 척척 해낸다는 의미는 아니다"며, "지금은 머신러닝이 효과를 제대로 발휘하지 못하는 분야가 있으며, 머신러닝을 사용해 좋은 결과를 얻지 못하는 경우도 많지만 이를 이끄는 것이 숙련된 인력"이라고 설명했다.

머신러닝이 데이터 깊숙이 묻혀 있는 패턴을 발견해준다는 점에서 애플리케이션의 성능을 높이고, 사용자의 수요에 더욱 민감하게 만들 수 있다는 잠재력이 있다. 제대로 고안한 알고리즘을 통해 인간의 사고와 분석적 한계를 뛰어넘어 엄청난 양의 이질적인 데이터로부터 가치를 뽑아낼 수 있다는 것이다.

머신러닝은 개발자가 비즈니스에 필수적인 분석을 그 어떤 애플리케이션에도 적용하고, 고객 경험을 높이거나 제품 추천을 제공하고, 더욱 개인화된 콘텐츠를 제공하는 것까지 달성하게 해준다.

아마존과 마이크로소프트와 같은 클라우드 제공업체들은 개발자가 머신러닝을 손쉽게 통합할 수 있는 클라우드 기반의 솔루션을 제공함으로써 최근 화제를 불러일으켰다. 무엇인가 굉장해 보이기는 하나, 개발자들의 주의가 필요해 보인다.

클라우드 기반의 머신러닝 도구는 개발자가 머신러닝을 활용하여 참신한 기능을 구현할 수 있도록 한다. 하지만 이런 도구를 적절하게 활용하지 않으면 형편없는 결과로 사용자에게 좌절감을 줄 수 있다.

마이크로소프트의 나이 감지 머신러닝 도구를 시험해본 사람이라면 알겠지만, 사용 편의성이 뛰어난 만큼 중대한 정확도 문제가 대두한 바 있으며, 신뢰하거나 중요한 의사를 결정할 때 참조할 수 없는 경우도 많다.

머신러닝을 자신의 애플리케이션에 도입하려는 개발자는 성공을 위한 일부 핵심 요소를 염두해야 한다. 결국 머신러닝 기술 또한 무조건 도입한다고 효과를 얻을 수 있는 만능의 비약이 아니라 관련 데이터를 수집, 분석해 미래를 예측하는 도구에 불과하다는 점을 인지해야 한다. editor@itworld.co.kr

원문보기: 
http://www.itworld.co.kr/t/65210/bi%20%7C%20%EB%B6%84%EC%84%9D/97824#csidx74f0705c0b9b352ab2dd23afcee9b0a 



충분한 규모를 갖춘 IT 업체가 어떤 시장에 진입했는데, 그 시장에서 가장 강력한 업체가 되지 못한다면 이상한 일이다. 보통은 어떤 시장이라도 ‘구글, 마이크로소프트, 아마존과 기타 업체’의 형태가 되기 때문이다.

그런 관점에서 전문가들에게 다양성과 개방성이 높은 산업용 IoT 플랫폼 시장은 낯선 풍경이다. 기존 IT 업계의 강자들이 뛰어들었지만, 지배적인 시장 점유율을 확보하지 못했기 때문이다.


Dennis Larsen via Pixabay (CC0 Public Domain)


이유 중 하나는 이 시장에서 활동하는 업체의 숫자이다. 전문가들은 약 300~700곳의 업체가 IoT 스택의 일부를 담당하는 제품을 제공하고 있는 것으로 추정한다. 이들 제품은 기본적인 연결성 기능부터 분석, 현업 애플리케이션 기능까지 다양하다.

가트너 리서치 담당 부사장 마크 헝은 “업체의 규모나 분야 모두 너무나 다양하다”라며, “시장은 여전히 상당히 파편화되어 있다. 그래서 분명한 선두업체는커녕 ‘선두업체들’도 없다”라고 설명했다.

게다가 IoT는 전통적인 IT와 비교할 때 비즈니스의 운영 측면을 훨씬 많이 건드리는 기술이다. 다시 말해 기존에 오랜 관계를 맺어온 운영 기술(Operational Techynology, OT) 업체들과 동일한 시장에서 경쟁해야 한다는 의미다. 산업별로 GE와 같은 대형 업체가 관계를 맺고 있기 때문에 전통적인 IT 업체로 산업용 IoT 분야에서 입지를 확대하기가 쉽지 않다는 것.

451 리서치의 IoT 리서치 담당 디렉터 크리스티안 리노드는 “시스코가 GE 풍력 발전기용으로 GE보다 더 나은 예측 유지보수 솔루션을 내놓지는 못한다”라고 강조했다.

시스코나 마이크로소프트가 산업용 IoT 현장에 자사 제품을 공급하기 위해서는 해야 할 것이 아직 많다. 게다가 OT는 IT처럼 비용 센터도 아니다. 기업이 수익을 창출하는 곳이기 때문에 재무 관점의 요구 사항도 일반 IoT보다 훨씬 까다롭다.

전통적인 IT 업체는 에너지나 헬스케어와 같은 산업 분야에 대한 운영 인사이트를 얻기 위해 노력하고 있다. 리노드는 “대형 IT 업체는 솔루션을 공급하기 위해 노력하고 있지만, 대상이 되는 특정 산업군을 깊이 이해하지는 못하고 있다”라며, “25년 된 구형 생산장비에서 데이터를 뽑아내서 소화할 수 있는 기준에 맞춰 가져다주는 난감한 문제를 지나치게 단순화시키고 있다”고 지적했다.

이 때문에 현재는 대형 IT 업체라 하더라도 전체 IoT 스택의 소유자가 아니라 기반 파이프라인의 일부가 되는 것으로 타협해야 한다.

그렇지만 GE나 지멘스 같은 OT 업체라 하더라도 IoT 영역의 모든 것을 갖추고 있지는 않다. 대형 IT 업체는 기반 인프라에 대한 제어 역량이 있으며, 분석에 뛰어나다. 또한, 운영 기술에 약간만 통합해도 산업용 IoT 분야에서는 훨씬 매력적인 솔루션이 될 수 있다.

전략은 가능한 많은 협력 관계를 맺는 것이다. 이런 전략 하에 진행되고 있는 것이 IT와 OT의 상호 배치이다. GE의 산업용 소프트웨어 플랫폼인 프리딕스 같은 제품을 시스코의 에지 라우터나 마이크로소프트 애저 클라우드에서 구동할 수 있도록 하는 것이다.

리노드는 “엄청나게 난잡한 협력 관계가 이루어지고 있다”라며, “많은 기존 OT 업체들이 이들 IT 업체와 협력관계를 시작했다”고 말했다.

또한 이들 협력 관계는 배타적인 경우가 드물다. 이를 통해 기업의 기존 인프라 간 상호호환성을 보장하고, 어떤 새로운 IoT 플랫폼도 수용할 수 있다.

물론 이런 다양성에는 오픈소스가 한몫하고 있다. IDC의 헝은 “어떤 솔루션이든 개방형 솔루션인지 확인해야 한다. 강력한 개발자 생태계가 있는지도 중요하다. 특정 업체 한 곳에 의존하지 않아야 한다”라고 설명했다.

이런 대혼돈의 미완성 시장에서 자신을 지키는 핵심은 자각이다. 헝은 “해결하고자 하는 비즈니스 과제가 무엇인지, 또는 기존 솔루션을 개선해 얻고자 하는 것이 무엇인지 이해하는 것이 정말로 중요하다”고 덧붙였다.  editor@itworld.co.kr

원문보기: 
http://www.itworld.co.kr/t/63417/%EC%82%AC%EB%AC%BC%EC%9D%B8%ED%84%B0%EB%84%B7/106123#csidx59e1ad59be57d6fa4d6e69de90c2983 



데이터 과학자들은 머신러닝을 사용해 폐암을 탐지하고 있다. 지난 1월부터 전세계 약 1만 명의 데이터 과학자들이 데이터 사이언스 볼(Data Science Bowl) 대회에서 의료 전문가들이 폐암을 좀더 빨리 탐지할 수 있도록 도와주는 효과적인 알고리듬을 개발하는데 경쟁해왔다.

2010년 NLST(National Lung Screening Trial)는 사람들이 저조도 CT(computed tomography)를 통해 매년 검진을 받는다면 폐암으로 인한 사망자 20%를 줄일 수 있다는 것을 보여줬다. 하지만 조기 탐지를 위한 돌파구를 마련한 이 기술은 전통적인 X레이 이미지와 비교했을 때 오탐지율이 상대적으로 높다.


NCI의 고해상도 폐 영상, Credit: NATIONAL CANCER INSTITUTE

머신러닝업체인 캐글(Kaggle) CEO 앤서니 골드블룸은 부즈 앨런 해밀턴(Booz Allen Hamilton)이 매년 주최하는 데이터 사이언스 볼(Data Science Bowl)에서 "이런 강력한 접근 방법으로 20% 이상의 암 사망율을 낮췄지만, 오진율이 매우 높다"며, "수많은 사람이 자신이 암에 걸렸다는 말을 듣고 이후에 암이 아니라는 얘길듣는다. 이는 당사자에게 엄청난 스트레스를 가하는 것이다"고 말했다.

그래서 올해 데이터 사이언스 볼에서 부즈 앨런과 캐글은 오진율 문제를 해결하기 위해 데이터 과학과 머신러닝의 힘을 빌리기로 결정했다. 양사는 로라 앤 존 아놀드 재단(Laura and John Arnold Foundation)에서 100만 달러의 상금을 확보해 이 대회를 톱 10 콘테스트에 등록시켰다.

사회적 공익을 위한 데이터 과학 
부즈 앨런의 수석 데이터 과학자이자 수석 부사장 조쉬 설리반은 "부즈 앨런과 캐글은 2015년 데이터 과학자를 사회적 공익에 초점을 맞추기 위해 데이터 사이언스 볼을 만들었다"고 말했다.

설리반은 "우리는 자사의 이익보다 더 큰 사회적 공익을 위해 무언가 함께 만들고 싶었다. 상당한 가치가 있는 공익을 위한 일은 어떤 것이 있는가? 자사의 이익, 고객의 이익이 아니라 공공을 위한 과학적 발견이 가져올 수 있는 그 무언가를 원한다. 오픈소스와 크라우드 소스를 통해 전세계 사람들에게 공급할 것이다"고 설파했다.

제 3회 데이터 사이언스 볼 대회에서는 300건이 넘는 아이디어가 제출됐다. 이전 대회에서는 해양 생태계 측정과 심장 질환 탐지에 초점을 맞췄다. 설리반은 "궁극적으로 더 많은 환자들에게 더 많은 치료법을 제공하고 암 예방과 조기 발견을 향상시키기 위해 암 연구를 가속화하기 위해 노력 중인 보 바이든 암퇴치(Beau Biden Cancer Moonshot)와 미국암연구소(National Cancer Institute, NCI)를 돕기로 결정했다"고 말했다.

NCI는 데이터 사이언스 볼에 2,000개의 익명화된 고해상도 CT 스캔 영상을 제공했는데, 각 영상의 데이터 용량은 기가바이트급이었다. 설리반은 이 가운데 1,500개의 이미지는 최종 진단을 동반한 훈련 세트라고 말했다. 나머지 500개의 이미지는 문제의 집합이다. 머신러닝 알고리듬은 훈련 세트를 이용해 500개의 이미지에 담겨진 폐의 병변이 암인지의 여부를 정확히 결정하는 방법을 배워야 했다. 이 알고리듬은 정확한 진단의 백분율을 기준으로 채점됐다.



이 데이터는 캐글의 플랫폼에 저장되어 있다. 지난 3월 구글이 인수한 캐글은 2010년 골드블룸에 의해 설립됐으며, 특히 예측 모델링과 분석 기술 대회를 주최해왔다. 기업과 연구원들은 그들의 데이터를 게재해 데이터 과학자들이 최고의 모델을 만드는데 경쟁할 수 있도록 한다. 캐글은 전세계 200여 국가에서 수십만 명의 등록된 '캐글러(Kagglers)'를 보유하고 있다.

이번 경쟁에서 캐글러들은 나선구조신경망(convolutional neural networks, CNN) 전문가였다. 나선구조신경망은 생체 내 시각적 매커니즘에 영감을 받은 딥 러닝 신경망의 한 유형이다.

CNN은 다른 유형의 문제에도 유용하지만 컴퓨터 가시성 문제에 뛰어나다. 이전 캐글 경쟁에서 캐글러들은 소셜 미디어에서 개와 고양이 그림을 구별할 수 있는 CNN 기반 알고리듬을 만들기 위해 경쟁하기도 했다.

NCI에 의해 제공된 CT 영상에 대해 골드블룸은 "이 데이터는 전혀 새로운 것이었다.
실제 이는 나선구조신경망을 이전에는 가지 않았던 방향으로 밀어붙였다. 의료 데이터 세트는 데이터 세트의 크기로 인해 항상 문제가 되어왔다. 인터넷에서 고양이와 개의 그림은 몇 개나 될까? 아마도 수백만 개일 것이다. 그러나 의료 이미지를 모두 수집하는 데에는 극도로 많은 비용이 든다. 개와 고양이 사진을 찍는 것보다 CT 촬영을 하는 이는 더 적다"고 설명했다.

골드블룸은 "CNN에 대해 관찰 수에 비해 너무 많은 매개변수를 갖고 있기 때문에 기본 관계보다 잡음을 설명하는 경향이 많은 과적합(overfitting)의 가능성이 높다"고 말했다.

과적합이 되지않은 나선구조신경망을 만드는 것은 어려우며, 데이터 세트가 작을수록 더 어려운 경향이 있다. 이는 실제 이 기술이 갖고 있는 문제로, 상대적으로 적은 수의 이미지를 갖고 일반화해야 한다.

거의 1만 명에 가까운 캐글러들이 이번 데이터 사이언스 볼 대회에 참여했다. 총괄적으로 이 참가자들은 15만 시간을 보내고 약 1만 8,000개의 알고리듬을 제출했다. 다수의 방사선 전문의들은 자신의 전문지식을 활용해 캐글의 포럼 참가자들을 지원했다.

데이터 사이언스 볼 수상자 
결국, 우승자는 중국 칭화대학의 연구원인 랴오 팡저우와 저 리였다. 네덜란드 머신러닝 엔지니어인 줄리안 더 빗과 대니얼 해먹이 2위를 차지했다. 네덜란드 기반의 기업에서 근무하는 팀은 3위를 차지했다.

미국 국립보건원(National Institutes of Health, NIH)은 미국 식품 의약품국(Food and Drug Administration, FDA)와 협력해 CT 영상을 읽는 소프트웨어 내 이런 분석 기술이 적용될 수 있게끔 한다는 방침이다. 설리반은 "이것이 우리가 추구하는 것이며, 효과다"고 말했다.

설리반은 "NIH와 FDA는 다수의 최적절한 알고리듬을 고려할 것을 기대한다. 최고의 팀간에는 사실 약간의 점수차에 불과했으며 일부는 좀더 많은 발전 가능성과 확장성을 갖고 있다"고 말했다. editor@itworld.co.kr 

원문보기: 
http://www.itworld.co.kr/t/54649/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0/104665#csidx5595e3a51b0c498b08b330aa65e9af5 



지난 해 100만 대의 봇이 동원된 미라이 DDoS 공격이 일어나면서 정교하지 않고 제대로 보안도 되지 않은 IoT 디바이스의 위험성이 현실로 떠올랐다. 그리고 이들 디바이스의 많은 수가 여전히 위협으로 남아 있다.

보안 연구원들은 이 문제에 대한 원조 솔루션을 제시했다. 이들 디바이스의 취약점을 이용해 디바이스를 보호하는 화이트 웜(White Worm)을 주입하는 것이다. 전염병학의 접근 방식으로, 약한 질병에 면역 체계를 노출해 백신으로 면역을 키우는 것이다.


Image Credit : GettyImagesBank


이들 디바이스가 여전히 위협으로 남아 있는 이유는 일부 디바이스는 하드코딩된 백도어 때문에 수정할 수 없기 때문이다. 어떤 제품은 소프트웨어 업데이트 메커니즘 자체가 없어서 소프트웨어나 펌웨어의 취약점을 수정할 수 없다.

덴마크 기술대학과 스웨덴 오레브로 대학, 러시아 이노폴리스 대학의 연구팀은 미라이 웜과 그 C&C 시스템의 소스코드를 연구해 이런 예상치 못한 아이디어를 보고서로 제시했다. 미라이 소스코드는 처음 해크포럼에 발표된 이후 현재는 깃허브에도 올라와 있다.

소스 코드가 공개된 후 업계 전문가들은 이를 이용한 사이버 범죄자가 증가하지 않을까 우려하기도 했다. 하지만 반면에 소스 코드가 공개됐기 때문에 이를 막을 수 있는 화이트 웜도 만들 수 있었다.

새로운 접근 방법은 이들 IoT 디바이스가 안고 있는 위험성을 완화할 방법이 별로 없다는 점에서 설득력이 있다. 출시 일정에 쫓기는 개발자는 항상 컴퓨터 공학 보안 교과서에 나오는 대로 보안 기능을 만들지 않는다. 이 때문에 수십만 대의 디바이스가 보호 받지 못하는 상태로 방치되는 것이다.

AntibIoTic란 이름의 화이트 웜 프로젝트는 미라이 봇 설계를 이용해 보안이 약한 디바이스에 대한 액세스와 제어권을 확보하고, 여기에 항생물질(antibiotic)에 해당하는 코드를 주입한다. AntibIoTic은 미라이 악성코드의 효율적인 확산 역량을 적극 이용하는 것이다. 일단 제어권을 확보하면, 화이트 웜은 디바이스 소유자에게 알려주거나 인증서를 바꾸거나 소프트웨어 패치, 펌풰어 업데이트 등 소유자의 도움을 통해 문제를 해결하려고 시도한다. ISP나 통신업체들이 막으려고 선제적인 조처를 하는 악성 미라이와는 달리 AntibIoTic은 제어권을 확보한 이후 악의적인 행동을 하지 않기 때문에 탐지되지 않는다.

AntibIoTic의 주요 기능은 다음과 같다.

취약한 디바이스 관련 정보 수집 및 공개. 보안 연구원과 디바이스 제조업체 등 관련자는 누구라도 공개 웹사이트에 게재된 이들 위험 디바이스에 관한 데이터를 분석할 수 있다. 이 기능은 조기 경보 시스템 역할을 하는데, IoT 디바이스를 모니터링해 특정 제품군이 감염되었다는 것을 디바이스 제조업체에 알려준다.

크라우드 소싱 방식의 기여. AntibIoTic 제작자는 다양한 범위의 권한을 가진 인터랙티브 인터페이스를 특정해 다른 보안 연구원이 AntibIoTic에 기여할 수 있도록 했다. 보안 애널리스트나 제조업체의 참여를 기대할 수 있는데, 특히 IoT 제조업체는 전세계에 설치되어 자체적으로는 손 볼 수 없는 제품이 보안 결점으로 리콜이나 홍보 실패 등을 겪지 않도록 미리 대비할 수 있다.

감염 디바이스 정화. 일단 AntibIoTic이 취약한 디바이스의 통제권을 확보하면, 더 이상의 침입을 방지하기 위해 패치를 적용하거나 이미 설치된 악성 코드를 제거할 수 있다.

디바이스 소유자에게 알림. 디바이스를 정화한 후 AntibIoTic 웜은 디바이스 소유자에게 취약점을 알려준다. 이는 디바이스 소유자의 보안 경각심을 높이는 역할을 한다.

취약한 디바이스 보호. 디바이스 소유자에게 경보를 보낸 후에도 취약점이 해결되지 않으면, AntibIoTic이 관리자 인증서를 변경하거나 펌웨어를 업데이트하는 등 보안 조처를 한다.

재기동으로 인한 AntibIoTic 제거 방지. 만약 디바이스가 재기동되면 AntibIoTic은 디바이스가 정상 동작해 인터넷에 나타나면 재감염시킨다. AntibIoTicㄹ은 시작 설정을 변경해 대상 시스템에 영구적으로 존재한다.

한편 이번 보고서는 BrickerBot이란 프로젝트도 설명했는데, 이는 삼성이 갤럭시 노트 7의 발화를 방지하기 위해 사용한 방법이다. 이 방식은 문제의 디바이스를 이른바 ‘벽돌’로 만드는 것으로, IoT 악성코드가 심각한 피해를 일으킬 때 적용할 수 있다.

AntibIoTic은 디바이스 소유자의 명시적인 동의없이 제삼자가 특정 디바이스에 침입하는 방식이기 때문에 법적으로도 윤리적으로도 경계선 상에 있다. 몇몇 국가에서는 이런 방식은 불법이며, 고발 대상이다. 다른 한편으로 자신이 소유한 디바이스를 제대로 보호하지 못해 제삼자에게 피해를 주는 것은 소유자의 법 위반이 될 수 있다.

제작자들은 이 문제를 자유와 보안 논쟁의 확장판으로 보고 있지만, 법적인 문제를 면밀하게 검토하지는 않았다. 이 문제는 법률 전문가와의 협업이 필요할 것으로 보인다. 다만 전염병 예방의 관점에서 본다면, 무리의 건강은 법적 윤리적 침해보다 중요할 것이다.  editor@itworld.co.kr

원문보기: 
http://www.itworld.co.kr/t/63417/%EC%82%AC%EB%AC%BC%EC%9D%B8%ED%84%B0%EB%84%B7/106152#csidx81146d59a0516c5863c5da3bf73207c 





현업 사용자들이 직접 BI에 접근하고 툴을 사용하는 이른바 '새로운 분석'의 시대가 도래했다.

약 2년 전, 케어퍼스트 블루크로스 블루실드(CareFirst BlueCross BlueShield)는 기업 전체에 산재하고 있는 복수의 스토리지로부터 얻은 막대한 분량의 데이터를 취합하고 분석하기 위해 셀프서비스 BI를 구축했다.

캘리포니아의 팔로 알토에 위치한 클릭테크(QlikTech)가 개발한 이 기술은 CA 테크놀로지스의 프로젝트 관리 제품에 대한 보완재로 도입됐다. 현재까지 케어퍼스트는 프로젝트 비용에서 1,000만 달러를 절감할 수 있었으며 이것을 사용하는 외부 계약업체를 25%까지 줄일 수 있었다.

과거 18개월이 소요되던 활동은 현재 2일 이내에 가능해 졌다. 또한 프로젝트 관리 부서는 더 이상 BI 보고서를 작성하기 위해 중앙의 분석팀에게 기댈 필요가 없게 됐다.

매릴랜드(Maryland)에 있는 케어퍼스트 같은 기업들은 전문가들이 말하는 BI 및 데이터 분석 활동에서 극적인 변화에 직면하고 있다.

컨설팅 기업 PwC는 이것을 ‘새로운 분석’이라고 부르고 있다. 중앙에 집중된 하향식 데이터 수집, 보고, 분석에 의존하는 기존의 BI 및 데이터 분석모델과는 이 새로운 물결은 BI 보고 및 데이터 분석의 최대 수혜자인 영업부문 사용자들에게 직접 접속권한과 툴을 제공하는 것이라고 지난 화요일에 공개한 보고서에서 PwC가 밝혔다.

"새로운 분석은 중앙부서가 분석할 수 없는 해답을 찾기 위해 광범위한 비즈니스 생태계의 전문지식을 활용한다"라고 PwC는 전했다. "중앙식 분석을 위한 당면과제는 사업부가 스스로 어떤 것을 찾고 있거나 어떤 증거를 원하고 있는지 확신이 서지 않을 때 현업의 필요에 부응하는 것이다. 새로운 물결은 발견을 위해 노력하는 사람들에게 접속권한과 툴을 제공한다."

새로운 분석의 배경
BI시장에서 두 가지 트렌드가 변화를 이끌고 있다. 하나는 클라우드 컴퓨팅, 모바일 컴퓨팅, 소셜 미디어 등으로 인한 데이터의 폭발적인 증가다. 저렴한 하드웨어, 메모리, 스토리지 기술 덕분에 기업들이 거대하면서 다양하고 빠르게 성장하는 데이터 세트를 손쉽게 수집할 수 있게 됐다는 점이다. 현재 많은 기업들이 이 모든 데이터를 검토하고 분석해 비즈니스적 장점을 누릴 수 있는지 조사하고 있다.

또 다른 트렌드는 기업들이 좀 더 쉽게 거대한 데이터 세트를 취합하고 분석할 수 있도록 하는 툴의 이용성 증가다. 많은 툴들이 빅 데이터를 취급하고 인메모리 데이터베이스, NoSQL 지원, 데이터 시각화, 연합 검색, 자연어 처리 등 기업들이 데이터를 좀 더 쉽고 빠르게 분석할 수 있도록 하는 기능을 포함할 수 있도록 설계되고 있다.

예를 들어, 케어퍼스트는 셀프서비스 BI 클릭뷰(QlickView) 기술을 이용해 전통적인 BI 접근방식으로 투자한 시간과 노력의 일부만으로 프로젝트와 자원에 대한 실시간 가시성을 확보할 수 있다고 매릴랜드에 있는 케어퍼스트 PMO 담당 이사 캐롤 처치는 말했다.

이 기술을 통해 케어퍼스트는 복수의 데이터 스토리지에서 데이터를 수집하고 속도가 빠른 인메모리 데이터베이스에서 한데 취합해 예전보다 더욱 빠른 속도로 모든 종류의 분석을 수행한다.

전통적인 분석 처리 툴을 이용하는 분석가들은 우선 일련의 질문을 개발하고 IT가 관련 데이터를 취합하길 기다렸다가 데이터를 다듬고 상이한 데이터 요소들 사이에서 통로를 구축하여 분석을 가능하게 한다고 매년 120~140개의 프로젝트를 관리하고 있다는 처치는 말했다.

한편, 애널리스트들은 클릭뷰를 이용해 데이터 요소를 자유롭게 비교하고 상황에 따라 애드 혹(Ad Hoc) 기반으로 관련성을 찾는다고 그녀가 말했다.

이와 유사한 기능을 활용하고 있는 또 다른 기업은 시멘트블록(CementBloc)으로 뉴욕에 있으며 거대 제약회사들이 의사소통과 마케팅 전략을 미세조정하고 최적화할 수 있도록 돕고 있다. 해당 기업은 팁코의 스폿파이어(Sportfire) 분석 플랫폼을 이용해 복수의 정보 출처로부터 얻은 데이터를 통합 및 분석하고 있다.

"전통적인 BI 툴을 사용할 때는 무엇을 예측하게 될지 알아야 한다"라고 시멘트블록의 정보 및 분석담당 부사장 아이라 하이모위츠는 말했다. "고객 부분, 위치, 프로그램에 관한 지도별로 무엇을 예측하게 될지 알아야 하며, 그 다음 쿼리와 보고서를 생성해야 한다"라고 하이모위츠가 설명했다.

스폿파이어의 인메모리 데이터베이스 기술과 검색 및 데이터 시각화 역량을 통해 이런 요건을 상쇄할 수 있다. 이 기술 덕분에 시멘트블록은 마음대로 거대하고 다양한 데이터 세트를 연구하고 이전에는 알지 못했던 데이터 요소들 사이의 관계를 발견할 수 있게 되었다고 그가 말했다.

클릭뷰와 팁코만이 BI, 데이터 시각화, 데이터 분석 툴을 제공하는 것은 아니다. 지난 몇 년 동안 버스트(Birst), 타블로(Tableau), 데이터미어(Datameer), 스플렁크(Splunk) 등 많은 IT업체들이 새로운 BI 애플리케이션을 내놓으며 IBM, 테라데이타, SAS 등과 경쟁하고 있다.

해당 툴들을 통해 기업들은 "데이터를 수집하고 이동하여 분석할 수 있는 더 많은 방법을 얻게 되었다"라고 PwC의 적용 분석 책임자 빌 아보트는 말했다. 일부 기업들은 이런 툴들을 적용하여 기존의 데이터 세트를 통합, 추출, 분석하고 있다. 다른 많은 기업들이 하둡 등의 빅 데이터 기술에 기반하여 새로운 데이터 인프라 위에서 이것들을 사용하고 있다고 아보트가 말했다.

"20년 전에는 요건 취합을 매우 강조했었다. 왜냐하면 모든 대답을 사전에 계산하고 싶어했기 때문이다"라고 클릭테크의 CTO 안토니 다이튼이 말했다. "사용자들이 물어보고 싶어할만한 모든 질문을 미리 예상해야 했다. 이를 통해 BI 프로젝트를 위한 서비스 중심적인 이행 모델을 얻을 수 있었다"라고 그는 전했다.

PwC는 자사 보고서에서 새로운 분석은 "예상하지 못했던 기회와 위협을 검출하거나 존재를 알지 못했던 미래의 고객이 될 수 있는 사람들을 찾아내는 것이다"라고 밝히고 있다. "이것은 중요하다고 생각했던 것들이 아니라 실제로 무엇이 중요한지를 배우는 것이다. 이것은 기업이 가장 크게 변화시켜야 할 부분을 찾고 수용하여 이행하는 것이다." ciokr@idg.co.kr

원문보기: 
http://www.ciokorea.com/news/12664?page=0,1#csidxe618239bb5126c996a3e62ede213ab2 





기업들이 앞다퉈 빅 데이터라는 정보의 망망대해로 뛰어들고 있다. 빅 데이터 세계에 입문한 기업들에게 현재 필요한 것은 이것을 분석하고 유의미한 지식을 뽑아낼 수 있는 BI와 BA다.

비즈니스 데이터의 급격한 확장세가 유럽, 특히 영국의 벽 앞에서는 주춤하고 있다. 이러한 현상은 영국의 비즈니스 애널리틱스 현황을 연구한 에버딘그룹(Aberdeen Group)의 ‘비즈니스 인사이트로의 데이터 전환(Transforming Data into Business Insight)’ 보고서를 통해서도 확인할 수 있다.

하지만 골치 아프다는 이유만으로 외면하기엔 이 새롭고 복잡한, 그리고 다양한 데이터 셋이 기업들에 제공하는 잠재적 비즈니스 가치가 너무 크지 않은가? 다음의 세 단계를 따라 새로운 가치를 창출해 보자.

-기업 데이터 저장소에 적용할만한 가치가 있는 데이터 소스를 확인하라
-강력한 확장형 데이터 관리 기반을 설립하라
-데이터 상부에 새로운 분석 툴을 적용해 새로운 시각을 확보하라


2012년 1월 진행된 에버딘의 ‘BI를 위한 데이터 관리(Data Management for BI )’ 연구는 현재 5TB 이상의 비즈니스 데이터를 관리하며 공식적인 기업 수준의 빅 데이터 전략을 수립 중인 99개의 기업을 대상으로 진행됐다.


 

빅 데이터 확보에 나선 기업들
오늘날 데이터 관리에 요구되는 전략과 툴은 지속적인 개발이 진행되고 있으며 시장의 도입 추세 역시 증가하는 경향을 보이고 있다.

흥미로운 점은 빅 데이터 계획에 대중적으로 사용되는 대부분의 데이터 소스가 최소한의 데이터 발자국(data footprint)만을 가진다는 사실이다.

업무 정보와 같은 관련 데이터베이스 내 정형 데이터는 연간 36% 수준의 증가 폭을 보여주고 있지만, 이는 여타 인터넷 기반 데이터 소스가 보여주는 증가 폭과 비교하면 상당히 적은 수준에 불과하다.

그러나 기업들의 입장은 달랐다. 자신들의 전반적인 빅 데이터 활동에서 이들 정형 데이터가 중요하다고, 혹은 매우 중요하다고 응답한 기업은 전체의 93%에 달했다.

기업들은 이러한 정보가 자신들이 진행하는 프로젝트의 핵심을 구성하며, 다른 데이터 소스들은 영업이나 소비자, 상품에 관하여 축적된 이들 정보를 보조하고 여기에 추가적 시각을 제공해 주는 것이라 평가하고 있었다.

일반적으로 애용되는 또 다른 데이터 소스로는 인터넷 사용 및 소셜 미디어 행동 양식 통계가 있었다. 이는 기업들에게 소비자 행동 양식과 자사 상품 및 서비스의 성공 여부에 대한 시각을 제공해 준다.

또한, 무선 인터넷 속도의 증대로 비디오와 오디오의 원활한 스트리밍을 지원하는 것이 가능해짐에 따라, 소비자들은 보다 다양한 포맷의 정보들에 접근할 수 있게 되었다.

이 광활한 미디어 공간은 어떤 미디어 형식의 어떤 주제에 대중들이 관심을 보이고 있는지에 대한 분석 능력을 기반으로 기업들에게 소비자 기반과의 적극적인 소통의 기회를 제공해 준다.


빅 데이터를 위한 인프라
에버딘의 연구에 따르면, 많은 기업들이 새로운 데이터 소스에 대한 지원 구조를 확립하는 과정에서 이것의 일부 기초적인 요소를 그들의 IT인프라로 끌어들이고 있었다.

빅 데이터, 빅 무브(Big Data, Big Moves, 2011 8월)에서 언급된 바와 같이, 데이터 압축 및 데이터 중복 제거 솔루션은 기업 인프라의 과도한 파일을 제거하고 요구 스토리지 공간을 줄이는데 사용된다.

기업들은 또한 최종 사용자와 의사 결정권자들이 데이터 분석 과정을 통제할 수 있도록 하는 셀프 서비스 툴을 통해 IT 사업부로부터 전달 받는 보고의 부담을 덜고 직원들이 필요할 때면 언제든 정확한 데이터에 근거해 신속하고 편리하게 문제의 해답을 찾아낼 수 있길 요구하고 있다고 설명하기도 했다.

빅 데이터에 대한 최근의 관심은 대부분 새로운 테크놀로지에 향해 있다. 오늘날 시장에 소개된, 혹은 여전히 개발이 진행 중인 이 테크놀로지들은 다양한 영역에서 수집 되는 막대한 데이터 셋을 정확하게 관리하고 분석할 것이다.

이들 중 어떠한 툴이 기업에 가장 강력한 가치를 가져다 줄 지를 확인하기 위해 CIO는 기업의 현재 요구와 미래의 상품 및 서비스와 관련한 장기적 비전을 파악해야 할 것이다.

오늘날 시장에 소개된 솔루션들은 실시간으로 대량의 데이터를 처리하고 다양한 형태의 비정형, 반정형 데이터의 검색 및 분석을 지원하는, 그리고 이렇게 생성된 정보를 여러 장소의 모든 이들에게 전달하는 역할을 한다.

에버딘의 연구는 여러 주요 테크놀로지 영역에서 중요한 성장 잠재력들이 포착되고 있으며, CIO들은 그들의 비즈니스를 지원하기 위해 이들을 확인하고 평가해야 한다는 사실을 보여주었다.

이들 기관의 연구는 또한 자신들의 데이터 중심 과제에 박차를 가하고 보다 빠른 인텔리전스 전달을 꾀하는 기업들에서의 인 메모리 기술(in-memory technology, 이는 전통적인 툴의 100배 수준의 속도를 담보한다)과 이를 통한 프로세싱 스피드 증대에 대한 막대한 관심을 보여 주기도 있다.

빅 데이터의 빅뱅
실시간 통합은 데이터 셋들에 현재의 정보가 보다 빠른 속도로 업데이트 될 수 있도록 하는 일종의 상호 보완적인 테크놀로지이다.

이들 정보를 적합한 이의 손에 쥐어 주는 것이 이 프로세스의 마지막 단계이다. 스마트폰의 시대인 오늘날, 기업들은 직원이 어디에 있건 모바일 애플리케이션과 테크놀로지를 통해 그들에게 BI 역량을 전달할 수 있게 되었다.

빅 데이터의 미래는 말 그대로 가능성과 흥분의 도가니가 될 것이다.

지금까지 결합되지 않았던 데이터들을 한데 모아 새로운 시야를 창출하고, 또 이를 지금까지와는 비교할 수 없는 속도로 사용자들에게 전달하는 과정은 우리에게 놀라움을 선사하고 있다. 그러나 이는 빙산의 일각에 불과하다.

이 새로운 정보 혁명의 시대에서 CIO의 역할은 어느 때보다 강조되고 있다. 빅 데이터가 기업에 제공해 줄 가치를 이해하고 관리하는, 또 미지의 데이터 소스를 확인하고, 기업의 요구와 목표에 부응하는 최선의 테크놀로지를 선택하는 모든 과정은 CIO가 다뤄야 할 새로운 임무로 자리 잡고 있다.

*Nathaniel Rowe는 애버딘그룹에서 기업용 데이터 관리를 연구하는 애널리스트다. ciokr@idg.co.kr

원문보기: 
http://www.ciokorea.com/news/13164?page=0,1#csidx14d5637fd813d8b8db0fe4b46b956cf 

+ Recent posts