폴 말러(Paul Mahler)는 2013년 5월 직종을 바꾸기로 결심했던 날을 기억합니다.
과거 경제학자로 활동했던 말러는 워싱턴D.C.의 한 버스 정류장에서 버스를 기다리면서 스마트폰으로 뉴욕타임즈를 읽고 있었습니다. 그러다 컴퓨터로 영화 대본을 검토하는 앱을 만든 한 통계학 교수의 기사를 감명 깊게 읽습니다. 이 기사는 말러 교수가 할리우드에서 수익성이 높은 새로운 커리어를 시작하는 계기가 됩니다.
말러는 “그 기사를 읽은 건 기념비적인 사건이었습니다. 그 기사를 보고 저도 데이터 사이언스 쪽으로 직종을 전환하기로 결정했습니다”라고 말했습니다. 현재 말러는 실리콘밸리의 수석 데이터 사이언티스트로 활동하며, 엔비디아 고객들이 AI를 활용해 자신만의 발전을 이루도록 돕고 있습니다.
말러와 마찬가지로 이얄 톨레다노(Eyal Toledano)도 10년째 하던 일을 그만두고 데이터 사이언티스트로 직종을 전환했습니다. 톨레다노는 당시 상황을 회상하며 “저의 존재 자체에 대한 위기감이 들었습니다. 저는 제가 재능이 있다면 제가 자부심을 느낄 수 있을 만한 멋진 일에 도전해야 한다고 생각했습니다. 또 실패하더라도 그 모든 순간이 행복할 것이라고 생각했습니다”라고 말했습니다.
또, “대학교 동창이 외딴 지역에서 차 사고가 난 적이 있었는데 자신의 엑스레이를 보고 해석할 수 있는 사람이 아무도 없었다고 합니다. 그래서 (AI를 활용한) 이미지 데이터베이스를 구축해서 비슷한 상황에 놓인 사람들이 빠르게 진단을 받을 수 있도록 해야 한다고 생각했다고 합니다. 다른 사람의 아이디어를 실천에 옮기기 위해 이렇게 노력해 본 것은 처음이었습니다”라고 말했습니다.
두 사람은 2014년 AI 기술을 의료영상에 적용하는 기업인 지브라 메디컬 비전(Zebra Medical Vision)을 공동 설립했습니다. 톨레다노는 딥 러닝이라는 새로운 업계에 진입하는 방법은 오직 하나라고 생각했습니다.
톨레다노는 “두 팔을 걷어 부치고 삽질도 하는 헝그리 정신이 도움이 됐습니다. 데이터 사이언스에 종사하려면 지저분한 일에도 발벗고 나서야 합니다”라고 말했습니다.
떠오르는 블루오션
데이터 사이언스는 블루오션입니다. 월 6,700만 명의 방문자들을 1,200만 개의 구인광고와 연계하는 서비스 업체 글래스도어(Glassdoor)에 따르면, 데이터 사이언티스트가 미국 최고의 직업 순위에서 1위를 차지했습니다. 또, 데이터 사이언티스트의 초임 기본급 중간 값(median base salary)은 10만 8,000달러이며, 직업 만족도는 5점 만점에 4.3점이고, 현재 6,510개의 일자리가 있다고 합니다.
데이터 엔지니어 초임 기본급 중간 값은 10만 달러이고, 직업 만족도는 5점 만점에 4.2점이며, 현재 채용 중인 기업은 4,524곳으로 데이터 사이언티스트에 크게 뒤쳐지지 않습니다.
리크루팅 회사인 버치 웍스(Burtch Works)의 2018년 연구는 한층 자세한 내용을 담고 있습니다. 버치 웍스에 따르면, 초임 연봉 수준은 직원의 업무 숙련도에 따라 낮게는 9만 5,000달러, 높게는 16만 8,000달러입니다. 데이터 사이언티스트는 수학/통계학(25%), 컴퓨터 과학과 자연과학(각각 20%), 공학(18%), 비즈니스(8%) 등 다양한 전공분야를 갖고 있습니다. 전체 데이터 사이언티스트 중 절반이 박사학위를 갖고 있으며, 40%가 석사학위를 갖고 있습니다.
엔비디아가 일부 지원하는 GPU 소프트웨어를 개발하는 스타트업 패스트 데이터(FASTDATA.io) 공동 설립자 겸 최고경영자인 알렌 카파릭(Alen Capalik)은 “데이터는 새로운 석유로 인식되고 있고, 이제 데이터 사이언티스트는 가장 중요한 직업 중 하나가 됐습니다. 데이터 사이언스에 대한 수요가 엄청나다 보니 이 분야는 100% 취업률을 자랑합니다”라고 말했습니다.
말러나 톨레다노처럼, 카파릭도 데이터 사이언스 분야에 갑작스럽게 뛰어들게 됐습니다. 카파릭은 “데이터, 데이터 파이프라인, 그리고 고객들이 데이터를 어떻게 활용하는지 이해하기 위해 수 많은 자료를 살펴봤는데 수직 시장마다 데이터를 활용하는 방식이 달랐습니다”라고 말했습니다.
데이터 사이언스 기초지식
데이터 사이언티스트는 마치 잡식 동물과 같습니다. 어떤 사람은 코딩을 할 줄 아는 통계학자이고, 어떤 사람은 데이터 분석과 머신 러닝을 공부하는 파이썬(Python) 전문가입니다. 나머지는 새롭게 부상하는 이 컴퓨팅 분야에 합류하고 싶어하는 도메인 전문가들입니다.
모든 데이터 사이언티스트는 다음과 같은 공통된 업무 흐름을 따라야 합니다.
- 적합한 빅데이터 사업 문제 확인
- 툴 체인(tool chain) 설정과 유지
- 관련 데이터 세트 대거 수집
- 사업 문제해결을 위한 데이터 세트 구성
- 적절한 AI 모델군 선정
- 모델 하이퍼파라미터(hyperparameter) 최적화
- 머신 러닝 모델 후처리
- 비판적인 결과 분석
말러는 “유니콘 데이터 사이언티스트는 서버 설치에서 이사회 발표에 이르는 모든 것을 합니다”라고 말했습니다.
하지만 업계는 빠르게 서브태스크로 분할되고 있습니다. 데이터 엔지니어들은 데이터세트를 이른바 추출(extract), 변환(transform), 로드(load) 프로세스를 통해 관리하며 전체 프로세스의 프론트 엔드에서 일합니다.
대기업들은 시급을 다투는 추천작업을 시스템이 빠르게 처리하도록 라이브러리 관리자, 보안 전문가, AI 파이프라인 엔지니어를 고용할 수 있습니다.
말러는 “타이틀이 확산되고 있다는 것은 이 분야가 성숙하고 있다는 것을 보여주는 또 다른 신호입니다”라고 말했습니다.
데이터 사이언스 분야에 입문하기
말러는 데이터 사이언스 업계에 진입하는 가장 빠르고 인기있는 방법 중 하나는 캐글 대회(Kaggle contest)에 참가하는 것이라고 합니다. 이 온라인 대회에서는 먼저 실생활에서 부딪히는 문제와 코드 예시를 제공합니다. 말러는 “엔비디아 RAPIDS 제품팀은 계속해서 캐글 대회에 참가해 왔습니다”라고 말했습니다.
대회에서 우승하면 취업의 기회가 열리기도 합니다. 의료용 AI 소프트웨어를 설계하는 엔비디아 제휴업체 오우킨(Owkin)은 자사 홈페이지에 이렇게 명시하고 있습니다. “오우킨 데이터 사이언티스들은 캐글 우승자를 포함한 세계 최고 수준의 데이터 사이언티스트들로 구성돼 있습니다.
요즘에는 최소한의 정식 교육을 받는 것을 권장하고 있습니다. 온라인 교육 사이트 fast.ai은 숙련된 프로그래머들에게 딥 러닝 입문자 교육과정을 제공하고 있습니다. 누구나, 그 중에서도 특히 여성들이 데이터 사이언스 분야에 진출할 수 있도록 장려하는 fast.ai 공동 설립자 레이첼 토마스(Rachel Thomas)의 강의도 다수 게재돼 있습니다.
아래는 엔비디아가 작성한 MIT, Google, NVIDIA 딥 러닝 인스티튜트(DLI)와 같은 대학이나 기업에서 제공하는 온라인 데이터 사이언스 과정 목록입니다.
- 데이터 사이언티스트를 위한 뉴스 사이트, KD너겟(KD Nuggets)이 선정한 2017년도 최고의 데이터 사이언스 교육과정 순위
- MIT와 하버드 대학교가 공동 설립한 온라인 서비스 에드엑스(edX)가 제공하는 강의
- 2명의 스탠포드 대학교 교수가 설립한 코세라(Coursera)가 제공하는 강의
- 앤드류 응(Andrew Ng)이 진행하는 코세라의 머신 러닝 수업 (7백만 뷰 돌파)
- 스탠포드대학교의 또 다른 교수 2명이 설립한 유다시티(Udacity)가 제공하는 강의
말러는 “AI 모델을 만들고 해석하기 위해서는 선형대수학(linear algebra), 확률, 통계 모델링을 잘 알아야 합니다. 많은 기업들이 데이터나 컴퓨터 사이언스 학위, 그리고 파이썬에 대한 깊은 이해를 요구하고 있습니다”라고 말했습니다.
패스트 데이터의 카파릭은 다른 의견입니다. “저는 관련 학위를 요구하지 않습니다. 입사를 하면 학교에서는 단 한번도 보여준 적 없는 것들을 접하게 되기 때문에 실무경험이 있는 것이 중요합니다.”
두 사람 모두 최고의 데이터 사이언티스트들이 창의적인 성향을 갖고 있다는 데에는 동의합니다. 마찬가지로, 기업들도 풍부한 상상력으로 문제를 해결하는 데이터 사이언티스트를 찾고 있습니다.
취업에 성공하기
카파릭은 면접 시험에서 면접자들의 기술실력을 테스트하지만, 테스트는 심사 과정의 극히 일부일 뿐이라고 말합니다.
카파릭은 “저는 면접자의 눈을 바라보면서 몇 가지 질문을 던집니다. 데이터 사이언스에서는 팀워크가 중요하기 때문에 문제해결 능력이 있는지, 그리고 팀의 일원으로서 원활하게 일할 수 있을지를 봅니다. 마이클 조던도 팀이 있었기 때문에 경기에서 우승할 수 있었던 겁니다”라고 말했습니다.
또, 면접 시험을 통과하고 카파릭과 대면 면접단계까지 가려면 “데이터 파이프라인이 어떻게 생겼는지, 데이터 수집이 어떻게 이뤄지는지, 데이터는 어디에 보관되는지, 그리고 알고리즘 문제를 해결하기 위해서 뉘앙스와 비효율성 문제를 어떻게 해결할지 알고 있어야 합니다”고 말했습니다.
지브라의 톨레다노는 기계적인 답변을 하는 면접자들은 일단 의심하고 본다고 합니다.
톨레다노는 “데이터 사이언스는 실험 과학입니다. 실험 결과는 많은 실험을 할 수 있는 능력 대비 점근적(asymptotic)이기 때문에, 다양한 생각과 아이디어를 빠르게 생각해내고, 학습 실험을 통해 그 아이디어를 계속해서 반복적으로 실험해야 합니다. 문제를 한 번에 해결하려는 사람들은 똑똑한 사람들일 수 있지만, 놓치는 것도 있을 것입니다. 활이나 화살로 문제를 해결하려 하지 말고, 한 개의 화살이 잠재적인 솔루션이라고 생각하고 각각의 화살을 빠르게 검토할 수 있도록 투석기를 사용해 수 많은 화살을 쏘세요”라고 말했습니다.
AI 스타트업 바블랩스(BabbleLabs)의 베테랑 사업가 겸 최고 경영자인 크리스 로웬(Chris Rowen)은 자신이 진행한 프로젝트를 잘 설명하는 입사 지원자들을 보고 놀랐다며, “어떤 문제를 AI 모델이 효과적으로 해결하고, 그 이유는 무엇인지 이해하세요”라고 조언했습니다.
개발자 커리어
IT라는 무엇이 옳고 그른지 명확한 순수 디지털 세계에 달리, 데이터 사이언스 분야에서 나타나는 문제들은 정답이 없는 경우가 많아 다양한 옵션 중에 선택하고 상호절충하는 것을 좋아하는 호기심 많은 사람들이 하기 적합한 일입니다.
실제로, IT와 데이터 사이언스는 근본적으로 다른 분야입니다.
기업의 IT 부서들은 세심하게 구성된 프로세스를 활용해 코드를 섬세하게 확인하고 컴플라이언스를 검증합니다. IT 담당자들은 한 번 만든 앱을 수년간 사용합니다. 반면에, 데이터 사이언티스트들은 확률 곡선에 기반한 모델을 끊임없이 실험하고, 모델과 데이터세트를 정기적으로 조정합니다.
시장 조사기관 위키본(Wikibon)의 베테랑 시장 분석가 겸 AI 분석가 제임스 코비에루스(James Kobielus)는 “소프트웨어 엔지니어링이 직선이라면 데이터 사이언스는 고리(loop) 형태를 띱니다. 데이터 사이언스는 향후 핵심 개발분야가 될 것입니다. 다양한 분야의 전문가들이 데이터 사이언스 분야에 뛰어들어 코딩을 배우고 있지만, 더 많은 일반적인 앱 개발분야 종사자들이 이 분야에 진입하고 있습니다. 데이터 사이언스가 요즘 수익성이 좋은 분야로 알려져 있는 것도 그 이유 중 하나입니다”라고 말했습니다.
클라우드, 로봇, 그리고 소프트 스킬
어느 진로를 택하든, 데이터 사이언티스트라면 클라우드를 잘 알고 있어야 합니다. 많은 AI 프로젝트가 컨테이너와 현대적인 조정 기술을 활용해 원격 서버에서 만들어집니다.
또, 최신 모바일, 엣지 하드웨어, 그리고 관련된 제약요소들을 이해해야 합니다.
코비에루스는 “강화학습(reinforcement learning)을 위한 시행착오 알고리즘을 활용하는 로봇공학 분야에서 많은 프로젝트가 진행되고 있습니다. 기존 데이터 사이언스와는 다릅니다. 그래서 인력이 턱없이 부족한 상황입니다. 카메라용 컴퓨터 비전도 굉장히 인기가 많은 분야입니다”라고 말했습니다.
협상을 할 때 필요한 외교적인 능력도 유용하게 사용될 수 있습니다. 데이터 사이언티스트는 변화를 일으키는 주체가 되는 경우가 많고, 업무와 프로세스를 와해하기도 합니다. 그래서 자기 편을 많이 만드는 것이 중요합니다.
철학적 변화
할 일이 많은 것처럼 보일 수 있지만, 긴장하지 마세요.
바블랩스 최고경영자 로웬은 데이터 사이언스를 활용해 설립한 첫번째 스타트업인 바블랩스에 대해 “많은 변화가 있었던 건지 잘 모르겠습니다. 물론, 명칭은 바뀌었습니다. 문제에 대한 많은 정보가 데이터 속에 묻혀 있다라는 생각은 철학적인 변화이지만 그 뿌리를 보면 제가 그동안 쭉 해왔던 일과 크게 다르지 않습니다”라고 말했습니다.
로웬은 “과거에는 문제가 생기면 그 문제의 컴퓨테이션 프로파일을 분석하고 그 문제를 해결할 프로세서를 찾아 해결했습니다. 이제는 역방향으로 가야합니다. 컴퓨테이션의 핵심이 무엇인지, 어떤 데이터가 문제가 되는지 파악하는 겁니다. 이 인사이트가 저를 딥 러닝의 세계로 이끌었습니다”라고 말했습니다.
fast.ai 공동창업자 토머스는 2018년 5월 비슷한 내용의 고무적인 연설을 했습니다. 토머스는 이 연설에서 전이 학습(transfer learning)을 이용하면 마지막 몇 레이어의 뉴럴 네트워크만 학습해도 AI 프로젝트를 성공시킬 수 있다고 말했습니다. 빅 데이터가 늘 필요한 것은 아닙니다. 예를 들어, 단 30장의 이미지만을 학습해 야구와 크리켓을 구분할 수 있게 된 시스템도 있습니다.
토머스는 “세상에는 더 많은 AI 전문가가 필요합니다. 그리고 AI 분야에 진입하는 것은 생각만큼 어려운 일이 아닙니다”라고 덧붙였습니다.