77년의 역사를 가진 미쓰이물산(Mitsui & Co)은 생성형 AI, 컨피덴셜 컴퓨팅(confidential computing)과 같은 새로운 기술을 통해 비즈니스와 생태계를 구축하며 활력을 유지하고 있습니다.
일본 도쿄에 본사를 둔 이 대기업은 16개의 사업부를 두고 다양한 형태로 디지털 전환을 진행하고 있죠. 그 예시로 자율주행 트럭 운송 서비스나 지리공간 분석 플랫폼 등이 있습니다. 미쓰이는 양자 컴퓨팅의 최첨단을 선도하는 파트너와도 협력하고 있습니다.
미쓰이의 새로운 자회사인 제우레카(Xeureka)는 신약 하나를 시장에 출시하는 데 10년에 걸쳐 10억 달러 이상이 소요되는 의료 분야의 R&D를 가속화하는 것을 목표로 합니다.
미쓰이의 디지털 전환 그룹 프로젝트 매니저인 카츠야 이토(Katsuya Ito)는 “우리는 AI와 컨피덴셜 컴퓨팅과 같은 새로운 디지털 기술을 사용해 비즈니스를 창출합니다. 대부분의 작업은 기술 회사들과 협력을 통해 이루어지죠. 이 경우 NVIDIA와 미국 샌프란시스코에 본사를 둔 보안 소프트웨어 회사인 포타닉스(Fortanix)와 함께하고 있습니다”고 말했습니다.
빅데이터를 향한 노력
제우레카는 설립 3년만에 이미 신약 개발의 가장 큰 문제 중 하나인 충분한 데이터 확보를 해결하기 위한 개념 증명을 완료했습니다.
신약 개발 속도를 높이려면 대부분의 제약사가 보유하고 있는 것보다 더 큰 데이터 세트로 구축된 강력한 AI 모델이 필요합니다. 최근까지는 데이터에 제약사 독점의 화학 공식뿐만 아니라 개인 환자 정보가 포함된 경우가 많았기 때문에 기업 간 데이터 공유는 불가했죠.
그러나 컨피덴셜 컴퓨팅의 등장으로 데이터 처리가 GPU 또는 CPU의 보호된 영역에서 이루어지게 됐고, 이는 조직의 가장 중요한 기밀을 위한 블랙박스 역할을 하고 있습니다.
은행, 정부 기관, 심지어 광고주까지 데이터를 상시적으로 기밀로 유지하기 위해 세계 최대 기업 컨소시엄의 지원을 받는 이 기술을 사용하고 있습니다.
개인정보 보호를 위한 개념 증명
제우레카는 고객이 컨피덴셜 컴퓨팅을 통해 데이터를 안전하게 공유할 수 있는지 검증하기 위해 2개의 가상 회사를 만들었습니다. 각 회사는 천 개의 약물 후보를 보유하고 있으며, 각 회사의 데이터 세트를 개별적으로 사용해 화학물질의 독성 수준을 예측하는 AI 모델을 훈련시켰습니다. 이후 두 데이터를 결합해 유사하지만 더 큰 규모의 AI 모델을 훈련시켰죠.
제우레카는 컨피덴셜 컴퓨팅을 지원하는 최초의 스타트업 중 하나인 포타닉스의 보안 관리 소프트웨어를 사용해 NVIDIA H100 Tensor 코어 GPU에서 테스트를 진행했습니다.
H100 GPU는 하드웨어 기반 엔진을 갖춘 신뢰할 수 있는 실행 환경을 지원해 성능 저하 없이 기밀 작업을 보호하고 검증합니다. 포티닉스 소프트웨어는 데이터 공유, 암호화 키, 전반적인 워크플로우 등을 관리합니다.
최대 74% 더 높은 정확도
결과는 인상적이었습니다. 통합된 데이터 세트를 사용한 덕분에 더 큰 모델의 예측 정확도가 65~74% 더 높았죠.
카츠야 이토 매니저는 단일 회사의 데이터로 만든 모델에서 큰 모델에서는 나타나지 않았던 불안정성과 편향성 문제가 나타났다고 말했습니다.
제우레카의 CTO인 히로키 마키구치(Hiroki Makiguchi)는 포타닉스의 보도자료에서 “NVIDIA와 포타닉스의 컨피덴셜 컴퓨팅은 기본적으로 개인 정보 보호와 보안 문제를 완화하는 동시에 모델 정확도를 개선해 업계 전체에 상생을 가져올 것”이라고 말했습니다.
AI 슈퍼컴퓨팅 생태계
현재 제우레카는 GPU 가속 AI 슈퍼컴퓨터인 도쿄-1(Tokyo-1)의 커뮤니티와 협력해 신약 개발 연구에 이 기술을 광범위하게 적용하는 방안을 모색하고 있습니다. 지난 2월에 발표된 도쿄-1은 일본을 비롯한 전 세계 제약사의 효율성 향상을 목표로 하고 있습니다.
초기 프로젝트에는 신뢰할 수 있는 서비스를 통해 단백질 구조 예측, 리간드-염기 쌍 선별, 분자 역학 시뮬레이션 가속화 등의 협업이 포함될 수 있습니다. 도쿄-1 사용자들은 NVIDIA BioNeMo 신약 개발 마이크로서비스와 프레임워크를 통해 화학, 단백질, DNA, RNA 데이터 형식에 대한 거대 언어 모델(Large Language Model, LLM)을 활용할 수 있습니다.
현재 일본의 제약 산업은 세계에서 미국과 중국에 이어 세 번째로 큰 규모입니다. 따라서 이는 일본의 1,000억 달러 규모 제약 산업을 지원하는 등 의료용 소프트웨어와 서비스 개발을 목표로 하는 미쓰이의 보다 넓은 전략적 성장 계획의 일환입니다.
제우레카의 서비스에는 AI를 활용해 수십억 개의 약물 후보를 신속하게 스크리닝하고, 유용한 분자가 단백질과 결합하는 방식을 예측하며, 상세한 화학 행동의 시뮬레이션 등이 포함될 예정입니다.
NVIDIA 컨피덴셜 컴퓨팅에 대해 확인하고, 신약 개발을 위한 AI 플랫폼인 NVIDIA BioNeMo에 대해서도 자세히 알아보세요.