생성형 AI 분야의 보안을 검증하기 위해 수천 명의 인원을 투입한 엔비디아와 제너레이티브 레드팀 챌린지

지난 8월 10일에서 13일까지, 라스베이거스에서 수천 명의 해커들이 보다 신뢰할 수 있고 포용적인 AI를 구축하기 위한 노력의 일환으로 최신 세대 AI 플랫폼을 조정, 변형 그리고 실험을 하였습니다.

엔비디아는 해커 커뮤니티와 협력하여 차세대 AI 테스트를 위한 베스트 프랙티스를 만들고, 엔비디아 네모와 네모 가드레일(NVIDIA NeMo & NeMo Guardrails) 등 업계 최고의 LLM 솔루션에 대한 최초의 테스트에도 참여했습니다.

AI 빌리지, 시드AI, 휴먼 인텔리전스가 주최하는 제너레이티브 레드 팀 챌린지(Generative Red Team Challenge)는 라스베이거스에서 열리는 블랙햇 및 데프콘 보안 컨퍼런스에서 엔비디아 리더들이 진행하는 일련의 워크숍, 교육 세션 및 강연 중 하나로 진행되었습니다.

해커들이 악용할 수 있는 수많은 취약점을 파헤치는 이 챌린지는 떠오르는 AI 기술을 실제로 확인할 수 있는 많은 기회 중 첫 번째가 될 것입니다.

“AI는 개인이 이전에는 불가능했던 것을 창조하고 구축할 수 있도록 지원합니다.”라고 SeedAI의 설립자이자 제너레이티브 레드팀 챌린지의 공동 주최자인 Austin Carson은 챌리지 진행에 대한 소감을 밝혔습니다. “하지만 기술을 테스트하고 평가할 대규모의 다양한 커뮤니티가 없다면 AI는 크리에이터를 반영할 뿐이며 사회의 많은 부분을 뒤처지게 할 것입니다.”

해커 커뮤니티와의 협력은 바이든-해리스 행정부가 최첨단 생성 모델을 개발하는 선도적인 AI 기업들로부터 자발적인 약속을 확보하는 등 전 세계적으로 AI 안전에 대한 관심이 고조되고 있는 가운데 이루어졌습니다.

AI 빌리지의 설립자이자 제너레이티브 레드 팀 챌린지의 공동 주최자인 Sven Cattell은 “AI 빌리지는 악의적인 사용과 사회에 미치는 영향 등 AI 시스템의 영향에 대해 우려하는 커뮤니티를 끌어모으고 있습니다.”라고 답하였습니다. “데프콘 29에서 저희는 트위터의 루만 차우두리의 전 팀과 함께 첫 번째 알고리즘 편향 바운티를 주최했습니다. 이는 기업이 조사를 위해 자사 모델에 대한 대중의 접근을 허용한 최초의 사례이기도 했습니다.”

이번 챌린지는 회의주의, 독립성, 투명성을 바탕으로 새로운 보안 표준을 만들고 현장 테스트하는 데 있어 해커 커뮤니티가 주도적인 역할을 해온 덕분에 AI 진화의 중요한 단계가 될 것입니다.

엔비디아의 기술은 AI의 근간이 되는 기술이며, 엔비디아는 생성형 AI 혁명의 시작부터 함께하고 있습니다. 지난 2016년, 엔비디아 젠슨 황 CEO는 ChatGPT를 구동하는 대규모 언어 모델 혁신의 엔진인 최초의 엔비디아 DGX AI 슈퍼컴퓨터를 오픈AI에 직접 전달했습니다.

원래 AI 연구 도구로 사용되던 엔비디아 DGX 시스템은 이제 전 세계 기업에서 데이터를 정제하고 AI를 처리하기 위해 24시간 연중무휴로 가동되고 있습니다.

경영 컨설팅 업체인 맥킨지는 생성형 AI가 63개의 활용 분야에서 연간 2조 6천억 달러에서 4조 4천억 달러에 해당하는 가치를 전 세계 경제에 추가할 수 있을 것으로 추산하고 있습니다.

따라서 안전과 신뢰는 업계 전반에 걸쳐서 가지고 있는 가장 큰 관심사입니다.

이것이 바로 보안 전문가를 위한 블랙 햇 컨퍼런스와 데프콘에서 엔비디아의 전문가들의 참석자들과 소통했던 이유이기도 합니다.

블랙햇에서는 머신 러닝 사용에 대한 이틀간의 교육 세션과 웹 스케일 트레이닝 데이터세트 오염의 위험에 대한 브리핑을 주최했습니다. 또한 보안을 위한 AI의 잠재적 이점에 대한 패널 토론에도 참여했습니다.

데프콘에서 엔비디아는 베이스보드 관리 컨트롤러 침입의 위험성에 대한 강연을 진행했습니다. 이러한 특수 서비스 프로세서는 컴퓨터, 네트워크 서버 또는 기타 하드웨어 장치의 물리적 상태를 모니터링할 수 있습니다.

또한 AI 빌리지 프롬프트 디텍티브 워크숍의 일부인 제너레이티브 레드 팀 챌린지를 통해 수천 명의 데프콘 참가자들은 프롬프트 주입을 시연하고 비윤리적인 행동을 유도하며 부적절한 응답을 얻기 위한 다른 기술을 테스트해 볼 수 있었습니다.

뿐만 아니라 마이크로소프트의 참여로 앤스로픽, 코히어, 구글, 허깅 페이스, 메타, 엔비디아, 오픈AI 그리고 스테이빌리티가 구축한 모델은 Scale AI가 개발한 평가 플랫폼에서 테스트되었습니다.

그 결과 모두가 똑똑해졌지요.

“저희는 아이디어와 정보 교환을 촉진하는 동시에 위험과 기회에 대처하고 있습니다.”라고 AI 빌리지의 리더십 팀원이자 이 챌린지를 설계한 비영리 단체인 휴먼 인텔리전스의 공동 설립자인Rumman Chowdhury는 소감을 밝혔습니다. “해커 커뮤니티는 다양한 아이디어에 노출되고 커뮤니티 파트너는 미래를 위한 새로운 기술을 습득할 수 있습니다.”

지난 4월에 오픈 소스 소프트웨어로 출시된 네모 가드레일(NeMo Guardrails)은 개발자가 생성형 AI 애플리케이션을 안내하여 인상적인 텍스트 응답을 생성할 수 있도록 지원함으로써 지능형 LLM 기반 애플리케이션이 정확하고 적절하며 주제에 맞고 안전한지 확인할 수 있도록 지원합니다.

투명성을 보장하고 다양한 환경에서 기술을 활용할 수 있도록 수년간의 연구 끝에 개발된 네모 가드레일은 오픈 소스이며, 네모 대화형 AI 프레임워크의 대부분은 이미 GitHub에서 오픈 소스 코드로 제공되어 개발자 커뮤니티의 엄청난 에너지와 AI 안전에 대한 노력에 기여하고 있습니다.

데프콘 커뮤니티와의 참여는 이를 기반으로 하여 엔비디아가 네모 가드레일에서 학습한 내용을 공유하고 커뮤니티가 이를 학습하도록 하고 있습니다.

SeedAI, 휴먼 인텔리전스, AI 빌리지 등 행사 주최측은 데이터를 분석하고 프로세스 및 학습 내용을 포함한 결과를 발표하여 다른 조직이 유사한 훈련을 수행할 수 있도록 지원할 계획입니다. 주최 측에서는 연구 제안서를 공모하여 첫 24시간 내에 유수의 연구자들로부터 여러 건의 제안서를 받기도 했죠.

Chowdhury는 “대규모의 생성형 AI 시스템에 대한 라이브 해킹 이벤트의 첫 번째 사례인 만큼 함께 학습할 것입니다.”라고 말했습니다. “이 연습을 복제하고 수천 명의 사람들에게 AI 테스트를 제공할 수 있는 능력이 바로 성공의 열쇠입니다.”