
영국 NCSC, AI 안전장치 우회 위협 공개 지지
영국의 주요 사이버 및 AI 보안 기관들이 AI 안전장치 우회 위협을 찾고 수정하는 과정을 크라우드소싱하는 노력을 환영했습니다.
오늘 발표된 블로그 게시물에서 영국 국가 사이버 보안 센터(NCSC)의 AI 연구 보안 기술 이사인 케이트 S와 AI 보안 연구소(AISI) 연구 과학자인 로버트 커크는 이러한 위협이 최첨단 AI 시스템에 미치는 위험을 경고했습니다.
사이버 범죄자들은 ChatGPT, Gemini, Llama, Claude와 같은 모델의 내장된 보안 및 안전 가드레일을 우회하는 데 능숙함을 이미 보여주었습니다. 지난주 ESET 연구원들은 OpenAI를 사용하여 구축된 '최초의 AI 기반 랜섬웨어'를 발견했습니다.
NCSC와 AISI는 OpenAI와 Anthropic에서 새로 출시한 버그 바운티 프로그램이 이러한 위험을 완화하는 유용한 전략이 될 수 있다고 말했습니다. 이는 정기적인 소프트웨어를 더 안전하게 만드는 취약성 공개와 유사한 방식으로 작동합니다.
이들은 최첨단 AI 시스템의 안전장치를 배포 후에도 목적에 맞게 유지하는 것 외에도 책임 있는 공개와 산업 협력 문화를 장려하고, 보안 커뮤니티 전반의 참여를 증가시키며 연구자들이 기술을 연습할 수 있도록 돕기를 희망한다고 덧붙였습니다.
그러나 NCSC와 AISI는 위협 보고서를 분류하고 관리하는 데 상당한 오버헤드가 발생할 수 있으며, 참여하는 개발자는 먼저 좋은 기초 보안 관행을 갖추어야 한다고 경고했습니다.
블로그는 안전장치 우회 위협 분야에서 효과적인 공개 프로그램을 개발하기 위한 몇 가지 모범 사례 원칙을 설명했습니다.