AI 뉴스

뉴스 · · 12:12 · AiToolsBee

Deepseek, 화웨이 Ascend 칩 문제로 AI 모델 출시 지연

중국 AI 기업 Deepseek가 화웨이의 칩을 사용한 AI 모델 훈련 시도 실패 후 최신 AI 모델 출시를 연기한 것으로 전해졌다.

파이낸셜 타임즈에 따르면, 중국 규제 당국은 Deepseek에게 Nvidia의 칩 대신 화웨이의 Ascend 프로세서를 사용할 것을 권장했다. 그러나 R2 모델 훈련 중 Ascend 칩에서 기술적 문제가 발생했다. 화웨이 엔지니어가 현장에 있었음에도 성공적인 훈련을 완료하지 못했다.

이러한 문제로 인해 Deepseek는 Nvidia 칩을 사용하여 훈련을 진행해야 했다. 이로 인해 모델 출시가 5월로 연기되었고, 경쟁사들이 앞서 나갈 기회를 얻었다. 현재 Deepseek는 Nvidia 하드웨어로 모델을 훈련하고, 덜 까다로운 추론 작업에는 화웨이의 Ascend 칩을 사용하고 있다. 업계 소식통에 따르면, 중국 칩은 여전히 안정성, 연결성, 소프트웨어 품질 면에서 Nvidia에 뒤처져 있다.

이러한 어려움에도 불구하고 Deepseek는 V3 모델의 업데이트 버전을 출시했다. The Register에 따르면, 새로운 V3.1은 UE8M0 FP8이라는 특별한 데이터 타입을 사용하여 훈련되었다. Deepseek는 이 데이터 타입이 곧 출시될 차세대 국산 칩을 위해 설계되었다고 밝혔다.

화웨이의 현재 최고 칩인 Ascend 910C는 FP8 데이터 타입을 기본적으로 지원하지 않는다. 이전에 사용된 E4M3 형식에서의 변화는 효율성보다는 미래 하드웨어 호환성에 더 중점을 둔 것으로 보인다. V3.1은 이전 V3 체크포인트를 기반으로 하며, 하이브리드 추론 모드를 추가했다.