전문가 인정
NVIDIA 수석 연구 관리자 Jim Fan은 최근 소셜 미디어에서 DeepSeek R1에 대한 심층 평가를 공유했습니다. GEAR Lab의 공동 설립자, Project GR00T의 리더, 스탠포드 박사, 그리고 OpenAI의 첫 인턴으로서, Fan의 관점은 업계에서 큰 영향력을 가집니다. 특히 그는 비미국 기업으로서 DeepSeek의 AI 오픈소스 개발에 대한 탁월한 기여를 강조했습니다.
오픈소스 정신의 계승자
Fan은 그의 논평에서 다음과 같이 말했습니다: "우리는 흥미로운 시대에 살고 있습니다. 비미국 기업이 OpenAI의 원래 미션을 계속 이어가고 있습니다 - 진정으로 개방적이고, 모든 이에게 힘을 실어주는 첨단 연구를. 이는 말이 안 되는 것 같지만, 가장 재미있는 결과가 종종 가장 가능성 있는 것입니다." 그는 특히 DeepSeek이 일련의 모델을 오픈소스로 공개할 뿐만 아니라 모든 훈련 비밀도 공개한다는 점을 높이 평가했습니다.
기술 혁신의 심층 분석
DeepSeek R1의 기술 논문을 주의 깊게 읽은 후, Fan은 몇 가지 주요 기술적 돌파구를 강조했습니다:
-
순수 강화학습 접근방식:
- SFT를 전혀 사용하지 않고 RL만으로 구동되는 '콜드 스타트' 방식 채택
- AlphaZero가 바둑, 쇼기, 체스를 처음부터 마스터한 breakthrough를 연상시킴
- 논문에서 가장 중요한 발견으로 간주됨
-
혁신적인 보상 메커니즘:
- 하드코딩된 규칙으로 계산된 실제 보상 사용
- RL이 쉽게 해킹할 수 있는 학습된 보상 모델을 피함
-
사고 시간의 진화:
- 훈련이 진행됨에 따라 모델의 사고 시간이 꾸준히 증가
- 이는 사전 프로그래밍된 행동이 아닌 창발적 특성임
-
GRPO 알고리즘 혁신:
- PPO에서 비평 네트워크를 제거
- 대신 여러 샘플의 평균 보상을 사용
- 메모리 사용을 줄이는 간단한 방법
- 주목할 만한 점은 GRPO가 2024년 2월 DeepSeek에 의해 발명되었다는 것
기술적 영향력의 새로운 패러다임
Fan은 특히 AI에서의 영향력은 다양한 방식으로 달성될 수 있다고 지적했습니다: "영향력은 '내부적으로 달성된 ASI'나 'Project Strawberry'와 같은 신비로운 이름으로 달성될 수 있습니다. 영향력은 또한 단순히 원시 알고리즘과 matplotlib 학습 곡선을 공개함으로써도 달성될 수 있습니다." 이러한 관점은 개방성과 투명성의 중요성을 강조합니다.
지속적 혁신의 모범
Fan의 관점에서, DeepSeek은 아마도 RL 플라이휠의 중요하고 지속적인 성장을 보여주는 첫 번째 오픈소스 프로젝트일 것입니다. 이러한 지속적인 기술 진보와 개방적인 태도는 전체 AI 커뮤니티에 중요한 기준을 제시합니다.
결론
Jim Fan의 평가는 DeepSeek R1의 기술적 성과를 확인할 뿐만 아니라, AI 민주화와 오픈소스 정신에 대한 중요한 기여도 강조합니다. 업계의 권위자로서, 그의 인정은 DeepSeek의 글로벌 AI 분야에서의 중요한 위치를 더욱 확인시켜 줍니다.
DeepSeek R1의 혁신을 직접 경험해 보세요 - DeepSeek R1 Chat을 방문하세요.