'2024/12/31 글 목록

초대규모 MoE 언어 모델 DeepSeek-V3: 혁신적 FP8 학습과 최강 오픈소스 챗 모델로의 진화

DeepSeek-V3 기술 보고서 및 사용 가이드 아래 글은 DeepSeek-V3에 대한 기술 보고서 및 사용 가이드 내용을 한국어로 번역하고, 블로그 형식으로 재구성한 글입니다. DeepSeek-V3의 주요 특징, 모델 다운로드 방법, 다양한 평가 결과, 그리고 로컬에서 모델을 활용하는 방법 등을 한눈에 볼 수 있도록 정리했습니다.1. 소개 (Introduction)DeepSeek-V3는 전체 파라미터가 671B(이하 B는 109로 “억 개” 단위)이며, 각 토큰마다 37B가 활성화되는 강력한 Mixture-of-Experts(MoE) 언어 모델입니다.효율적인 추론(inference) 및 저비용 학습을 위해, DeepSeek-V3는 DeepSeek-V2에서 검증된 Multi-head Latent Att..

인공지능(AI) 2024.12.31

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

슈가의 작고 큰 지식

2024/12/31 1

티스토리툴바