반응형

Llama 3

초대규모 MoE 언어 모델 DeepSeek-V3: 혁신적 FP8 학습과 최강 오픈소스 챗 모델로의 진화

DeepSeek-V3 기술 보고서 및 사용 가이드 아래 글은 DeepSeek-V3에 대한 기술 보고서 및 사용 가이드 내용을 한국어로 번역하고, 블로그 형식으로 재구성한 글입니다. DeepSeek-V3의 주요 특징, 모델 다운로드 방법, 다양한 평가 결과, 그리고 로컬에서 모델을 활용하는 방법 등을 한눈에 볼 수 있도록 정리했습니다.1. 소개 (Introduction)DeepSeek-V3는 전체 파라미터가 671B(이하 B는 109로 “억 개” 단위)이며, 각 토큰마다 37B가 활성화되는 강력한 Mixture-of-Experts(MoE) 언어 모델입니다.효율적인 추론(inference) 및 저비용 학습을 위해, DeepSeek-V3는 DeepSeek-V2에서 검증된 Multi-head Latent Att..

인공지능(AI) 2024.12.31

라마 3.1(LLaMA 3.1)을 설치 방법

로컬에서 라마 3.1(LLaMA 3.1)을 설치하는 방법과 이유안녕하세요, 오늘은 최근 공개된 오픈 소스 LLaMA 3.1 모델의 설치 방법, 권장 사양, 그리고 인공지능 시대에 AI를 배우는 이유에 대해 이야기해보겠습니다.1. LLaMA 3.1이란 무엇인가요?LLaMA 3.1은 Meta에서 개발한 최신 언어 모델(LLM)로, 80억, 700억, 450억 개의 매개변수를 가진 세 가지 버전으로 제공됩니다. 특히 오픈 소스로 공개되어 개인 및 기업이 로컬 환경에서 사용할 수 있습니다. 이를 통해 데이터 보안과 맞춤형 학습이 가능해져 전 세계적으로 큰 관심을 받고 있습니다.2. 로컬 설치를 해야 하는 이유일반적으로 사용하는 온라인 AI 서비스는 인터넷에서 수집한 데이터만을 학습하며, 개인 또는 회사의 비밀 ..

인공지능(AI) 2024.11.20

라마2 발표 및 새로운 인공지능 모델 소개

Code Llama 코드라마 인공지능프로그램 언어 인공지능(AI)프로그램머를 개인 PC속으로 안녕하세요! 오늘은 페이스북 메타에서 발표한 라마2와 관련된 새로운 인공지능 모델에 대해 알아보겠습니다. 라마2는 이전에 발표된 Llama 1 모델의 후속작으로, 다양한 개선 사항과 특징을 가지고 있습니다. 라마2 소개 라마2는 파운데이션 모델로서 시작하여 파인튜닝을 통해 다양한 모델을 생성하는 기반을 제공합니다. 이 모델은 초기에는 연구용으로 배포되었으나, 이후 유출되면서 다양한 파생 모델이 개발되었습니다. 라이센스 변경 Llama 1 모델은 GPL 라이센스를 사용하였기 때문에 상업용으로 사용하기 어려웠습니다. 그러나 Llama 2는 상업용으로 사용이 가능하다는 큰 변화를 가져왔습니다. 다운로드와 사용 모델 다..

인공지능(AI) 2023.09.02
반응형