DeepSeek ปล่อยโมเดล V3 รุ่นปรับปรุงใต้ไลเซนส์ MIT

DeepSeek ได้เปิดตัวเวอร์ชันที่ปรับปรุงให้ดียิ่งขึ้นของโมเดลภาษาขนาดใหญ่ DeepSeek-V3 ภายใต้สัญญาอนุญาตโอเพนซอร์สใหม่ Simon Willison นักพัฒนาและบล็อกเกอร์ซอฟต์แวร์ เป็นคนแรกที่รายงานการอัปเดตนี้ โดย DeepSeek เองไม่ได้ออกประกาศอย่างเป็นทางการ และไฟล์ Readme ของโมเดลใหม่ ซึ่งเป็นองค์ประกอบที่มักจะมีบันทึกอธิบายที่เกี่ยวข้อง ก็ยังว่างเปล่า DeepSeek-V3 เป็นโมเดล LLM แบบโอเพนซอร์สที่เปิดตัวครั้งแรกในเดือนธันวาคม โดยเป็นพื้นฐานของ DeepSeek-R1 ซึ่งเป็นโมเดลด้านเหตุผลที่ช่วยให้ห้องวิจัยปัญญาประดิษฐ์ของจีนกลายเป็นที่รู้จักเมื่อต้นปีนี้ แม้ว่า DeepSeek-V3 จะเป็นโมเดลทั่วไปที่ไม่ได้ปรับแต่งมาเพื่อเหตุผลโดยเฉพาะ แต่ก็สามารถแก้โจทย์คณิตศาสตร์บางส่วนและสร้างโค้ดได้ ก่อนหน้านี้ LLM นี้ถูกแจกจ่ายภายใต้สัญญาอนุญาตโอเพนซอร์สแบบคัสตอม แต่เวอร์ชันใหม่ที่ DeepSeek ปล่อยในวันนี้ได้เปลี่ยนไปใช้สัญญาอนุญาต MIT ซึ่งเป็นที่นิยมอย่างแพร่หลาย นักพัฒนาสามารถใช้โมเดลที่อัปเดตนี้ในโครงการเชิงพาณิชย์และปรับแต่งได้โดยแทบไม่มีข้อจำกัด ที่สำคัญกว่านั้น ดูเหมือนว่า DeepSeek-V3 เวอร์ชันใหม่จะมีความสามารถที่สูงขึ้นและใช้ทรัพยากรฮาร์ดแวร์ได้อย่างมีประสิทธิภาพมากกว่าเดิมด้วย โดยปกติแล้ว LLM ที่ล้ำสมัยส่วนใหญ่มักต้องใช้การ์ดจอระดับศูนย์ข้อมูล โดย Awni Hannun นักวิจัยด้านแมชชีนเลิร์นนิงของ Apple ได้ทดสอบการรัน DeepSeek-V3 เวอร์ชันใหม่นี้บน Mac Studio และพบว่าโมเดลสามารถสร้างผลลัพธ์ได้ที่ความเร็วประมาณ 20 … Continue reading DeepSeek ปล่อยโมเดล V3 รุ่นปรับปรุงใต้ไลเซนส์ MIT