DeepSeek ได้เปิดตัวเวอร์ชันที่ปรับปรุงให้ดียิ่งขึ้นของโมเดลภาษาขนาดใหญ่ DeepSeek-V3 ภายใต้สัญญาอนุญาตโอเพนซอร์สใหม่

Simon Willison นักพัฒนาและบล็อกเกอร์ซอฟต์แวร์ เป็นคนแรกที่รายงานการอัปเดตนี้ โดย DeepSeek เองไม่ได้ออกประกาศอย่างเป็นทางการ และไฟล์ Readme ของโมเดลใหม่ ซึ่งเป็นองค์ประกอบที่มักจะมีบันทึกอธิบายที่เกี่ยวข้อง ก็ยังว่างเปล่า
DeepSeek-V3 เป็นโมเดล LLM แบบโอเพนซอร์สที่เปิดตัวครั้งแรกในเดือนธันวาคม โดยเป็นพื้นฐานของ DeepSeek-R1 ซึ่งเป็นโมเดลด้านเหตุผลที่ช่วยให้ห้องวิจัยปัญญาประดิษฐ์ของจีนกลายเป็นที่รู้จักเมื่อต้นปีนี้ แม้ว่า DeepSeek-V3 จะเป็นโมเดลทั่วไปที่ไม่ได้ปรับแต่งมาเพื่อเหตุผลโดยเฉพาะ แต่ก็สามารถแก้โจทย์คณิตศาสตร์บางส่วนและสร้างโค้ดได้
ก่อนหน้านี้ LLM นี้ถูกแจกจ่ายภายใต้สัญญาอนุญาตโอเพนซอร์สแบบคัสตอม แต่เวอร์ชันใหม่ที่ DeepSeek ปล่อยในวันนี้ได้เปลี่ยนไปใช้สัญญาอนุญาต MIT ซึ่งเป็นที่นิยมอย่างแพร่หลาย นักพัฒนาสามารถใช้โมเดลที่อัปเดตนี้ในโครงการเชิงพาณิชย์และปรับแต่งได้โดยแทบไม่มีข้อจำกัด
ที่สำคัญกว่านั้น ดูเหมือนว่า DeepSeek-V3 เวอร์ชันใหม่จะมีความสามารถที่สูงขึ้นและใช้ทรัพยากรฮาร์ดแวร์ได้อย่างมีประสิทธิภาพมากกว่าเดิมด้วย
โดยปกติแล้ว LLM ที่ล้ำสมัยส่วนใหญ่มักต้องใช้การ์ดจอระดับศูนย์ข้อมูล โดย Awni Hannun นักวิจัยด้านแมชชีนเลิร์นนิงของ Apple ได้ทดสอบการรัน DeepSeek-V3 เวอร์ชันใหม่นี้บน Mac Studio และพบว่าโมเดลสามารถสร้างผลลัพธ์ได้ที่ความเร็วประมาณ 20 โทเค็นต่อวินาที
Mac Studio ที่ใช้ทดสอบเป็นรุ่นที่มีการกำหนดค่าระดับสูง โดยมีราคา $9,499 และการรัน DeepSeek-V3 บนเครื่องดังกล่าวต้องใช้เทคนิค quantization แบบ 4 บิต ซึ่งเป็นกระบวนการปรับแต่ง LLM ที่แลกเปลี่ยนความแม่นยำบางส่วนกับการใช้หน่วยความจำและเวลาหน่วงที่ลดลง
ตามโพสต์บน X ที่ VentureBeat พบ เวอร์ชันใหม่ของ DeepSeek-V3 มีความสามารถด้านการเขียนโปรแกรมที่ดีขึ้นกว่ารุ่นเดิม โดยโพสต์ดังกล่าวมีการทดสอบ benchmark ที่ประเมินความสามารถของโมเดลในการสร้างโค้ด Python และ Bash ซึ่งเวอร์ชันใหม่นี้ทำคะแนนได้ประมาณ 60% ซึ่งสูงกว่ารุ่นก่อนหน้านี้อยู่หลายเปอร์เซ็นต์
อย่างไรก็ตาม โมเดลยังคงตามหลัง DeepSeek-R1 ซึ่งเป็น LLM ระดับเรือธงที่ได้รับการปรับแต่งเพื่อการใช้เหตุผลโดยเฉพาะ นอกจากนี้ DeepSeek-V3 เวอร์ชันล่าสุดยังทำคะแนนได้น้อยกว่า Qwen-32B ซึ่งเป็นอีกหนึ่งโมเดลที่ได้รับการออกแบบมาสำหรับการใช้เหตุผล
แม้ว่า DeepSeek-V3 จะมีพารามิเตอร์ถึง 671 พันล้านตัว แต่ขณะตอบคำถาม โมเดลจะใช้เพียงประมาณ 37 พันล้านตัวเท่านั้น กลไกนี้ช่วยให้โมเดลสามารถทำงานได้โดยใช้โครงสร้างพื้นฐานน้อยกว่า LLM แบบดั้งเดิมที่ต้องเรียกใช้พารามิเตอร์ทั้งหมด นอกจากนี้ DeepSeek ยังระบุว่า LLM ตัวนี้มีประสิทธิภาพมากกว่า DeepSeek-R1 ซึ่งช่วยลดต้นทุนในการใช้งาน
เวอร์ชันดั้งเดิมของ DeepSeek-V3 ได้รับการฝึกด้วยชุดข้อมูลที่มี 14.8 ล้านล้านโทเค็น กระบวนการฝึกใช้เวลาประมาณ 2.8 ล้านชั่วโมงของการ์ดจอ ซึ่งน้อยกว่าที่ LLM ระดับแนวหน้าส่วนใหญ่มักต้องการอย่างมีนัยสำคัญ และเพื่อปรับปรุงคุณภาพผลลัพธ์ วิศวกรของ DeepSeek ยังได้ทำการปรับแต่งเพิ่มเติมโดยใช้การตอบกลับจาก DeepSeek-R1 อีกด้วย
ที่มา: https://siliconangle.com/2025/03/24/deepseek-releases-improved-deepseek-v3-model-mit-license/