DeepSeek ปล่อยโมเดล V3 รุ่นปรับปรุงใต้ไลเซนส์ MIT

DeepSeek ได้เปิดตัวเวอร์ชันที่ปรับปรุงให้ดียิ่งขึ้นของโมเดลภาษาขนาดใหญ่ DeepSeek-V3 ภายใต้สัญญาอนุญาตโอเพนซอร์สใหม่

Credit: DeepSeek

Simon Willison นักพัฒนาและบล็อกเกอร์ซอฟต์แวร์ เป็นคนแรกที่รายงานการอัปเดตนี้ โดย DeepSeek เองไม่ได้ออกประกาศอย่างเป็นทางการ และไฟล์ Readme ของโมเดลใหม่ ซึ่งเป็นองค์ประกอบที่มักจะมีบันทึกอธิบายที่เกี่ยวข้อง ก็ยังว่างเปล่า

DeepSeek-V3 เป็นโมเดล LLM แบบโอเพนซอร์สที่เปิดตัวครั้งแรกในเดือนธันวาคม โดยเป็นพื้นฐานของ DeepSeek-R1 ซึ่งเป็นโมเดลด้านเหตุผลที่ช่วยให้ห้องวิจัยปัญญาประดิษฐ์ของจีนกลายเป็นที่รู้จักเมื่อต้นปีนี้ แม้ว่า DeepSeek-V3 จะเป็นโมเดลทั่วไปที่ไม่ได้ปรับแต่งมาเพื่อเหตุผลโดยเฉพาะ แต่ก็สามารถแก้โจทย์คณิตศาสตร์บางส่วนและสร้างโค้ดได้

ก่อนหน้านี้ LLM นี้ถูกแจกจ่ายภายใต้สัญญาอนุญาตโอเพนซอร์สแบบคัสตอม แต่เวอร์ชันใหม่ที่ DeepSeek ปล่อยในวันนี้ได้เปลี่ยนไปใช้สัญญาอนุญาต MIT ซึ่งเป็นที่นิยมอย่างแพร่หลาย นักพัฒนาสามารถใช้โมเดลที่อัปเดตนี้ในโครงการเชิงพาณิชย์และปรับแต่งได้โดยแทบไม่มีข้อจำกัด

ที่สำคัญกว่านั้น ดูเหมือนว่า DeepSeek-V3 เวอร์ชันใหม่จะมีความสามารถที่สูงขึ้นและใช้ทรัพยากรฮาร์ดแวร์ได้อย่างมีประสิทธิภาพมากกว่าเดิมด้วย

โดยปกติแล้ว LLM ที่ล้ำสมัยส่วนใหญ่มักต้องใช้การ์ดจอระดับศูนย์ข้อมูล โดย Awni Hannun นักวิจัยด้านแมชชีนเลิร์นนิงของ Apple ได้ทดสอบการรัน DeepSeek-V3 เวอร์ชันใหม่นี้บน Mac Studio และพบว่าโมเดลสามารถสร้างผลลัพธ์ได้ที่ความเร็วประมาณ 20 โทเค็นต่อวินาที

Mac Studio ที่ใช้ทดสอบเป็นรุ่นที่มีการกำหนดค่าระดับสูง โดยมีราคา $9,499 และการรัน DeepSeek-V3 บนเครื่องดังกล่าวต้องใช้เทคนิค quantization แบบ 4 บิต ซึ่งเป็นกระบวนการปรับแต่ง LLM ที่แลกเปลี่ยนความแม่นยำบางส่วนกับการใช้หน่วยความจำและเวลาหน่วงที่ลดลง

ตามโพสต์บน X ที่ VentureBeat พบ เวอร์ชันใหม่ของ DeepSeek-V3 มีความสามารถด้านการเขียนโปรแกรมที่ดีขึ้นกว่ารุ่นเดิม โดยโพสต์ดังกล่าวมีการทดสอบ benchmark ที่ประเมินความสามารถของโมเดลในการสร้างโค้ด Python และ Bash ซึ่งเวอร์ชันใหม่นี้ทำคะแนนได้ประมาณ 60% ซึ่งสูงกว่ารุ่นก่อนหน้านี้อยู่หลายเปอร์เซ็นต์

อย่างไรก็ตาม โมเดลยังคงตามหลัง DeepSeek-R1 ซึ่งเป็น LLM ระดับเรือธงที่ได้รับการปรับแต่งเพื่อการใช้เหตุผลโดยเฉพาะ นอกจากนี้ DeepSeek-V3 เวอร์ชันล่าสุดยังทำคะแนนได้น้อยกว่า Qwen-32B ซึ่งเป็นอีกหนึ่งโมเดลที่ได้รับการออกแบบมาสำหรับการใช้เหตุผล

แม้ว่า DeepSeek-V3 จะมีพารามิเตอร์ถึง 671 พันล้านตัว แต่ขณะตอบคำถาม โมเดลจะใช้เพียงประมาณ 37 พันล้านตัวเท่านั้น กลไกนี้ช่วยให้โมเดลสามารถทำงานได้โดยใช้โครงสร้างพื้นฐานน้อยกว่า LLM แบบดั้งเดิมที่ต้องเรียกใช้พารามิเตอร์ทั้งหมด นอกจากนี้ DeepSeek ยังระบุว่า LLM ตัวนี้มีประสิทธิภาพมากกว่า DeepSeek-R1 ซึ่งช่วยลดต้นทุนในการใช้งาน

เวอร์ชันดั้งเดิมของ DeepSeek-V3 ได้รับการฝึกด้วยชุดข้อมูลที่มี 14.8 ล้านล้านโทเค็น กระบวนการฝึกใช้เวลาประมาณ 2.8 ล้านชั่วโมงของการ์ดจอ ซึ่งน้อยกว่าที่ LLM ระดับแนวหน้าส่วนใหญ่มักต้องการอย่างมีนัยสำคัญ และเพื่อปรับปรุงคุณภาพผลลัพธ์ วิศวกรของ DeepSeek ยังได้ทำการปรับแต่งเพิ่มเติมโดยใช้การตอบกลับจาก DeepSeek-R1 อีกด้วย

ที่มา: https://siliconangle.com/2025/03/24/deepseek-releases-improved-deepseek-v3-model-mit-license/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

VMware เปิดตัว VCF 9.1 ยกระดับ Private Cloud เพิ่มความคุ้มค่าและความปลอดภัย ตอบโจทย์ยุค AI

VMware ได้ประกาศเปิดตัว VMware Cloud Foundation หรือ VCF 9.1 อย่างเป็นทางการ หวังยกระดับ Private Cloud ให้เป็นแพลตฟอร์มที่บริหารจัดการได้ง่าย คุ้มค่าต่อการลงทุน และมาพร้อมกับระบบรักษาความปลอดภัยที่แข็งแกร่งตั้งแต่ระดับโครงสร้างพื้นฐาน …