DeepSeek ปล่อยโมเดล V3 รุ่นปรับปรุงใต้ไลเซนส์ MIT

March 25, 2025 AI, Cloud and Systems

DeepSeek ได้เปิดตัวเวอร์ชันที่ปรับปรุงให้ดียิ่งขึ้นของโมเดลภาษาขนาดใหญ่ DeepSeek-V3 ภายใต้สัญญาอนุญาตโอเพนซอร์สใหม่

Credit: DeepSeek

Simon Willison นักพัฒนาและบล็อกเกอร์ซอฟต์แวร์ เป็นคนแรกที่รายงานการอัปเดตนี้ โดย DeepSeek เองไม่ได้ออกประกาศอย่างเป็นทางการ และไฟล์ Readme ของโมเดลใหม่ ซึ่งเป็นองค์ประกอบที่มักจะมีบันทึกอธิบายที่เกี่ยวข้อง ก็ยังว่างเปล่า

DeepSeek-V3 เป็นโมเดล LLM แบบโอเพนซอร์สที่เปิดตัวครั้งแรกในเดือนธันวาคม โดยเป็นพื้นฐานของ DeepSeek-R1 ซึ่งเป็นโมเดลด้านเหตุผลที่ช่วยให้ห้องวิจัยปัญญาประดิษฐ์ของจีนกลายเป็นที่รู้จักเมื่อต้นปีนี้ แม้ว่า DeepSeek-V3 จะเป็นโมเดลทั่วไปที่ไม่ได้ปรับแต่งมาเพื่อเหตุผลโดยเฉพาะ แต่ก็สามารถแก้โจทย์คณิตศาสตร์บางส่วนและสร้างโค้ดได้

ก่อนหน้านี้ LLM นี้ถูกแจกจ่ายภายใต้สัญญาอนุญาตโอเพนซอร์สแบบคัสตอม แต่เวอร์ชันใหม่ที่ DeepSeek ปล่อยในวันนี้ได้เปลี่ยนไปใช้สัญญาอนุญาต MIT ซึ่งเป็นที่นิยมอย่างแพร่หลาย นักพัฒนาสามารถใช้โมเดลที่อัปเดตนี้ในโครงการเชิงพาณิชย์และปรับแต่งได้โดยแทบไม่มีข้อจำกัด

ที่สำคัญกว่านั้น ดูเหมือนว่า DeepSeek-V3 เวอร์ชันใหม่จะมีความสามารถที่สูงขึ้นและใช้ทรัพยากรฮาร์ดแวร์ได้อย่างมีประสิทธิภาพมากกว่าเดิมด้วย

โดยปกติแล้ว LLM ที่ล้ำสมัยส่วนใหญ่มักต้องใช้การ์ดจอระดับศูนย์ข้อมูล โดย Awni Hannun นักวิจัยด้านแมชชีนเลิร์นนิงของ Apple ได้ทดสอบการรัน DeepSeek-V3 เวอร์ชันใหม่นี้บน Mac Studio และพบว่าโมเดลสามารถสร้างผลลัพธ์ได้ที่ความเร็วประมาณ 20 โทเค็นต่อวินาที

Mac Studio ที่ใช้ทดสอบเป็นรุ่นที่มีการกำหนดค่าระดับสูง โดยมีราคา $9,499 และการรัน DeepSeek-V3 บนเครื่องดังกล่าวต้องใช้เทคนิค quantization แบบ 4 บิต ซึ่งเป็นกระบวนการปรับแต่ง LLM ที่แลกเปลี่ยนความแม่นยำบางส่วนกับการใช้หน่วยความจำและเวลาหน่วงที่ลดลง

ตามโพสต์บน X ที่ VentureBeat พบ เวอร์ชันใหม่ของ DeepSeek-V3 มีความสามารถด้านการเขียนโปรแกรมที่ดีขึ้นกว่ารุ่นเดิม โดยโพสต์ดังกล่าวมีการทดสอบ benchmark ที่ประเมินความสามารถของโมเดลในการสร้างโค้ด Python และ Bash ซึ่งเวอร์ชันใหม่นี้ทำคะแนนได้ประมาณ 60% ซึ่งสูงกว่ารุ่นก่อนหน้านี้อยู่หลายเปอร์เซ็นต์

อย่างไรก็ตาม โมเดลยังคงตามหลัง DeepSeek-R1 ซึ่งเป็น LLM ระดับเรือธงที่ได้รับการปรับแต่งเพื่อการใช้เหตุผลโดยเฉพาะ นอกจากนี้ DeepSeek-V3 เวอร์ชันล่าสุดยังทำคะแนนได้น้อยกว่า Qwen-32B ซึ่งเป็นอีกหนึ่งโมเดลที่ได้รับการออกแบบมาสำหรับการใช้เหตุผล

แม้ว่า DeepSeek-V3 จะมีพารามิเตอร์ถึง 671 พันล้านตัว แต่ขณะตอบคำถาม โมเดลจะใช้เพียงประมาณ 37 พันล้านตัวเท่านั้น กลไกนี้ช่วยให้โมเดลสามารถทำงานได้โดยใช้โครงสร้างพื้นฐานน้อยกว่า LLM แบบดั้งเดิมที่ต้องเรียกใช้พารามิเตอร์ทั้งหมด นอกจากนี้ DeepSeek ยังระบุว่า LLM ตัวนี้มีประสิทธิภาพมากกว่า DeepSeek-R1 ซึ่งช่วยลดต้นทุนในการใช้งาน

เวอร์ชันดั้งเดิมของ DeepSeek-V3 ได้รับการฝึกด้วยชุดข้อมูลที่มี 14.8 ล้านล้านโทเค็น กระบวนการฝึกใช้เวลาประมาณ 2.8 ล้านชั่วโมงของการ์ดจอ ซึ่งน้อยกว่าที่ LLM ระดับแนวหน้าส่วนใหญ่มักต้องการอย่างมีนัยสำคัญ และเพื่อปรับปรุงคุณภาพผลลัพธ์ วิศวกรของ DeepSeek ยังได้ทำการปรับแต่งเพิ่มเติมโดยใช้การตอบกลับจาก DeepSeek-R1 อีกด้วย

ที่มา: https://siliconangle.com/2025/03/24/deepseek-releases-improved-deepseek-v3-model-mit-license/

Tags ai DeepSeek DeepSeek-V3 LLM mit license

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Stripe ยกระดับระบบชำระเงินสู่โครงสร้างพื้นฐานสำหรับ Machine-to-Machine รับยุค Agentic AI

Stripe เปิดตัวผลิตภัณฑ์ใหม่ 288 รายการ พร้อมส่งแผนพลิกโฉมระบบชำระเงินจากเดิมที่เป็นโครงสร้างพื้นฐานในการทำธุรกรรมสำหรับมนุษย์ ให้กลายเป็นโครงสร้างพื้นฐานที่สามารถตั้งโปรแกรมได้และทำงานอย่างต่อเนื่องเพื่อรองรับธุรกกรรมแบบ Machine-to-Machine ถือเป็นการปูทางเข้าสู่ระบบเศรษฐกิจแบบ Agentic AI อย่างเต็มรูปแบบ

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

DeepSeek ปล่อยโมเดล V3 รุ่นปรับปรุงใต้ไลเซนส์ MIT

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Stripe ยกระดับระบบชำระเงินสู่โครงสร้างพื้นฐานสำหรับ Machine-to-Machine รับยุค Agentic AI

DeepSeek ปล่อยโมเดล V3 รุ่นปรับปรุงใต้ไลเซนส์ MIT

Share this:

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also