Deep Cogito เปิดตัวโมเดลภาษาโอเพนซอร์สประสิทธิภาพเหนือกว่า Llama

April 9, 2025 Cloud and Systems

สตาร์ทอัพ Deep Cogito เปิดตัวพร้อมชุดโมเดลภาษา ซึ่งบริษัทอ้างว่ามีประสิทธิภาพเหนือกว่าทางเลือกแบบโอเพนซอร์สที่มีขนาดใกล้เคียงกัน

Credit: Deep Cogito

ตามรายงานจาก TechCrunch บริษัทนี้ก่อตั้งขึ้นเมื่อเดือนมิถุนายนปีที่ผ่านมา โดยอดีตพนักงานของ Google คือ Drishan Arora และ Dhruv Malhotra โดย Arora เคยทำงานเป็นวิศวกรซอฟต์แวร์อาวุโสที่ Google ขณะที่ Malhotra เคยเป็นผู้จัดการผลิตภัณฑ์ที่ห้องปฏิบัติการ DeepMind ซึ่งเป็นแล็บด้านแมชชีนเลิร์นนิงของ Google ทั้งคู่ได้รับเงินทุนจาก South Park Commons แต่ไม่ได้เปิดเผยจำนวนที่แน่ชัด

โมเดลภาษาแบบโอเพนซอร์สของ Deep Cogito มีชื่อว่า Cogito v1 โดยโมเดลเหล่านี้มีขนาดตั้งแต่ 3 พันล้านไปจนถึง 70 พันล้านพารามิเตอร์ พัฒนาโดยอิงจากโมเดลภาษาแบบโอเพนซอร์สของตระกูล Llama และ Qwen ซึ่งพัฒนาโดย Meta Platforms และ Alibaba Group Holding ตามลำดับ

โมเดลของ Deep Cogito ใช้สถาปัตยกรรมแบบไฮบริด โดยผสมผสานองค์ประกอบของโมเดลภาษาขนาดใหญ่แบบมาตรฐาน ซึ่งสามารถตอบคำถามง่าย ๆ ได้อย่างรวดเร็ว กับโมเดลด้านการใช้เหตุผล ซึ่งอัลกอริธึมในกลุ่มหลังนี้จะใช้เวลามากขึ้นในการสร้างคำตอบ ส่งผลให้คุณภาพของผลลัพธ์สูงขึ้น โมเดลของ Deep Cogito สามารถตอบคำถามได้ทั้งแบบทันทีหรือแบบใช้การให้เหตุผลที่ลึกซึ้ง ขึ้นอยู่กับความต้องการของผู้ใช้

บริษัทได้ปรับแต่งโมเดลของตนด้วยวิธีการฝึกสอนแบบใหม่ที่เรียกว่า IDA ซึ่งมีความคล้ายคลึงกับเทคนิค distillation ซึ่งเป็นวิธีที่ใช้กันอย่างแพร่หลายในการพัฒนาโมเดลภาษาที่ประหยัดการใช้ฮาร์ดแวร์

ในกระบวนการ distillation นักพัฒนาจะส่งชุดคำถามไปยังโมเดลภาษาขนาดใหญ่ที่ใช้ฮาร์ดแวร์อย่างเข้มข้น แล้วบันทึกคำตอบไว้ หลังจากนั้นจะป้อนคำตอบเหล่านั้นให้กับโมเดลที่มีประสิทธิภาพด้านฮาร์ดแวร์มากกว่า เพื่อถ่ายทอดความรู้บางส่วนจากโมเดลขนาดใหญ่ไปยังโมเดลขนาดเล็ก

วิธี IDA ของ Deep Cogito ก็ใช้คำตอบของโมเดล LLM ในกระบวนการฝึกเช่นกัน แต่แตกต่างกันตรงที่คำตอบเหล่านั้นไม่ได้ถูกใช้เพื่อฝึกโมเดลอื่นที่ใช้ฮาร์ดแวร์น้อยลง แต่ใช้เพื่อปรับปรุงตัว LLM ที่เป็นผู้สร้างคำตอบนั้นโดยตรง

นักวิจัยของ Deep Cogito อธิบายในบล็อกโพสต์ว่า กระบวนการ IDA ประกอบด้วย 2 ขั้นตอน โดยเริ่มจากให้ LLM สร้างคำตอบจากคำถาม โดยใช้วิธีที่ “คล้าย” กับโมเดลด้านการใช้เหตุผล ซึ่งทำให้ใช้เวลามากขึ้นในการสร้างผลลัพธ์ จากนั้น เมื่อได้คำตอบแล้ว LLM จะนำระดับสติปัญญาที่เพิ่มขึ้นรวมกลับเข้าไปในพารามิเตอร์ของโมเดลเอง เพื่อรองรับขีดความสามารถที่เพิ่มขึ้น

“การทำซ้ำขั้นตอนทั้งสองนี้ในแต่ละรอบนั้นใช้ประโยชน์จากความสำเร็จในรอบก่อนหน้า” พวกเขาอธิบายในบล็อกโพสต์ “กรอบการทำงานแบบวนซ้ำนี้จึงสร้างวงจรป้อนกลับในเชิงบวก”

ในการทดสอบภายใน Deep Cogito ได้เปรียบเทียบโมเดลขั้นสูงสุดของตนกับ Llama 3.3 ของ Meta ซึ่งทั้งสองโมเดลมี 70 พันล้านพารามิเตอร์เท่ากัน ผลคือโมเดลของ Deep Cogito มีประสิทธิภาพเหนือกว่า Llama 3.3 ในทุกตัวชี้วัดทั้ง 7 รายการที่ใช้ในการประเมิน

ทางสตาร์ทอัพยังอ้างว่าโมเดลขนาดเล็กกว่าของตนก็สามารถเอาชนะทางเลือกแบบโอเพนซอร์สที่มีขนาดใกล้เคียงกันได้เช่นกัน โดยอัลกอริธึมมีขนาด 3 พันล้าน, 8 พันล้าน, 14 พันล้าน และ 32 พันล้านพารามิเตอร์ตามลำดับ

Deep Cogito มีแผนจะเปิดตัวโมเดลใหม่ในอีกไม่กี่สัปดาห์ข้างหน้า โดยจะมีขนาดตั้งแต่ 109 พันล้านไปจนถึง 671 พันล้านพารามิเตอร์

ที่มา: https://siliconangle.com/2025/04/08/deep-cogito-releases-open-source-language-models-outperform-llama/

Tags ai Deep Cogito distillation hybrid architecture llama LLM

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Stripe ยกระดับระบบชำระเงินสู่โครงสร้างพื้นฐานสำหรับ Machine-to-Machine รับยุค Agentic AI

Stripe เปิดตัวผลิตภัณฑ์ใหม่ 288 รายการ พร้อมส่งแผนพลิกโฉมระบบชำระเงินจากเดิมที่เป็นโครงสร้างพื้นฐานในการทำธุรกรรมสำหรับมนุษย์ ให้กลายเป็นโครงสร้างพื้นฐานที่สามารถตั้งโปรแกรมได้และทำงานอย่างต่อเนื่องเพื่อรองรับธุรกกรรมแบบ Machine-to-Machine ถือเป็นการปูทางเข้าสู่ระบบเศรษฐกิจแบบ Agentic AI อย่างเต็มรูปแบบ

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

Deep Cogito เปิดตัวโมเดลภาษาโอเพนซอร์สประสิทธิภาพเหนือกว่า Llama

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Stripe ยกระดับระบบชำระเงินสู่โครงสร้างพื้นฐานสำหรับ Machine-to-Machine รับยุค Agentic AI

Deep Cogito เปิดตัวโมเดลภาษาโอเพนซอร์สประสิทธิภาพเหนือกว่า Llama

Share this:

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also