สตาร์ทอัพ Deep Cogito เปิดตัวพร้อมชุดโมเดลภาษา ซึ่งบริษัทอ้างว่ามีประสิทธิภาพเหนือกว่าทางเลือกแบบโอเพนซอร์สที่มีขนาดใกล้เคียงกัน

ตามรายงานจาก TechCrunch บริษัทนี้ก่อตั้งขึ้นเมื่อเดือนมิถุนายนปีที่ผ่านมา โดยอดีตพนักงานของ Google คือ Drishan Arora และ Dhruv Malhotra โดย Arora เคยทำงานเป็นวิศวกรซอฟต์แวร์อาวุโสที่ Google ขณะที่ Malhotra เคยเป็นผู้จัดการผลิตภัณฑ์ที่ห้องปฏิบัติการ DeepMind ซึ่งเป็นแล็บด้านแมชชีนเลิร์นนิงของ Google ทั้งคู่ได้รับเงินทุนจาก South Park Commons แต่ไม่ได้เปิดเผยจำนวนที่แน่ชัด
โมเดลภาษาแบบโอเพนซอร์สของ Deep Cogito มีชื่อว่า Cogito v1 โดยโมเดลเหล่านี้มีขนาดตั้งแต่ 3 พันล้านไปจนถึง 70 พันล้านพารามิเตอร์ พัฒนาโดยอิงจากโมเดลภาษาแบบโอเพนซอร์สของตระกูล Llama และ Qwen ซึ่งพัฒนาโดย Meta Platforms และ Alibaba Group Holding ตามลำดับ
โมเดลของ Deep Cogito ใช้สถาปัตยกรรมแบบไฮบริด โดยผสมผสานองค์ประกอบของโมเดลภาษาขนาดใหญ่แบบมาตรฐาน ซึ่งสามารถตอบคำถามง่าย ๆ ได้อย่างรวดเร็ว กับโมเดลด้านการใช้เหตุผล ซึ่งอัลกอริธึมในกลุ่มหลังนี้จะใช้เวลามากขึ้นในการสร้างคำตอบ ส่งผลให้คุณภาพของผลลัพธ์สูงขึ้น โมเดลของ Deep Cogito สามารถตอบคำถามได้ทั้งแบบทันทีหรือแบบใช้การให้เหตุผลที่ลึกซึ้ง ขึ้นอยู่กับความต้องการของผู้ใช้
บริษัทได้ปรับแต่งโมเดลของตนด้วยวิธีการฝึกสอนแบบใหม่ที่เรียกว่า IDA ซึ่งมีความคล้ายคลึงกับเทคนิค distillation ซึ่งเป็นวิธีที่ใช้กันอย่างแพร่หลายในการพัฒนาโมเดลภาษาที่ประหยัดการใช้ฮาร์ดแวร์
ในกระบวนการ distillation นักพัฒนาจะส่งชุดคำถามไปยังโมเดลภาษาขนาดใหญ่ที่ใช้ฮาร์ดแวร์อย่างเข้มข้น แล้วบันทึกคำตอบไว้ หลังจากนั้นจะป้อนคำตอบเหล่านั้นให้กับโมเดลที่มีประสิทธิภาพด้านฮาร์ดแวร์มากกว่า เพื่อถ่ายทอดความรู้บางส่วนจากโมเดลขนาดใหญ่ไปยังโมเดลขนาดเล็ก
วิธี IDA ของ Deep Cogito ก็ใช้คำตอบของโมเดล LLM ในกระบวนการฝึกเช่นกัน แต่แตกต่างกันตรงที่คำตอบเหล่านั้นไม่ได้ถูกใช้เพื่อฝึกโมเดลอื่นที่ใช้ฮาร์ดแวร์น้อยลง แต่ใช้เพื่อปรับปรุงตัว LLM ที่เป็นผู้สร้างคำตอบนั้นโดยตรง
นักวิจัยของ Deep Cogito อธิบายในบล็อกโพสต์ว่า กระบวนการ IDA ประกอบด้วย 2 ขั้นตอน โดยเริ่มจากให้ LLM สร้างคำตอบจากคำถาม โดยใช้วิธีที่ “คล้าย” กับโมเดลด้านการใช้เหตุผล ซึ่งทำให้ใช้เวลามากขึ้นในการสร้างผลลัพธ์ จากนั้น เมื่อได้คำตอบแล้ว LLM จะนำระดับสติปัญญาที่เพิ่มขึ้นรวมกลับเข้าไปในพารามิเตอร์ของโมเดลเอง เพื่อรองรับขีดความสามารถที่เพิ่มขึ้น
“การทำซ้ำขั้นตอนทั้งสองนี้ในแต่ละรอบนั้นใช้ประโยชน์จากความสำเร็จในรอบก่อนหน้า” พวกเขาอธิบายในบล็อกโพสต์ “กรอบการทำงานแบบวนซ้ำนี้จึงสร้างวงจรป้อนกลับในเชิงบวก”
ในการทดสอบภายใน Deep Cogito ได้เปรียบเทียบโมเดลขั้นสูงสุดของตนกับ Llama 3.3 ของ Meta ซึ่งทั้งสองโมเดลมี 70 พันล้านพารามิเตอร์เท่ากัน ผลคือโมเดลของ Deep Cogito มีประสิทธิภาพเหนือกว่า Llama 3.3 ในทุกตัวชี้วัดทั้ง 7 รายการที่ใช้ในการประเมิน
ทางสตาร์ทอัพยังอ้างว่าโมเดลขนาดเล็กกว่าของตนก็สามารถเอาชนะทางเลือกแบบโอเพนซอร์สที่มีขนาดใกล้เคียงกันได้เช่นกัน โดยอัลกอริธึมมีขนาด 3 พันล้าน, 8 พันล้าน, 14 พันล้าน และ 32 พันล้านพารามิเตอร์ตามลำดับ
Deep Cogito มีแผนจะเปิดตัวโมเดลใหม่ในอีกไม่กี่สัปดาห์ข้างหน้า โดยจะมีขนาดตั้งแต่ 109 พันล้านไปจนถึง 671 พันล้านพารามิเตอร์
ที่มา: https://siliconangle.com/2025/04/08/deep-cogito-releases-open-source-language-models-outperform-llama/
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย






