DeepSeek พัฒนาสถาปัตยกรรม AI แบบ mHC เพื่อเพิ่มประสิทธิภาพของโมเดล

ห้องปฏิบัติการ AI จากจีน DeepSeek เปิดเผยว่านักวิจัยของตนได้พัฒนาเทคโนโลยีที่เรียกว่า Manifold-Constrained Hyper-Connections หรือ mHC ซึ่งสามารถช่วยเพิ่มประสิทธิภาพของโมเดลปัญญาประดิษฐ์ได้

Credit: DeepSeek

DeepSeek สร้าง mHC ขึ้นมาเพื่อปรับปรุงกลไกที่เรียกว่า residual connection ซึ่งถูกใช้โดยโมเดลภาษาขนาดใหญ่เพื่อเรียนรู้ข้อมูลใหม่ กลไกซึ่งถูกคิดค้นขึ้นในปี 2015 นี้ถูกใช้งานอย่างแพร่หลายในโมเดลประมวลผลภาพด้วยเช่นกัน DeepSeek ไม่ใช่ผู้เล่นรายแรกที่พยายามปรับปรุง residual connection แต่ความพยายามก่อนหน้านี้ให้ผลลัพธ์ที่หลากหลาย

โมเดล AI หนึ่งตัวประกอบด้วยส่วนประกอบซอฟต์แวร์จำนวนมากที่เรียกว่าเลเยอร์ เมื่อผู้ใช้ป้อนพรอมต์ ข้อความจะเข้าสู่เลเยอร์แรกซึ่งประมวลผลบางส่วนของการคำนวณที่จำเป็นในการสร้างคำตอบ เลเยอร์แรกจะส่งผลลัพธ์ไปยังเลเยอร์ที่สอง ซึ่งดำเนินการอีกส่วนหนึ่ง แล้วจึงส่งต่อไปยังเลเยอร์ที่สามและต่อไปเรื่อย ๆ จนเลเยอร์สุดท้ายเป็นผู้สร้างคำตอบให้ผู้ใช้

เลเยอร์สุดท้ายมีบทบาทสำคัญในกระบวนการฝึก AI หากโมเดลสร้างคำตอบผิด เลเยอร์สุดท้ายจะได้รับสัญญาณที่เรียกว่า gradient ซึ่งบ่งชี้ว่า AI ทำผิดพลาด และยังมีข้อมูลเกี่ยวกับวิธีที่โมเดลสามารถปรับปรุงได้ ทั้งนี้ gradient จะไหลย้อนจากเลเยอร์สุดท้ายกลับไปยังเลเยอร์ก่อนหน้าเรื่อย ๆ จนถึงเลเยอร์แรก

ในปี 2015 นักวิจัยได้สร้างกลไกการจัดการ gradient ที่เรียกว่า residual connection ซึ่งทำหน้าที่เป็นทางลัด ให้ gradient สามารถเดินทางโดยตรงระหว่างเลเยอร์ที่อยู่ห่างกัน โดยไม่จำเป็นต้องผ่านทุกเลเยอร์ residual connection ช่วยลดข้อผิดพลาดทั่วไปหลายอย่างในการฝึกโมเดล AI ซึ่งเป็นเหตุผลที่มันถูกใช้อย่างแพร่หลายใน LLM และโมเดลประมวลผลภาพ

ในเดือนกันยายนปีที่แล้ว นักวิจัยเปิดตัวทางเลือกของ residual connection ที่เรียกว่า Hyper-Connections ซึ่งแก้ปัญหาบางอย่างของกลไกดั้งเดิม แต่ก็ยังมีข้อจำกัดของตนเอง สถาปัตยกรรม mHC ที่ DeepSeek เปิดตัวในครั้งนี้เป็นเวอร์ชันที่ได้รับการปรับปรุงของ Hyper-Connections โดยช่วยหลีกเลี่ยงความท้าทายทางเทคนิคหลายประการ ทำให้เหมาะกับการใช้งานจริงมากขึ้น

นวัตกรรมหลักของ mHC คือการผสานสิ่งที่เรียกว่า manifold ซึ่งเป็นกลุ่มของวัตถุทางคณิตศาสตร์ที่มีระดับความซับซ้อนหลากหลาย บาง manifold มีลักษณะเป็นรูปทรงเรขาคณิตง่าย ๆ เช่นวงกลม ขณะที่บางชนิดมีมิติสูงกว่า 3 มิติ ทั้งนี้ DeepSeek ระบุว่า mHC ใช้ manifold เพื่อช่วยรักษาเสถียรภาพของ gradient ระหว่างการเดินทางผ่านเลเยอร์ต่าง ๆ ของโมเดล AI

บริษัทนำสถาปัตยกรรมนี้ไปทดสอบด้วยการฝึก LLM จำนวน 3 ตัว ที่มีพารามิเตอร์ 3 พันล้าน 9 พันล้าน และ 27 พันล้าน จากนั้นจึงฝึกอีก 3 โมเดลที่มีขนาดเท่ากันโดยใช้ Hyper-Connections และตามข้อมูลของ DeepSeek โมเดลที่ใช้ mHC ทำผลงานได้ดีกว่าใน 8 ชุดการทดสอบมาตรฐาน AI

บริษัทระบุเพิ่มเติมว่าสถาปัตยกรรมนี้ยังใช้ฮาร์ดแวร์ได้มีประสิทธิภาพมากกว่า Hyper-Connections ซึ่งเพิ่มความต้องการหน่วยความจำระหว่างการฝึกอย่างมาก ในการทดสอบภายใน DeepSeek พบว่า mHC มีภาระด้านฮาร์ดแวร์เพิ่มขึ้นเพียง 6.27%

“ด้วยการทำความเข้าใจอย่างลึกซึ้งมากขึ้นว่าโครงสร้างแบบ topological มีอิทธิพลต่อการเพิ่มประสิทธิภาพและการเรียนรู้ตัวแทนอย่างไร mHC จะช่วยแก้ข้อจำกัดในปัจจุบัน และอาจเปิดเส้นทางใหม่สำหรับวิวัฒนาการของสถาปัตยกรรมพื้นฐานรุ่นถัดไป” นักวิจัยของ DeepSeek เขียนไว้ในงานวิจัย mHC

ที่มา: https://siliconangle.com/2026/01/01/deepseek-develops-mhc-ai-architecture-boost-model-performance/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

VMware เปิดตัว VCF 9.1 ยกระดับ Private Cloud เพิ่มความคุ้มค่าและความปลอดภัย ตอบโจทย์ยุค AI

VMware ได้ประกาศเปิดตัว VMware Cloud Foundation หรือ VCF 9.1 อย่างเป็นทางการ หวังยกระดับ Private Cloud ให้เป็นแพลตฟอร์มที่บริหารจัดการได้ง่าย คุ้มค่าต่อการลงทุน และมาพร้อมกับระบบรักษาความปลอดภัยที่แข็งแกร่งตั้งแต่ระดับโครงสร้างพื้นฐาน …