ห้องปฏิบัติการ AI จากจีน DeepSeek เปิดเผยว่านักวิจัยของตนได้พัฒนาเทคโนโลยีที่เรียกว่า Manifold-Constrained Hyper-Connections หรือ mHC ซึ่งสามารถช่วยเพิ่มประสิทธิภาพของโมเดลปัญญาประดิษฐ์ได้

DeepSeek สร้าง mHC ขึ้นมาเพื่อปรับปรุงกลไกที่เรียกว่า residual connection ซึ่งถูกใช้โดยโมเดลภาษาขนาดใหญ่เพื่อเรียนรู้ข้อมูลใหม่ กลไกซึ่งถูกคิดค้นขึ้นในปี 2015 นี้ถูกใช้งานอย่างแพร่หลายในโมเดลประมวลผลภาพด้วยเช่นกัน DeepSeek ไม่ใช่ผู้เล่นรายแรกที่พยายามปรับปรุง residual connection แต่ความพยายามก่อนหน้านี้ให้ผลลัพธ์ที่หลากหลาย
โมเดล AI หนึ่งตัวประกอบด้วยส่วนประกอบซอฟต์แวร์จำนวนมากที่เรียกว่าเลเยอร์ เมื่อผู้ใช้ป้อนพรอมต์ ข้อความจะเข้าสู่เลเยอร์แรกซึ่งประมวลผลบางส่วนของการคำนวณที่จำเป็นในการสร้างคำตอบ เลเยอร์แรกจะส่งผลลัพธ์ไปยังเลเยอร์ที่สอง ซึ่งดำเนินการอีกส่วนหนึ่ง แล้วจึงส่งต่อไปยังเลเยอร์ที่สามและต่อไปเรื่อย ๆ จนเลเยอร์สุดท้ายเป็นผู้สร้างคำตอบให้ผู้ใช้
เลเยอร์สุดท้ายมีบทบาทสำคัญในกระบวนการฝึก AI หากโมเดลสร้างคำตอบผิด เลเยอร์สุดท้ายจะได้รับสัญญาณที่เรียกว่า gradient ซึ่งบ่งชี้ว่า AI ทำผิดพลาด และยังมีข้อมูลเกี่ยวกับวิธีที่โมเดลสามารถปรับปรุงได้ ทั้งนี้ gradient จะไหลย้อนจากเลเยอร์สุดท้ายกลับไปยังเลเยอร์ก่อนหน้าเรื่อย ๆ จนถึงเลเยอร์แรก
ในปี 2015 นักวิจัยได้สร้างกลไกการจัดการ gradient ที่เรียกว่า residual connection ซึ่งทำหน้าที่เป็นทางลัด ให้ gradient สามารถเดินทางโดยตรงระหว่างเลเยอร์ที่อยู่ห่างกัน โดยไม่จำเป็นต้องผ่านทุกเลเยอร์ residual connection ช่วยลดข้อผิดพลาดทั่วไปหลายอย่างในการฝึกโมเดล AI ซึ่งเป็นเหตุผลที่มันถูกใช้อย่างแพร่หลายใน LLM และโมเดลประมวลผลภาพ
ในเดือนกันยายนปีที่แล้ว นักวิจัยเปิดตัวทางเลือกของ residual connection ที่เรียกว่า Hyper-Connections ซึ่งแก้ปัญหาบางอย่างของกลไกดั้งเดิม แต่ก็ยังมีข้อจำกัดของตนเอง สถาปัตยกรรม mHC ที่ DeepSeek เปิดตัวในครั้งนี้เป็นเวอร์ชันที่ได้รับการปรับปรุงของ Hyper-Connections โดยช่วยหลีกเลี่ยงความท้าทายทางเทคนิคหลายประการ ทำให้เหมาะกับการใช้งานจริงมากขึ้น
นวัตกรรมหลักของ mHC คือการผสานสิ่งที่เรียกว่า manifold ซึ่งเป็นกลุ่มของวัตถุทางคณิตศาสตร์ที่มีระดับความซับซ้อนหลากหลาย บาง manifold มีลักษณะเป็นรูปทรงเรขาคณิตง่าย ๆ เช่นวงกลม ขณะที่บางชนิดมีมิติสูงกว่า 3 มิติ ทั้งนี้ DeepSeek ระบุว่า mHC ใช้ manifold เพื่อช่วยรักษาเสถียรภาพของ gradient ระหว่างการเดินทางผ่านเลเยอร์ต่าง ๆ ของโมเดล AI
บริษัทนำสถาปัตยกรรมนี้ไปทดสอบด้วยการฝึก LLM จำนวน 3 ตัว ที่มีพารามิเตอร์ 3 พันล้าน 9 พันล้าน และ 27 พันล้าน จากนั้นจึงฝึกอีก 3 โมเดลที่มีขนาดเท่ากันโดยใช้ Hyper-Connections และตามข้อมูลของ DeepSeek โมเดลที่ใช้ mHC ทำผลงานได้ดีกว่าใน 8 ชุดการทดสอบมาตรฐาน AI
บริษัทระบุเพิ่มเติมว่าสถาปัตยกรรมนี้ยังใช้ฮาร์ดแวร์ได้มีประสิทธิภาพมากกว่า Hyper-Connections ซึ่งเพิ่มความต้องการหน่วยความจำระหว่างการฝึกอย่างมาก ในการทดสอบภายใน DeepSeek พบว่า mHC มีภาระด้านฮาร์ดแวร์เพิ่มขึ้นเพียง 6.27%
“ด้วยการทำความเข้าใจอย่างลึกซึ้งมากขึ้นว่าโครงสร้างแบบ topological มีอิทธิพลต่อการเพิ่มประสิทธิภาพและการเรียนรู้ตัวแทนอย่างไร mHC จะช่วยแก้ข้อจำกัดในปัจจุบัน และอาจเปิดเส้นทางใหม่สำหรับวิวัฒนาการของสถาปัตยกรรมพื้นฐานรุ่นถัดไป” นักวิจัยของ DeepSeek เขียนไว้ในงานวิจัย mHC
ที่มา: https://siliconangle.com/2026/01/01/deepseek-develops-mhc-ai-architecture-boost-model-performance/
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย






