DeepSeek พัฒนาสถาปัตยกรรม AI แบบ mHC เพื่อเพิ่มประสิทธิภาพของโมเดล

January 5, 2026 AI, Cloud and Systems

ห้องปฏิบัติการ AI จากจีน DeepSeek เปิดเผยว่านักวิจัยของตนได้พัฒนาเทคโนโลยีที่เรียกว่า Manifold-Constrained Hyper-Connections หรือ mHC ซึ่งสามารถช่วยเพิ่มประสิทธิภาพของโมเดลปัญญาประดิษฐ์ได้

Credit: DeepSeek

DeepSeek สร้าง mHC ขึ้นมาเพื่อปรับปรุงกลไกที่เรียกว่า residual connection ซึ่งถูกใช้โดยโมเดลภาษาขนาดใหญ่เพื่อเรียนรู้ข้อมูลใหม่ กลไกซึ่งถูกคิดค้นขึ้นในปี 2015 นี้ถูกใช้งานอย่างแพร่หลายในโมเดลประมวลผลภาพด้วยเช่นกัน DeepSeek ไม่ใช่ผู้เล่นรายแรกที่พยายามปรับปรุง residual connection แต่ความพยายามก่อนหน้านี้ให้ผลลัพธ์ที่หลากหลาย

โมเดล AI หนึ่งตัวประกอบด้วยส่วนประกอบซอฟต์แวร์จำนวนมากที่เรียกว่าเลเยอร์ เมื่อผู้ใช้ป้อนพรอมต์ ข้อความจะเข้าสู่เลเยอร์แรกซึ่งประมวลผลบางส่วนของการคำนวณที่จำเป็นในการสร้างคำตอบ เลเยอร์แรกจะส่งผลลัพธ์ไปยังเลเยอร์ที่สอง ซึ่งดำเนินการอีกส่วนหนึ่ง แล้วจึงส่งต่อไปยังเลเยอร์ที่สามและต่อไปเรื่อย ๆ จนเลเยอร์สุดท้ายเป็นผู้สร้างคำตอบให้ผู้ใช้

เลเยอร์สุดท้ายมีบทบาทสำคัญในกระบวนการฝึก AI หากโมเดลสร้างคำตอบผิด เลเยอร์สุดท้ายจะได้รับสัญญาณที่เรียกว่า gradient ซึ่งบ่งชี้ว่า AI ทำผิดพลาด และยังมีข้อมูลเกี่ยวกับวิธีที่โมเดลสามารถปรับปรุงได้ ทั้งนี้ gradient จะไหลย้อนจากเลเยอร์สุดท้ายกลับไปยังเลเยอร์ก่อนหน้าเรื่อย ๆ จนถึงเลเยอร์แรก

ในปี 2015 นักวิจัยได้สร้างกลไกการจัดการ gradient ที่เรียกว่า residual connection ซึ่งทำหน้าที่เป็นทางลัด ให้ gradient สามารถเดินทางโดยตรงระหว่างเลเยอร์ที่อยู่ห่างกัน โดยไม่จำเป็นต้องผ่านทุกเลเยอร์ residual connection ช่วยลดข้อผิดพลาดทั่วไปหลายอย่างในการฝึกโมเดล AI ซึ่งเป็นเหตุผลที่มันถูกใช้อย่างแพร่หลายใน LLM และโมเดลประมวลผลภาพ

ในเดือนกันยายนปีที่แล้ว นักวิจัยเปิดตัวทางเลือกของ residual connection ที่เรียกว่า Hyper-Connections ซึ่งแก้ปัญหาบางอย่างของกลไกดั้งเดิม แต่ก็ยังมีข้อจำกัดของตนเอง สถาปัตยกรรม mHC ที่ DeepSeek เปิดตัวในครั้งนี้เป็นเวอร์ชันที่ได้รับการปรับปรุงของ Hyper-Connections โดยช่วยหลีกเลี่ยงความท้าทายทางเทคนิคหลายประการ ทำให้เหมาะกับการใช้งานจริงมากขึ้น

นวัตกรรมหลักของ mHC คือการผสานสิ่งที่เรียกว่า manifold ซึ่งเป็นกลุ่มของวัตถุทางคณิตศาสตร์ที่มีระดับความซับซ้อนหลากหลาย บาง manifold มีลักษณะเป็นรูปทรงเรขาคณิตง่าย ๆ เช่นวงกลม ขณะที่บางชนิดมีมิติสูงกว่า 3 มิติ ทั้งนี้ DeepSeek ระบุว่า mHC ใช้ manifold เพื่อช่วยรักษาเสถียรภาพของ gradient ระหว่างการเดินทางผ่านเลเยอร์ต่าง ๆ ของโมเดล AI

บริษัทนำสถาปัตยกรรมนี้ไปทดสอบด้วยการฝึก LLM จำนวน 3 ตัว ที่มีพารามิเตอร์ 3 พันล้าน 9 พันล้าน และ 27 พันล้าน จากนั้นจึงฝึกอีก 3 โมเดลที่มีขนาดเท่ากันโดยใช้ Hyper-Connections และตามข้อมูลของ DeepSeek โมเดลที่ใช้ mHC ทำผลงานได้ดีกว่าใน 8 ชุดการทดสอบมาตรฐาน AI

บริษัทระบุเพิ่มเติมว่าสถาปัตยกรรมนี้ยังใช้ฮาร์ดแวร์ได้มีประสิทธิภาพมากกว่า Hyper-Connections ซึ่งเพิ่มความต้องการหน่วยความจำระหว่างการฝึกอย่างมาก ในการทดสอบภายใน DeepSeek พบว่า mHC มีภาระด้านฮาร์ดแวร์เพิ่มขึ้นเพียง 6.27%

“ด้วยการทำความเข้าใจอย่างลึกซึ้งมากขึ้นว่าโครงสร้างแบบ topological มีอิทธิพลต่อการเพิ่มประสิทธิภาพและการเรียนรู้ตัวแทนอย่างไร mHC จะช่วยแก้ข้อจำกัดในปัจจุบัน และอาจเปิดเส้นทางใหม่สำหรับวิวัฒนาการของสถาปัตยกรรมพื้นฐานรุ่นถัดไป” นักวิจัยของ DeepSeek เขียนไว้ในงานวิจัย mHC

ที่มา: https://siliconangle.com/2026/01/01/deepseek-develops-mhc-ai-architecture-boost-model-performance/

Tags ai DeepSeek LLM mHC

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Stripe ยกระดับระบบชำระเงินสู่โครงสร้างพื้นฐานสำหรับ Machine-to-Machine รับยุค Agentic AI

Stripe เปิดตัวผลิตภัณฑ์ใหม่ 288 รายการ พร้อมส่งแผนพลิกโฉมระบบชำระเงินจากเดิมที่เป็นโครงสร้างพื้นฐานในการทำธุรกรรมสำหรับมนุษย์ ให้กลายเป็นโครงสร้างพื้นฐานที่สามารถตั้งโปรแกรมได้และทำงานอย่างต่อเนื่องเพื่อรองรับธุรกกรรมแบบ Machine-to-Machine ถือเป็นการปูทางเข้าสู่ระบบเศรษฐกิจแบบ Agentic AI อย่างเต็มรูปแบบ

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

DeepSeek พัฒนาสถาปัตยกรรม AI แบบ mHC เพื่อเพิ่มประสิทธิภาพของโมเดล

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Stripe ยกระดับระบบชำระเงินสู่โครงสร้างพื้นฐานสำหรับ Machine-to-Machine รับยุค Agentic AI

DeepSeek พัฒนาสถาปัตยกรรม AI แบบ mHC เพื่อเพิ่มประสิทธิภาพของโมเดล

Share this:

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also