Amazon Web Services เตรียมเปิดให้ลูกค้าใช้งานชิปปัญญาประดิษฐ์ WSE-3 ของ Cerebras Systems โดยทั้งสองบริษัทได้ประกาศโครงการริเริ่มดังกล่าวซึ่งเป็นส่วนหนึ่งของความร่วมมือระยะหลายปี ทั้งนี้ AWS และ Cerebras จะร่วมกันพัฒนา “สถาปัตยกรรมแบบแยกส่วน” สำหรับเวิร์กโหลดอินเฟอเรนซ์ AI เทคโนโลยีนี้ถูกคาดหวังว่าจะช่วยเพิ่มความเร็วในการสร้างผลลัพธ์ของโมเดล AI ได้ถึง 5 เท่า

ชิป WSE-3 ของ Cerebras ประกอบด้วยคอร์จำนวน 900,000 คอร์ และ SRAM บนชิปขนาด 44 กิกะไบต์ โดยบริษัทจะจัดส่งตัวประมวลผลนี้ในรูปแบบของอุปกรณ์ที่ระบายความร้อนด้วยน้ำซึ่งเรียกว่า CS-3 ตัวเครื่องมีขนาดใกล้เคียงกับตู้เย็นขนาดเล็ก ซึ่งรวมเอา WSE-3 หนึ่งตัวเข้ากับหน่วยความจำภายนอก อุปกรณ์เครือข่าย และส่วนประกอบเสริมอื่น ๆ
ภายใต้ความร่วมมือที่ประกาศใหม่นี้ AWS จะนำอุปกรณ์ CS-3 ไปติดตั้งในศูนย์ข้อมูลของตน โดยระบบจะเปิดให้ลูกค้าใช้งานผ่านบริการ AWS Bedrock ซึ่งเป็นบริการที่ให้เข้าถึงโมเดลพื้นฐาน ทั้งที่พัฒนาขึ้นเองและจากผู้ให้บริการภายนอก CS-3 ช่วยให้โครงข่ายประสาทเทียมสามารถสร้างคำตอบสำหรับพรอมต์ด้วยความเร็วหลายพันโทเคนต่อวินาที
สถาปัตยกรรมแบบแยกส่วนที่ AWS และ Cerebras กำลังพัฒนาร่วมกัน จะเป็นการรวม WSE-3 เข้ากับ AWS Trainium ซึ่งเป็นสายการผลิตชิป AI ของ AWS เอง เป้าหมายของการบูรณาการนี้คือการเร่งความเร็วเวิร์กโหลดอินเฟอเรนซ์ของลูกค้า
โมเดลภาษาขนาดใหญ่จะประมวลผลพรอมต์โดยการแบ่งออกเป็นหน่วยข้อมูลเล็ก ๆ ที่เรียกว่าโทเคน แต่ละโทเคนประกอบด้วยตัวอักษรหรือตัวเลขไม่กี่ตัว LLM จะสร้างวัตถุทางคณิตศาสตร์ 3 อย่าง ได้แก่ key, value และ query สำหรับทุก ๆ โทเคนในพรอมต์ วัตถุเหล่านี้ช่วยให้โมเดลกำหนดได้ว่าส่วนใดของพรอมต์ที่มีความสำคัญและรายละเอียดใดที่สามารถลดความสำคัญลงได้ กระบวนการที่ LLM ประมวลผลพรอมต์นี้เรียกว่าขั้นตอน prefill ตามด้วยขั้นตอน decode ซึ่งเป็นช่วงที่โมเดลสร้างคำตอบสำหรับคำถามของผู้ใช้
โดยปกติแล้ว งาน prefill และ decode จะถูกดำเนินการโดยชิปตัวเดียวกัน แต่ในสถาปัตยกรรมแบบแยกส่วนของ AWS ตัวประมวลผล Trainium จะขับเคลื่อนขั้นตอน prefill ในขณะที่ WSE-3 จะทำหน้าที่ decode
การ decode เกี่ยวข้องกับการคำนวณที่คล้ายคลึงกับขั้นตอน prefill แต่ต้องมีการเคลื่อนย้ายข้อมูลที่มากกว่าอย่างมีนัยสำคัญ ข้อมูลจะเดินทางระหว่างวงจรตรรกะและหน่วยความจำของชิปอยู่ตลอดเวลา ยิ่งชิปสามารถเคลื่อนย้ายข้อมูลได้เร็วเท่าไหร่ คำตอบของพรอมต์ก็จะถูกสร้างขึ้นได้เร็วเท่านั้น
จุดขายหลักอย่างหนึ่งของ WSE-3 คือความสามารถในการเคลื่อนย้ายข้อมูลระหว่างวงจรตรรกะและหน่วยความจำได้เร็วกว่าชิปอื่น ๆ จำนวนมาก ข้อมูลจาก Cerebras ระบุว่าตัวประมวลผลนี้มีแบนด์วิดท์หน่วยความจำภายในสูงถึง 27 เพตาไบต์ต่อวินาที ซึ่งมากกว่าปริมาณที่การเชื่อมต่อการ์ดกราฟิก NVLink ของ Nvidia มอบให้ถึง 200 เท่า
AWS จะเชื่อมโยงชิป Trainium และ WSE-3 เข้าด้วยกันในศูนย์ข้อมูลโดยใช้อุปกรณ์เครือข่ายที่พัฒนาขึ้นเองที่ชื่อว่า Elastic Fabric Adapter หรือ EFA โดยปกติแล้วแพ็กเก็ตข้อมูลจะต้องผ่านระบบปฏิบัติการของเซิร์ฟเวอร์โฮสต์เมื่อเคลื่อนที่ระหว่างชิป แต่ EFA จะข้ามขั้นตอนนี้เพื่อเร่งความเร็วการเชื่อมต่อและลดความแออัดของเครือข่ายโดยอัตโนมัติ
“สถาปัตยกรรมแบบแยกส่วนนั้นเหมาะอย่างยิ่งเมื่อคุณมีเวิร์กโหลดขนาดใหญ่และคงที่” James Wang ผู้อำนวยการฝ่ายการตลาดผลิตภัณฑ์ของ Cerebras เขียนในบล็อกโพสต์ “ลูกค้าส่วนใหญ่รันเวิร์กโหลดที่ผสมผสานกันด้วยอัตราส่วน prefill/decode ที่แตกต่างกัน ซึ่งแนวทางแบบรวมศูนย์ดั้งเดิมยังคงเหมาะสมที่สุด เราคาดว่าลูกค้าส่วนใหญ่จะต้องการเข้าถึงทั้งสองรูปแบบ”
ความร่วมมือครั้งนี้เกิดขึ้นเพียงไม่กี่สัปดาห์หลังจากที่ Cerebras คว้าข้อตกลงจัดหาชิปอันเป็นที่จับตามองอีกรายการ โดย OpenAI Group ตกลงที่จะซื้อโครงสร้างพื้นฐานการประมวลผลมูลค่า 750 เมกะวัตต์จากบริษัทจนถึงปี 2028 ข้อตกลงดังกล่าวซึ่งมีรายงานว่ามีมูลค่ากว่า 1 หมื่นล้านดอลลาร์ ถูกประกาศในช่วงระหว่างการระดมทุนสองรอบที่ทำให้ Cerebras ได้รับเงินทุนรวมกันมากกว่า 2 พันล้านดอลลาร์ คาดว่าผู้ผลิตชิปรายนี้จะยื่นจดทะเบียนเสนอขายหุ้นต่อสาธารณะครั้งแรกเร็วที่สุดภายในไตรมาสที่สอง ซึ่งข้อตกลงกับ AWS และ OpenAI อาจช่วยเพิ่มความสนใจของนักลงทุนในการเข้าจดทะเบียนในตลาดหลักทรัพย์ครั้งนี้
ที่มา: https://siliconangle.com/2026/03/13/aws-will-bring-cerebras-wafer-size-wse-3-chip-cloud-platform/
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย






