Google เปิดตัวโมเดล Text Diffusion โอเพนซอร์สความเร็วสูง DiffusionGemma 

Google ได้เปิดตัว DiffusionGemma ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่ใช้แนวทางแมชชีนเลิร์นนิงรูปแบบใหม่ที่เรียกว่า Text Diffusion

Credit: Google

บริษัทระบุว่า อัลกอริทึมนี้สามารถสร้างข้อความได้เร็วกว่า LLM แบบดั้งเดิมถึง 4 เท่า ยิ่งไปกว่านั้น DiffusionGemma ยังใช้หน่วยความจำน้อยลง ความประหยัดพื้นที่บนหน่วยความจำนี้ช่วยให้ตัวโมเดลสามารถรันบนการ์ดจอระดับไฮเอนด์สำหรับผู้บริโภคทั่วไปได้ ซึ่งปกติแล้วการ์ดจอกลุ่มนี้มักจะประสบปัญหาในการรองรับการรันโมเดล LLM ขนาดใหญ่

สถาปัตยกรรม Text Diffusion ของ DiffusionGemma ได้รับการดัดแปลงมาจากวิธีการที่โมเดล AI ใช้ในการสร้างรูปภาพซึ่งกระบวนการสร้างภาพจะเริ่มต้นจากภาพที่เบลอและเต็มไปด้วยสัญญาณรบกวนที่เรียกว่า “เกาส์เซียน นอยส์” จากนั้นโมเดล AI จะค่อย ๆ ลบสัญญาณรบกวนออกทีละส่วน วิเคราะห์ภาพที่คมชัดขึ้น และนำผลลัพธ์นั้นไปฟื้นฟูพิกเซลในชุดถัดไป โดยจะทำซ้ำกระบวนการนี้ไปเรื่อย ๆ จนกว่าจะได้รูปภาพที่สมบูรณ์และใช้งานได้

เมื่อ DiffusionGemma ได้รับพรอมต์ ระบบจะสร้างข้อความจำลองที่ประกอบด้วยคำสุ่ม ๆ ขึ้นมาก่อน จากนั้นจะค่อย ๆ แทนที่ข้อความสุ่มบางส่วนด้วยคำที่จะประกอบกันเป็นคำตอบจริงสำหรับคำสั่งของผู้ใช้ แล้ว DiffusionGemma จะทำการตรวจสอบสิ่งที่แก้ไข เพิ่มคำเข้าไปอีกสองสามคำ และทำซ้ำกระบวนการนี้ไปเรื่อย ๆ จนกว่าคำตอบของคำสั่งนั้นจะพร้อมใช้งาน

ตามปกติแล้ว โมเดล AI ทั่วไปจะสร้างคำตอบออกมาทีละโทเคน แต่สถาปัตยกรรม Text Diffusion ของ DiffusionGemma กลับเปิดโอกาสให้มันสามารถผลิตคำตอบออกมาได้พร้อมกันถึง 256 โทเคนในคราวเดียว ซึ่งการประมวลผลแบบขนานนี้เองคือสิ่งทีทำให้โมเดลนี้มีความเร็วเหนือกว่า LLM มาตรฐานทั่วไป

Google ระบุว่า DiffusionGemma สามารถสร้างข้อความได้มากกว่า 1,000 โทเคนต่อวินาที เมื่อรันบนชิป H100 เพียงตัวเดียว ซึ่งเป็นจีพียูระดับเซิร์ฟเวอร์ที่ Nvidia เปิดตัวในปี 2022 และสามารถสร้างข้อความได้มากกว่า 700 โทเคนต่อวินาทีบนชิป GeForce RTX 5090 ซึ่งเป็นชิปเดสก์ท็อประดับผู้บริโภคทั่วไป

เหตุผลหนึ่งที่ทำให้ DiffusionGemma สามารถรันบนจีพียูสำหรับผู้บริโภคทั่วไปได้ เป็นเพราะตัวโมเดลถูกสร้างขึ้นบนสถาปัตยกรรมแบบผสมผสานผู้เชี่ยวชาญ (Mixture-of-Experts หรือ MoE) ตัวโมเดลมีพารามิเตอร์ทั้งหมด 2.6 หมื่นล้านพารามิเตอร์ แต่จะเปิดใช้งานจริงเพียง 3.8 พันล้านพารามิเตอร์เท่านั้นในการตอบคำสั่ง ซึ่งช่วยลดการใช้หน่วยความจำลงอย่างมาก นอกจากนี้ DiffusionGemma ยังลดการบริโภค RAM ลงไปอีกขั้นด้วยการจัดเก็บข้อมูลในรูปแบบไฟล์น้ำหนักเบาที่เรียกว่า NVFP4

DiffusionGemma ได้รับการพัฒนาต่อยอดมาจากโมเดล LLM ที่ชื่อว่า Gemma 4 26B A4B ที่ Google ปล่อยออกมาเมื่อเดือนเมษายน และเพื่อให้รองรับระบบ Text Diffusion ยักษ์ใหญ่ด้านการค้นหาได้ทำการเปลี่ยนกลไกความใส่ใจซึ่งเป็นโมดูลซอฟต์แวร์ที่ใช้ในการตีความคำสั่ง โดยกลไกเดิมจะอนุมานความหมายของแต่ละคำในคำสั่งด้วยการวิเคราะห์ข้อความที่อยู่ก่อนหน้าเท่านั้น แต่โมดูลความใส่ใจแบบใหม่นี้จะทำการตรวจสอบข้อความที่อยู่ตามหลังคำนั้น ๆ ร่วมด้วย

“แม้ว่าชุมชนนักวิจัยด้าน AI จะได้สำรวจการสร้างข้อความตามแนวคิดการแพร่กระจายมานานหลายปีแล้ว แต่การนำมาประยุกต์ใช้กับโมเดลขนาดใหญ่ยังคงเป็นความท้าทาย” Brendan O’Donoghue และ Sebastian Flennerhag นักวิจัยของ Google เขียนในบล็อกโพสต์ “DiffusionGemma ได้เข้ามาเปลี่ยนสิ่งนี้ด้วยการปรับเปลี่ยนวิธีที่โมเดลใช้ประโยชน์จากฮาร์ดแวร์”

ปัจจุบัน DiffusionGemma เปิดให้ใช้งานแล้วบนแพลตฟอร์ม Hugging Face ภายใต้สัญญาอนุญาตแบบโอเพนซอร์ส

ที่มา: https://siliconangle.com/2026/06/10/google-open-sources-speedy-diffusiongemma-text-diffusion-model/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

AWS เปิดให้ใช้งาน Graviton5 อย่างเป็นทางการ ชิปสำหรับยุค Agentic AI

AWS เปิดให้ใช้งาน Amazon EC2 รุ่น M9g และ M9gd ที่ขับเคลื่อนด้วยชิป Graviton5 อย่างเป็นทางการ ชูประสิทธิภาพการประมวลผลที่สูงขึ้นถึง 25% และออกแบบมาเพื่อรองรับ workload …

Synology ชูยุทธศาสตร์ “Private AI” พลิกโฉมการจัดการข้อมูลองค์กร พร้อมเปิดตัวนวัตกรรมใหม่ในงาน COMPUTEX 2026 พร้อมบุกตลาดทั่วโลก [PR]

นายฟิลิป หว่อง ประธานกรรมการและประธานเจ้าหน้าที่บริหาร (CEO) ของ Synology กล่าวว่า ปัจจุบันข้อมูลกลายเป็นหัวใจสำคัญของทุกองค์กร และ AI กำลังเข้ามามีบทบาทสำคัญในการเปลี่ยนแปลงวิธีการทำงานและการดำเนินธุรกิจ