นักวิจัยจาก Google ได้ออกมาเผยถึงความสำเร็จในการคิดค้นวิธีการ Train AI Model ทางด้านภาษาที่มี Parameter มากกว่า 1.6 ล้านล้านรายการได้สำเร็จ โดยตั้งชื่อเทคนิคนี้ว่า Switch Transformers

ทีมนักวิจัยระบุว่า Switch Transformers นี้สามารถทำการ Train AI Model ที่ระดับ 1.6 ล้านล้าน Parameter นี้ได้ และยังทำความเร็วได้สูงกว่า Language Model ที่ Google เคยพัฒนาเอาไว้ก่อนหน้าอย่าง T5-XXL ได้ถึง 4 เท่า ในขณะที่ผลลัพธ์นั้นมีความถูกต้องแม่นยำสูง อีกทั้งยังประมวลผลได้มีประสิทธิภาพดียิ่งกว่า
เบื้องหลังของ Switch Transformers นี้ประกอบไปด้วยแนวทางในการสร้าง AI Model ที่หลากหลายซึ่งมีความแม่นยำกับงานเฉพาะอย่างแตกต่างกันไปซึ่งแต่ละหน่วยจะถูกเรียกว่า Expert โดยมีสิ่งที่เรียกว่า Gating Network คอยช่วยเลือกให้ว่าจะใช้ AI Model ย่อยส่วนไหนกับข้อมูลใด ในขณะที่การออกแบบระบบโดยรวมนั้นก็คำนึงถึงการกระจายงานให้ GPU และ TPU อย่างมีประสิทธิภาพ ทำให้สามารถใช้งานพลังประมวลผลและหน่วยความจำบนแต่ละอุปกรณ์ย่อยภายในระบบได้อย่างเหมาะสม
ในการทดสอบ นักวิจัยได้ทำการใช้ Switch Transformer ในการ Train AI Model หลากหลายงานด้วยการใช้ 32 TPU Core รวมกับข้อมูล Colossal Clean Crawled Corpus ซึ่งเป็น Dataset ที่รวมข้อมูลจาก Reddit, Wikipeidia และเว็บอื่นๆ ขนาดรวมกันกว่า 750GB เพื่อให้โมเดลนี้ทำการทำนายว่าคำที่หายไปในประโยคควรจะเป็นคำใด รวมถึงยังได้ทดลองใช้กับงานอื่นๆ ในอีกหลายรูปแบบ ซึ่งผลลัพธ์นั้นก็มีความแม่นยำสูงกว่า AI Model ที่มีขนาดเล็กกว่าเป็นส่วนใหญ่
นักวิจัยจาก Google ระบุว่าถึงแม้งานวิจัยนี้จะมุ่งเน้นที่การสร้าง Model ขนาดใหญ่เป็นหลัก แต่สำหรับ Model ขนาดเล็กนั้นเทคนิคนี้ก็ยังสามารถถูกนำไปใช้เพื่อเพิ่มประสิทธิภาพและลดทรัพยากรที่ต้องใช้ในการ Train ลงได้ อีกทั้งยังสามารถปรับแต่ง Model ให้มีความแม่นยำมากขึ้นดว้ยการเปลี่ยนจาก Sparse Model ให้กลายเป็น Dense Model ได้อีกด้วย
สำหรับในอนาคต งานวิจัยนี้จะถูกต่อยอดไปใช้กับข้อมูลที่เป็นภาพและข้อความร่วมกัน โดยทีมวิจัยเชื่อว่าแนวทางนี้จะสามารถนำไปประยุกต์ใช้ได้อย่างหลากหลาย
สำหรับเปเปอร์ Switch Transformers ฉบับเต็ม สามารถอ่านได้ที่ https://arxiv.org/pdf/2101.03961.pdf นะครับ
ที่มา: https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/