Trn1 instance เป็นบริการใหม่จาก AWS ที่ออกแบบมาสำหรับงานประมวลผลด้าน Machine Learning ขนาดใหญ่โดยอาศัยชิปประมวลผล Trainium ที่ถูกออกแบบโดย AWS เอง

Trn1 ถูกประกาศออกมาตั้งแต่งาน re:Invent 2021 แล้วให้ทดลอง ซึ่งวันนี้เพิ่งประกาศเปิดความพร้อมใช้งาน ความพิเศษอย่างแรกคือชิป Trainium เป็นชิปพิเศษสำหรับงาน Deep Learning ทรประสิทธิภาพและเป็นรุ่นที่สองต่อจากชิป AWS Inferentia โดย Trn1 มีให้เลือก 2 รุ่นขนาดสูงสุดที่ 128 vCPU นอกจากนี้ยังโดดเด่นเรื่องของการประมวลผล TF32/FP16/BF16 ได้ถึง 3.4 PetaFLOPS ที่ภายในเครือข่ายของชิปคุยกันได้ผ่าน NeuronLink เพื่อเลี่ยงเป็นคอขวด ในขณะที่ระดับเครือข่ายก็ไม่น้อยหน้าผ่าน Elastic Fabric Adapter มีแบนวิดธ์สูงถึง 800 Gbps

สำหรับการเทรนข้อมูลขนาดใหญ่ Trn1 ได้เชื่อมต่อกับ Storage ประสิทธิภาพสูงอย่าง Amazon FSx for Lustre โดย Trn1 จะอยู่ในคลัสเตอร์ที่ AWS เรียกว่าเป็น ‘UltraCluster’ โดยภายในติดต่อกันด้วยความเร็วสูงรองรับโมเดลการใช้งานที่ซับซ้อน ยังมีความโดดเด่นในเทคโนโลยีของ Trainium อย่าง การรองรับชนิดของข้อมูลได้หลากหลายทั้ง FP32/TF32,BF16,FP16 และ UNIT8 รวมถึงมีการปรับจูนการทำ Stochastic Rounding ระดับฮาร์ดแวร์ ที่สำคัญยังใช้ Neuron SDK เหมือนกับ AWS Inferentia ทำให้ไม่ต้องปรับตัวกับองค์ความรู้ใหม่
ผู้สนใจ Trn1 สามารถเข้าถึงบริการได้ที่ AWS US East (N. Virginia) และ US West (Oregon) ในหลายรูปแบบทั้ง On-demand, Reserved และ Spot Instance