Generative AI หรือ LLM ได้เป็นกระแสมาสักพักใหญ่แล้วและกำลังเริ่มเห็นการใช้งานโมเดลในวงกว้างมากยิ่งขึ้นเรื่อย ๆ การวัดประสิทธิภาพของโมเดลจึงเป็นอีกสิ่งที่สำคัญ และ Microsoft Research ก็ได้ออกมาสนับสนุนสิ่งนี้เพิ่มเติมด้วย Windows Agent Arena
โดยทีมนักวิจัย Microsoft Research ได้ประกาศเปิดตัวเครื่องมือ Benchmark ที่พัฒนาขึ้นมาเพื่อทดสอบโมเดล Generative AI Agent โดยเฉพาะบนเครื่อง Windows ภายใต้ชื่อ Windows Agent Arena ที่เปิดเผยรายละเอียดไว้อยู่หน้า GitHub ของ Microsoft ไว้เรียบร้อยแล้ว
Windows Agent Arena เป็นเฟรมเวิร์กที่ออกแบบมาเพื่อทดสอบ Generative AI Agent ผ่านแอปพลิเคชัน Windows ที่มักถูกใช้งานอย่างต่อเนื่อง ซึ่งเฟรมเวิร์ก Benchmark นี้ถูกออกแบบมาเพื่อทดสอบว่า AI Agent เหล่านั้นสามารถดำเนินการปฏิสัมพันธ์กับแอปเหล่านั้นได้ดีและเร็วมากน้อยเพียงใด
ภายใน Windows Agent Arena จะมีลิสต์ของแอปที่ใช้ทดสอบภายใต้ 154 Tasks ที่จะมาเป็นตัวแทนในการวัดผล ไม่ว่าจะเป็นการแก้ไขเอกสาร Office หรือ Spreadsheet ผ่าน LibreOffice Cal/Writer การเข้าอินเทอร์เน็ตผ่าน Edge, Chrome การทำงานบนระบบปฏิบัติการ Windows การเขียนโค้ดบน Visual Studio Code การรับชมวีดีโอบน VLC Player หรือการใช้งานฟังก์ชันอื่น ๆ เช่น Notepad, Clock, Paint เป็นต้น
นอกจากนี้ Microsoft Research ยังได้สร้าง Multi-modal Agent ด้วยวิธีการ Chain-of-thought ภายใต้ชื่อ Navi ที่นำมาทดสอบบน Windows Agent Arena ซึ่งพบว่าสามารถดำเนินการได้สำเร็จเพียงแค่ 19.5% เท่านั้น ซึ่งหากเทียบกับประสิทธิภาพมนุษย์ที่เฉลี่ยอยู่ที่ 74.5% นั้น อาจเรียกว่ายังน้อยกว่ามาก
Windows Agent Arena อาจถือได้ว่าเป็นอีกพัฒนาการที่จะช่วยส่งเสริมให้การพัฒนา AI Agent นั้นมีประสิทธิภาพมากยิ่งขึ้นได้ในอนาคต และอาจเป็นตัวชี้วัดอีกแห่งหนึ่งที่อาจบอกได้ว่า AI Agent สามารถดำเนินการได้ใกล้เคียงกับขีดความสามารถของมนุษย์ในบางส่วนแล้วหรือไม่
สำหรับรายละเอียดอื่น ๆ ของ Windows Agent Arena สามารถอ่านเพิ่มเติมได้ที่เว็บไซต์ GitHub และสามารถอ่านงานตีพิมพ์ได้ที่นี่
ที่มา: https://www.neowin.net/news/microsoft-reveals-windows-agent-arena-to-benchmark-generative-ai-agents/