Microsoft เปิดตัว Windows Agent Arena หนุนวัดผล Generative AI Agent 

Generative AI หรือ LLM ได้เป็นกระแสมาสักพักใหญ่แล้วและกำลังเริ่มเห็นการใช้งานโมเดลในวงกว้างมากยิ่งขึ้นเรื่อย ๆ การวัดประสิทธิภาพของโมเดลจึงเป็นอีกสิ่งที่สำคัญ และ Microsoft Research ก็ได้ออกมาสนับสนุนสิ่งนี้เพิ่มเติมด้วย Windows Agent Arena

โดยทีมนักวิจัย Microsoft Research ได้ประกาศเปิดตัวเครื่องมือ Benchmark ที่พัฒนาขึ้นมาเพื่อทดสอบโมเดล Generative AI Agent โดยเฉพาะบนเครื่อง Windows ภายใต้ชื่อ Windows Agent Arena ที่เปิดเผยรายละเอียดไว้อยู่หน้า GitHub ของ Microsoft ไว้เรียบร้อยแล้ว

Windows Agent Arena เป็นเฟรมเวิร์กที่ออกแบบมาเพื่อทดสอบ Generative AI Agent ผ่านแอปพลิเคชัน Windows ที่มักถูกใช้งานอย่างต่อเนื่อง ซึ่งเฟรมเวิร์ก Benchmark นี้ถูกออกแบบมาเพื่อทดสอบว่า AI Agent เหล่านั้นสามารถดำเนินการปฏิสัมพันธ์กับแอปเหล่านั้นได้ดีและเร็วมากน้อยเพียงใด  

ภายใน Windows Agent Arena จะมีลิสต์ของแอปที่ใช้ทดสอบภายใต้ 154 Tasks ที่จะมาเป็นตัวแทนในการวัดผล ไม่ว่าจะเป็นการแก้ไขเอกสาร Office หรือ Spreadsheet ผ่าน LibreOffice Cal/Writer การเข้าอินเทอร์เน็ตผ่าน Edge, Chrome การทำงานบนระบบปฏิบัติการ Windows การเขียนโค้ดบน Visual Studio Code การรับชมวีดีโอบน VLC Player หรือการใช้งานฟังก์ชันอื่น ๆ เช่น Notepad, Clock, Paint เป็นต้น

นอกจากนี้ Microsoft Research ยังได้สร้าง Multi-modal Agent ด้วยวิธีการ Chain-of-thought ภายใต้ชื่อ Navi ที่นำมาทดสอบบน Windows Agent Arena ซึ่งพบว่าสามารถดำเนินการได้สำเร็จเพียงแค่ 19.5% เท่านั้น ซึ่งหากเทียบกับประสิทธิภาพมนุษย์ที่เฉลี่ยอยู่ที่ 74.5% นั้น อาจเรียกว่ายังน้อยกว่ามาก

Windows Agent Arena อาจถือได้ว่าเป็นอีกพัฒนาการที่จะช่วยส่งเสริมให้การพัฒนา AI Agent นั้นมีประสิทธิภาพมากยิ่งขึ้นได้ในอนาคต และอาจเป็นตัวชี้วัดอีกแห่งหนึ่งที่อาจบอกได้ว่า AI Agent สามารถดำเนินการได้ใกล้เคียงกับขีดความสามารถของมนุษย์ในบางส่วนแล้วหรือไม่ 

สำหรับรายละเอียดอื่น ๆ ของ Windows Agent Arena สามารถอ่านเพิ่มเติมได้ที่เว็บไซต์ GitHub และสามารถอ่านงานตีพิมพ์ได้ที่นี่

ที่มา: https://www.neowin.net/news/microsoft-reveals-windows-agent-arena-to-benchmark-generative-ai-agents/

About chatchai

Tech Writer แห่ง TechTalk Thai ที่สนใจในทุกนวัตกรรมและเทคโนโลยี

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

VMware เปิดตัว VCF 9.1 ยกระดับ Private Cloud เพิ่มความคุ้มค่าและความปลอดภัย ตอบโจทย์ยุค AI

VMware ได้ประกาศเปิดตัว VMware Cloud Foundation หรือ VCF 9.1 อย่างเป็นทางการ หวังยกระดับ Private Cloud ให้เป็นแพลตฟอร์มที่บริหารจัดการได้ง่าย คุ้มค่าต่อการลงทุน และมาพร้อมกับระบบรักษาความปลอดภัยที่แข็งแกร่งตั้งแต่ระดับโครงสร้างพื้นฐาน …