Microsoft เปิดตัว Windows Agent Arena หนุนวัดผล Generative AI Agent 

Generative AI หรือ LLM ได้เป็นกระแสมาสักพักใหญ่แล้วและกำลังเริ่มเห็นการใช้งานโมเดลในวงกว้างมากยิ่งขึ้นเรื่อย ๆ การวัดประสิทธิภาพของโมเดลจึงเป็นอีกสิ่งที่สำคัญ และ Microsoft Research ก็ได้ออกมาสนับสนุนสิ่งนี้เพิ่มเติมด้วย Windows Agent Arena

โดยทีมนักวิจัย Microsoft Research ได้ประกาศเปิดตัวเครื่องมือ Benchmark ที่พัฒนาขึ้นมาเพื่อทดสอบโมเดล Generative AI Agent โดยเฉพาะบนเครื่อง Windows ภายใต้ชื่อ Windows Agent Arena ที่เปิดเผยรายละเอียดไว้อยู่หน้า GitHub ของ Microsoft ไว้เรียบร้อยแล้ว

Windows Agent Arena เป็นเฟรมเวิร์กที่ออกแบบมาเพื่อทดสอบ Generative AI Agent ผ่านแอปพลิเคชัน Windows ที่มักถูกใช้งานอย่างต่อเนื่อง ซึ่งเฟรมเวิร์ก Benchmark นี้ถูกออกแบบมาเพื่อทดสอบว่า AI Agent เหล่านั้นสามารถดำเนินการปฏิสัมพันธ์กับแอปเหล่านั้นได้ดีและเร็วมากน้อยเพียงใด  

ภายใน Windows Agent Arena จะมีลิสต์ของแอปที่ใช้ทดสอบภายใต้ 154 Tasks ที่จะมาเป็นตัวแทนในการวัดผล ไม่ว่าจะเป็นการแก้ไขเอกสาร Office หรือ Spreadsheet ผ่าน LibreOffice Cal/Writer การเข้าอินเทอร์เน็ตผ่าน Edge, Chrome การทำงานบนระบบปฏิบัติการ Windows การเขียนโค้ดบน Visual Studio Code การรับชมวีดีโอบน VLC Player หรือการใช้งานฟังก์ชันอื่น ๆ เช่น Notepad, Clock, Paint เป็นต้น

นอกจากนี้ Microsoft Research ยังได้สร้าง Multi-modal Agent ด้วยวิธีการ Chain-of-thought ภายใต้ชื่อ Navi ที่นำมาทดสอบบน Windows Agent Arena ซึ่งพบว่าสามารถดำเนินการได้สำเร็จเพียงแค่ 19.5% เท่านั้น ซึ่งหากเทียบกับประสิทธิภาพมนุษย์ที่เฉลี่ยอยู่ที่ 74.5% นั้น อาจเรียกว่ายังน้อยกว่ามาก

Windows Agent Arena อาจถือได้ว่าเป็นอีกพัฒนาการที่จะช่วยส่งเสริมให้การพัฒนา AI Agent นั้นมีประสิทธิภาพมากยิ่งขึ้นได้ในอนาคต และอาจเป็นตัวชี้วัดอีกแห่งหนึ่งที่อาจบอกได้ว่า AI Agent สามารถดำเนินการได้ใกล้เคียงกับขีดความสามารถของมนุษย์ในบางส่วนแล้วหรือไม่ 

สำหรับรายละเอียดอื่น ๆ ของ Windows Agent Arena สามารถอ่านเพิ่มเติมได้ที่เว็บไซต์ GitHub และสามารถอ่านงานตีพิมพ์ได้ที่นี่

ที่มา: https://www.neowin.net/news/microsoft-reveals-windows-agent-arena-to-benchmark-generative-ai-agents/

About chatchai

Tech Writer แห่ง TechTalk Thai ที่สนใจในทุกนวัตกรรมและเทคโนโลยี

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Stripe ยกระดับระบบชำระเงินสู่โครงสร้างพื้นฐานสำหรับ Machine-to-Machine รับยุค Agentic AI

Stripe เปิดตัวผลิตภัณฑ์ใหม่ 288 รายการ พร้อมส่งแผนพลิกโฉมระบบชำระเงินจากเดิมที่เป็นโครงสร้างพื้นฐานในการทำธุรกรรมสำหรับมนุษย์ ให้กลายเป็นโครงสร้างพื้นฐานที่สามารถตั้งโปรแกรมได้และทำงานอย่างต่อเนื่องเพื่อรองรับธุรกกรรมแบบ Machine-to-Machine ถือเป็นการปูทางเข้าสู่ระบบเศรษฐกิจแบบ Agentic AI อย่างเต็มรูปแบบ