Microsoft เปิดตัว Windows Agent Arena หนุนวัดผล Generative AI Agent

September 16, 2024 AI, Cloud and Systems

Generative AI หรือ LLM ได้เป็นกระแสมาสักพักใหญ่แล้วและกำลังเริ่มเห็นการใช้งานโมเดลในวงกว้างมากยิ่งขึ้นเรื่อย ๆ การวัดประสิทธิภาพของโมเดลจึงเป็นอีกสิ่งที่สำคัญ และ Microsoft Research ก็ได้ออกมาสนับสนุนสิ่งนี้เพิ่มเติมด้วย Windows Agent Arena

โดยทีมนักวิจัย Microsoft Research ได้ประกาศเปิดตัวเครื่องมือ Benchmark ที่พัฒนาขึ้นมาเพื่อทดสอบโมเดล Generative AI Agent โดยเฉพาะบนเครื่อง Windows ภายใต้ชื่อ Windows Agent Arena ที่เปิดเผยรายละเอียดไว้อยู่หน้า GitHub ของ Microsoft ไว้เรียบร้อยแล้ว

Windows Agent Arena เป็นเฟรมเวิร์กที่ออกแบบมาเพื่อทดสอบ Generative AI Agent ผ่านแอปพลิเคชัน Windows ที่มักถูกใช้งานอย่างต่อเนื่อง ซึ่งเฟรมเวิร์ก Benchmark นี้ถูกออกแบบมาเพื่อทดสอบว่า AI Agent เหล่านั้นสามารถดำเนินการปฏิสัมพันธ์กับแอปเหล่านั้นได้ดีและเร็วมากน้อยเพียงใด

ภายใน Windows Agent Arena จะมีลิสต์ของแอปที่ใช้ทดสอบภายใต้ 154 Tasks ที่จะมาเป็นตัวแทนในการวัดผล ไม่ว่าจะเป็นการแก้ไขเอกสาร Office หรือ Spreadsheet ผ่าน LibreOffice Cal/Writer การเข้าอินเทอร์เน็ตผ่าน Edge, Chrome การทำงานบนระบบปฏิบัติการ Windows การเขียนโค้ดบน Visual Studio Code การรับชมวีดีโอบน VLC Player หรือการใช้งานฟังก์ชันอื่น ๆ เช่น Notepad, Clock, Paint เป็นต้น

นอกจากนี้ Microsoft Research ยังได้สร้าง Multi-modal Agent ด้วยวิธีการ Chain-of-thought ภายใต้ชื่อ Navi ที่นำมาทดสอบบน Windows Agent Arena ซึ่งพบว่าสามารถดำเนินการได้สำเร็จเพียงแค่ 19.5% เท่านั้น ซึ่งหากเทียบกับประสิทธิภาพมนุษย์ที่เฉลี่ยอยู่ที่ 74.5% นั้น อาจเรียกว่ายังน้อยกว่ามาก

Windows Agent Arena อาจถือได้ว่าเป็นอีกพัฒนาการที่จะช่วยส่งเสริมให้การพัฒนา AI Agent นั้นมีประสิทธิภาพมากยิ่งขึ้นได้ในอนาคต และอาจเป็นตัวชี้วัดอีกแห่งหนึ่งที่อาจบอกได้ว่า AI Agent สามารถดำเนินการได้ใกล้เคียงกับขีดความสามารถของมนุษย์ในบางส่วนแล้วหรือไม่

สำหรับรายละเอียดอื่น ๆ ของ Windows Agent Arena สามารถอ่านเพิ่มเติมได้ที่เว็บไซต์ GitHub และสามารถอ่านงานตีพิมพ์ได้ที่นี่

ที่มา: https://www.neowin.net/news/microsoft-reveals-windows-agent-arena-to-benchmark-generative-ai-agents/

[Video Webinar] AskMe AI Gateway – รวม AI ชั้นนำไว้ในแพลตฟอร์มเดียว พร้อมความปลอดภัยที่องค์กรไว้วางใจ

สำหรับผู้ที่ไม่ได้เข้าฟังการบรรยาย AskMe AI Gateway Webinar เพื่อทำความรู้จักกับแพลตฟอร์ม AI เฉพาะสำหรับองค์กรที่ช่วยให้พนักงานเข้าถึง AI ชั้นนำได้อย่างปลอดภัย พร้อมควบคุมสิทธิ์ ข้อมูล ค่าใช้จ่าย และตรวจสอบได้ครบในที่เดียว ที่เพิ่งจัดไปเมื่อสัปดาห์ที่ผ่านมา …

Google Cloud รายได้โต 82% ในไตรมาส 2 ปี 2026 ดัน Backlog แตะ 5.14 แสนล้านดอลลาร์

Alphabet ประกาศผลประกอบการไตรมาสที่ 2 ปี 2026 โดย Google Cloud มีรายได้เติบโต 82% เมื่อเทียบกับช่วงเดียวกันของปีก่อน และมียอด Backlog สะสมแตะระดับ 5.14 …

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

Microsoft เปิดตัว Windows Agent Arena หนุนวัดผล Generative AI Agent

About chatchai

Related Articles

Check Also

[Video Webinar] AskMe AI Gateway – รวม AI ชั้นนำไว้ในแพลตฟอร์มเดียว พร้อมความปลอดภัยที่องค์กรไว้วางใจ

Google Cloud รายได้โต 82% ในไตรมาส 2 ปี 2026 ดัน Backlog แตะ 5.14 แสนล้านดอลลาร์

Microsoft เปิดตัว Windows Agent Arena หนุนวัดผล Generative AI Agent

Share this:

About chatchai

Related Articles

Check Also