Microsoft เปิดตัว Windows Agent Arena หนุนวัดผล Generative AI Agent 

Generative AI หรือ LLM ได้เป็นกระแสมาสักพักใหญ่แล้วและกำลังเริ่มเห็นการใช้งานโมเดลในวงกว้างมากยิ่งขึ้นเรื่อย ๆ การวัดประสิทธิภาพของโมเดลจึงเป็นอีกสิ่งที่สำคัญ และ Microsoft Research ก็ได้ออกมาสนับสนุนสิ่งนี้เพิ่มเติมด้วย Windows Agent Arena

โดยทีมนักวิจัย Microsoft Research ได้ประกาศเปิดตัวเครื่องมือ Benchmark ที่พัฒนาขึ้นมาเพื่อทดสอบโมเดล Generative AI Agent โดยเฉพาะบนเครื่อง Windows ภายใต้ชื่อ Windows Agent Arena ที่เปิดเผยรายละเอียดไว้อยู่หน้า GitHub ของ Microsoft ไว้เรียบร้อยแล้ว

Windows Agent Arena เป็นเฟรมเวิร์กที่ออกแบบมาเพื่อทดสอบ Generative AI Agent ผ่านแอปพลิเคชัน Windows ที่มักถูกใช้งานอย่างต่อเนื่อง ซึ่งเฟรมเวิร์ก Benchmark นี้ถูกออกแบบมาเพื่อทดสอบว่า AI Agent เหล่านั้นสามารถดำเนินการปฏิสัมพันธ์กับแอปเหล่านั้นได้ดีและเร็วมากน้อยเพียงใด  

ภายใน Windows Agent Arena จะมีลิสต์ของแอปที่ใช้ทดสอบภายใต้ 154 Tasks ที่จะมาเป็นตัวแทนในการวัดผล ไม่ว่าจะเป็นการแก้ไขเอกสาร Office หรือ Spreadsheet ผ่าน LibreOffice Cal/Writer การเข้าอินเทอร์เน็ตผ่าน Edge, Chrome การทำงานบนระบบปฏิบัติการ Windows การเขียนโค้ดบน Visual Studio Code การรับชมวีดีโอบน VLC Player หรือการใช้งานฟังก์ชันอื่น ๆ เช่น Notepad, Clock, Paint เป็นต้น

นอกจากนี้ Microsoft Research ยังได้สร้าง Multi-modal Agent ด้วยวิธีการ Chain-of-thought ภายใต้ชื่อ Navi ที่นำมาทดสอบบน Windows Agent Arena ซึ่งพบว่าสามารถดำเนินการได้สำเร็จเพียงแค่ 19.5% เท่านั้น ซึ่งหากเทียบกับประสิทธิภาพมนุษย์ที่เฉลี่ยอยู่ที่ 74.5% นั้น อาจเรียกว่ายังน้อยกว่ามาก

Windows Agent Arena อาจถือได้ว่าเป็นอีกพัฒนาการที่จะช่วยส่งเสริมให้การพัฒนา AI Agent นั้นมีประสิทธิภาพมากยิ่งขึ้นได้ในอนาคต และอาจเป็นตัวชี้วัดอีกแห่งหนึ่งที่อาจบอกได้ว่า AI Agent สามารถดำเนินการได้ใกล้เคียงกับขีดความสามารถของมนุษย์ในบางส่วนแล้วหรือไม่ 

สำหรับรายละเอียดอื่น ๆ ของ Windows Agent Arena สามารถอ่านเพิ่มเติมได้ที่เว็บไซต์ GitHub และสามารถอ่านงานตีพิมพ์ได้ที่นี่

ที่มา: https://www.neowin.net/news/microsoft-reveals-windows-agent-arena-to-benchmark-generative-ai-agents/

About chatchai

Tech Writer แห่ง TechTalk Thai ที่สนใจในทุกนวัตกรรมและเทคโนโลยี

Check Also

Inflection AI เปลี่ยนมาใช้ Intel Gaudi 3 สำหรับแพลตฟอร์ม AI สำหรับองค์กร

Inflection AI จับมือ Intel เปิดตัวแพลตฟอร์ม AI สำหรับองค์กรใหม่ ใช้ Intel Gaudi 3 แทน NVIDIA GPU เพื่อเพิ่มประสิทธิภาพและลดต้นทุน …

“TUC 2024” โดย Esri (Thailand) ชี้ GIS เชื่อมทั้งโลก เสริมแกร่ง AI ร่วมแก้ Climate Change

จบลงไปเป็นที่เรียบร้อยกับงาน Esri Thai GIS User Conference 2024 (TUC 2024) ณ โรงแรมมิราเคิล แกรนด์ คอนเวนชั่น ในวันที่ 15 …