Microsoft เปิดตัว Fara-7B โมเดล AI ขนาดเล็กสำหรับควบคุมคอมพิวเตอร์แทนผู้ใช้งาน

Microsoft เปิดตัว Fara-7B โมเดล AI ขนาด 7 พันล้าน parameters ที่ออกแบบมาเพื่อควบคุมคอมพิวเตอร์แทนผู้ใช้งาน สามารถรันบนอุปกรณ์ได้โดยตรง พร้อมเปิดให้ใช้งานแบบ Open-weight ภายใต้ MIT license

Credit: Microsoft

Fara-7B เป็น Agentic Small Language Model (SLM) ตัวแรกของ Microsoft ที่พัฒนาขึ้นมาสำหรับการใช้งานคอมพิวเตอร์โดยเฉพาะ แตกต่างจากโมเดล AI ทั่วไปที่สร้างคำตอบเป็นข้อความ โมเดลนี้สามารถใช้งานคีย์บอร์ดและ เมาส์ เพื่อดำเนินงานแทนผู้ใช้งานได้ เช่น กรอกแบบฟอร์ม ค้นหาข้อมูล จองตั๋วเดินทาง หรือจัดการบัญชีต่างๆ บนเว็บไซต์ ด้วยขนาดเพียง 7B parameters ทำให้สามารถรันบนอุปกรณ์ได้โดยตรง ช่วยลด latency และเพิ่มความเป็นส่วนตัวเนื่องจากข้อมูลไม่ต้องส่งออกไปประมวลผลภายนอก

โมเดลนี้ทำงานโดยการมองเห็นหน้าเว็บผ่านภาพ screenshot แล้วดำเนินการ scroll, พิมพ์ข้อความ หรือคลิกบนตำแหน่งที่คำนวณได้โดยตรง โดยไม่ต้องพึ่งพาโมเดลอื่นในการแปลความหมายหน้าจอ และไม่ต้องใช้ accessibility tree ใดๆ เพิ่มเติม Microsoft พัฒนา pipeline สำหรับสร้าง synthetic data จาก multi-step web tasks โดยฝึกโมเดลบน dataset ที่มี 145,000 trajectories รวม 1 ล้าน steps ครอบคลุมเว็บไซต์และประเภทงานที่หลากหลาย โมเดลใช้ Qwen2.5-VL-7B เป็น base model และรองรับ context ถึง 128,000 tokens

ผลการทดสอบแสดงให้เห็นว่า Fara-7B ทำคะแนนสูงสุดในระดับเดียวกัน โดยได้ 73.5% บน WebVoyager, 34.1% บน Online-Mind2Web และ 26.2% บน DeepShop ซึ่งเหนือกว่าโมเดลขนาดใหญ่กว่าอย่าง GPT-4o และ OpenAI computer-use-preview ในบาง benchmark นอกจากนี้ Microsoft ยังเปิดตัว WebTailBench ซึ่งเป็น benchmark ใหม่ครอบคลุม 11 ประเภทงานที่ยังขาดแคลนใน benchmark เดิม เช่น จองตั๋วหนัง จองโต๊ะร้านอาหาร เปรียบเทียบราคา และสมัครงาน

Fara-7B พร้อมใช้งานแล้วบน Microsoft Foundry และ Hugging Face ภายใต้ MIT license รวมถึงรองรับการใช้งานบน Copilot+ PC ที่รัน Windows 11 ผ่าน AI Toolkit ใน VSCode โดยใช้ประโยชน์จาก NPU hardware acceleration สำหรับด้านความปลอดภัย โมเดลถูกออกแบบให้หยุดทำงานเมื่อถึง Critical Point เช่น การทำธุรกรรมหรือการกระทำที่ย้อนกลับไม่ได้ เพื่อรอการยืนยันจากผู้ใช้งาน

ที่มา: https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Salesforce เข้าซื้อกิจการ Fin มูลค่าราว 3,600 ล้านดอลลาร์ เสริมแกร่ง AI Agent งานบริการลูกค้า

Salesforce ประกาศลงนามข้อตกลงขั้นสุดท้ายเข้าซื้อกิจการ Fin ผู้ให้บริการแพลตฟอร์ม customer agent ในมูลค่าราว 3,600 ล้านดอลลาร์สหรัฐ เพื่อนำเทคโนโลยี AI Agent สำหรับงานบริการลูกค้ามาเสริมความสามารถให้กับ Agentforce

Cisco ออกแพตช์แก้ช่องโหว่ Zero-day บน Catalyst SD-WAN Manager ที่ถูกใช้โจมตียกระดับสิทธิ์เป็น root

Cisco ปล่อยอัปเดตด้านความปลอดภัยแก้ช่องโหว่บน Catalyst SD-WAN Manager (เดิมคือ SD-WAN vManage) หลังพบว่าถูกใช้โจมตีจริงในลักษณะ Zero-day เพื่อยกระดับสิทธิ์เป็น root บนระบบที่ได้รับผลกระทบ