Microsoft เปิดตัว Fara-7B โมเดล AI ขนาดเล็กสำหรับควบคุมคอมพิวเตอร์แทนผู้ใช้งาน

Microsoft เปิดตัว Fara-7B โมเดล AI ขนาด 7 พันล้าน parameters ที่ออกแบบมาเพื่อควบคุมคอมพิวเตอร์แทนผู้ใช้งาน สามารถรันบนอุปกรณ์ได้โดยตรง พร้อมเปิดให้ใช้งานแบบ Open-weight ภายใต้ MIT license

Credit: Microsoft

Fara-7B เป็น Agentic Small Language Model (SLM) ตัวแรกของ Microsoft ที่พัฒนาขึ้นมาสำหรับการใช้งานคอมพิวเตอร์โดยเฉพาะ แตกต่างจากโมเดล AI ทั่วไปที่สร้างคำตอบเป็นข้อความ โมเดลนี้สามารถใช้งานคีย์บอร์ดและ เมาส์ เพื่อดำเนินงานแทนผู้ใช้งานได้ เช่น กรอกแบบฟอร์ม ค้นหาข้อมูล จองตั๋วเดินทาง หรือจัดการบัญชีต่างๆ บนเว็บไซต์ ด้วยขนาดเพียง 7B parameters ทำให้สามารถรันบนอุปกรณ์ได้โดยตรง ช่วยลด latency และเพิ่มความเป็นส่วนตัวเนื่องจากข้อมูลไม่ต้องส่งออกไปประมวลผลภายนอก

โมเดลนี้ทำงานโดยการมองเห็นหน้าเว็บผ่านภาพ screenshot แล้วดำเนินการ scroll, พิมพ์ข้อความ หรือคลิกบนตำแหน่งที่คำนวณได้โดยตรง โดยไม่ต้องพึ่งพาโมเดลอื่นในการแปลความหมายหน้าจอ และไม่ต้องใช้ accessibility tree ใดๆ เพิ่มเติม Microsoft พัฒนา pipeline สำหรับสร้าง synthetic data จาก multi-step web tasks โดยฝึกโมเดลบน dataset ที่มี 145,000 trajectories รวม 1 ล้าน steps ครอบคลุมเว็บไซต์และประเภทงานที่หลากหลาย โมเดลใช้ Qwen2.5-VL-7B เป็น base model และรองรับ context ถึง 128,000 tokens

ผลการทดสอบแสดงให้เห็นว่า Fara-7B ทำคะแนนสูงสุดในระดับเดียวกัน โดยได้ 73.5% บน WebVoyager, 34.1% บน Online-Mind2Web และ 26.2% บน DeepShop ซึ่งเหนือกว่าโมเดลขนาดใหญ่กว่าอย่าง GPT-4o และ OpenAI computer-use-preview ในบาง benchmark นอกจากนี้ Microsoft ยังเปิดตัว WebTailBench ซึ่งเป็น benchmark ใหม่ครอบคลุม 11 ประเภทงานที่ยังขาดแคลนใน benchmark เดิม เช่น จองตั๋วหนัง จองโต๊ะร้านอาหาร เปรียบเทียบราคา และสมัครงาน

Fara-7B พร้อมใช้งานแล้วบน Microsoft Foundry และ Hugging Face ภายใต้ MIT license รวมถึงรองรับการใช้งานบน Copilot+ PC ที่รัน Windows 11 ผ่าน AI Toolkit ใน VSCode โดยใช้ประโยชน์จาก NPU hardware acceleration สำหรับด้านความปลอดภัย โมเดลถูกออกแบบให้หยุดทำงานเมื่อถึง Critical Point เช่น การทำธุรกรรมหรือการกระทำที่ย้อนกลับไม่ได้ เพื่อรอการยืนยันจากผู้ใช้งาน

ที่มา: https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

Omnissa เปิดตัว Workspace ONE UEM 2604 บริหารจัดการ Windows Server ได้แล้ว เพิ่มความสามารถใหม่ๆ มากมาย

Omnissa ได้ออกมาเปิดตัว Release ใหม่ล่าสุด 2604 โดยถือเป็นหนึ่งในการอัปเดตครั้งใหญ่ที่สุด ด้วยความสามารถใหม่ๆ มากมาย ดังนี้