Microsoft เปิดตัว Fara-7B โมเดล AI ขนาดเล็กสำหรับควบคุมคอมพิวเตอร์แทนผู้ใช้งาน

Microsoft เปิดตัว Fara-7B โมเดล AI ขนาด 7 พันล้าน parameters ที่ออกแบบมาเพื่อควบคุมคอมพิวเตอร์แทนผู้ใช้งาน สามารถรันบนอุปกรณ์ได้โดยตรง พร้อมเปิดให้ใช้งานแบบ Open-weight ภายใต้ MIT license

Credit: Microsoft

Fara-7B เป็น Agentic Small Language Model (SLM) ตัวแรกของ Microsoft ที่พัฒนาขึ้นมาสำหรับการใช้งานคอมพิวเตอร์โดยเฉพาะ แตกต่างจากโมเดล AI ทั่วไปที่สร้างคำตอบเป็นข้อความ โมเดลนี้สามารถใช้งานคีย์บอร์ดและ เมาส์ เพื่อดำเนินงานแทนผู้ใช้งานได้ เช่น กรอกแบบฟอร์ม ค้นหาข้อมูล จองตั๋วเดินทาง หรือจัดการบัญชีต่างๆ บนเว็บไซต์ ด้วยขนาดเพียง 7B parameters ทำให้สามารถรันบนอุปกรณ์ได้โดยตรง ช่วยลด latency และเพิ่มความเป็นส่วนตัวเนื่องจากข้อมูลไม่ต้องส่งออกไปประมวลผลภายนอก

โมเดลนี้ทำงานโดยการมองเห็นหน้าเว็บผ่านภาพ screenshot แล้วดำเนินการ scroll, พิมพ์ข้อความ หรือคลิกบนตำแหน่งที่คำนวณได้โดยตรง โดยไม่ต้องพึ่งพาโมเดลอื่นในการแปลความหมายหน้าจอ และไม่ต้องใช้ accessibility tree ใดๆ เพิ่มเติม Microsoft พัฒนา pipeline สำหรับสร้าง synthetic data จาก multi-step web tasks โดยฝึกโมเดลบน dataset ที่มี 145,000 trajectories รวม 1 ล้าน steps ครอบคลุมเว็บไซต์และประเภทงานที่หลากหลาย โมเดลใช้ Qwen2.5-VL-7B เป็น base model และรองรับ context ถึง 128,000 tokens

ผลการทดสอบแสดงให้เห็นว่า Fara-7B ทำคะแนนสูงสุดในระดับเดียวกัน โดยได้ 73.5% บน WebVoyager, 34.1% บน Online-Mind2Web และ 26.2% บน DeepShop ซึ่งเหนือกว่าโมเดลขนาดใหญ่กว่าอย่าง GPT-4o และ OpenAI computer-use-preview ในบาง benchmark นอกจากนี้ Microsoft ยังเปิดตัว WebTailBench ซึ่งเป็น benchmark ใหม่ครอบคลุม 11 ประเภทงานที่ยังขาดแคลนใน benchmark เดิม เช่น จองตั๋วหนัง จองโต๊ะร้านอาหาร เปรียบเทียบราคา และสมัครงาน

Fara-7B พร้อมใช้งานแล้วบน Microsoft Foundry และ Hugging Face ภายใต้ MIT license รวมถึงรองรับการใช้งานบน Copilot+ PC ที่รัน Windows 11 ผ่าน AI Toolkit ใน VSCode โดยใช้ประโยชน์จาก NPU hardware acceleration สำหรับด้านความปลอดภัย โมเดลถูกออกแบบให้หยุดทำงานเมื่อถึง Critical Point เช่น การทำธุรกรรมหรือการกระทำที่ย้อนกลับไม่ได้ เพื่อรอการยืนยันจากผู้ใช้งาน

ที่มา: https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้