Anthropic ประกาศอัปเกรด Claude 3.5 Sonnet พร้อมเปิดตัว Claude 3.5 Haiku และเพิ่มความสามารถ Computer Use ในรูปแบบ Public Beta สำหรับนักพัฒนา
Anthropic ได้อัปเกรด Claude 3.5 Sonnet ให้มีประสิทธิภาพสูงขึ้นในทุกด้าน โดยเฉพาะด้านการเขียนโค้ด สามารถทำคะแนนในการทดสอบ SWE-bench Verified เพิ่มขึ้นจาก 33.4% เป็น 49.0% สูงกว่าโมเดล AI รายอื่นที่มีอยู่ในปัจจุบัน รวมถึง OpenAI GPT o1-preview ที่สำคัญคือการเพิ่มฟีเจอร์ Computer Use ที่ช่วยให้ AI สามารถควบคุมคอมพิวเตอร์ได้เหมือนมนุษย์ผ่านการมองหน้าจอ, เลื่อนเมาส์, คลิก, และพิมพ์ข้อความ โดยบริษัทชั้นนำอย่าง GitLab รายงานว่าโมเดลใหม่นี้มีประสิทธิภาพในการทำงานด้าน DevSecOps สูงขึ้นถึง 10% โดยไม่มีความล่าช้าเพิ่มขึ้น ปัจจุบันฟีเจอร์ Computer Use ให้บริการแล้วในรูปแบบ Pulic Beta ผ่านทาง API
ในด้านการประเมินผล Claude 3.5 Sonnet ยังแสดงให้เห็นการพัฒนาที่โดดเด่นในการทดสอบ TAU-bench ซึ่งวัดความสามารถในการใช้เครื่องมือ โดยทำคะแนนในโดเมนค้าปลีกเพิ่มขึ้นจาก 62.6% เป็น 69.2% และในโดเมนสายการบินที่ซับซ้อนกว่าเพิ่มขึ้นจาก 36.0% เป็น 46.0% นอกจากนี้ ในการทดสอบ OSWorld ที่ประเมินความสามารถในการใช้คอมพิวเตอร์เหมือนมนุษย์ Claude 3.5 Sonnet ทำคะแนนได้ 14.9% ในโหมด screenshot-only สูงกว่าระบบ AI อันดับสองที่ทำได้ 7.8% และเมื่อได้รับเวลาในการทำงานมากขึ้น สามารถทำคะแนนได้สูงถึง 22.0%
สำหรับ Claude 3.5 Haiku โมเดลใหม่ที่จะเปิดตัวในเดือนนี้ มีความเร็วในการประมวลผลเทียบเท่ารุ่นก่อน แต่มีประสิทธิภาพสูงขึ้นในทุกด้าน สามารถทำคะแนน SWE-bench Verified ได้ 40.6% เหมาะสำหรับการใช้งานในผลิตภัณฑ์ที่ต้องโต้ตอบกับคนและงาน Sub-agent เฉพาะทาง โดยทั้ง Claude 3.5 Sonnet และ Haiku จะให้บริการผ่าน Anthropic API, Amazon Bedrock และ Google Cloud Vertex AI
ที่มา: https://www.anthropic.com/news/3-5-models-and-computer-use