ช่วงสิ้นเดือนเมษายน 2025 ที่ผ่านมา นักวิจัยจาก Meta ได้ปล่อยงานวิจัยและเครื่องมือ LlamaFirewall ออกมาเป็น Open Source โดยเผยว่ามีประสิทธิผลลดอัตราความสำเร็จในการโจมตีลงไปได้กว่า 90% จากชุดทดสอบ AgentDojo Benchmark

LlamaFirewall คือ เฟรมเวิร์กที่ออกแบบมาเพื่อตรวจจับและบรรเทาความเสี่ยงด้านความมั่นคงปลอดภัยของ AI ต่าง ๆ ผ่านการสนับสนุนหลากหลาย Layer ของทั้ง Input และ Output เช่น LLM Chat ที่จะมีตัวสแกนความเสี่ยงต่าง ๆ พร้อมสนับสนุนอยู่ภายใน
โดย LlamaFirewall จะเป็นเสมือน Real-Time Guardrail Monitor ใน Layer สุดท้ายในการป้องกันความเสี่ยงด้านความมั่นคงปลอดภัยต่อ AI Agent ซึ่งจะมีด้วยกัน 3 Protection Layer ได้แก่า
- PromptGuard2 ตัวปกป้องการแหกคุก (Jailbreak) แบบสากล โดยเป็นโมเดลแบบ BERT ที่จะตรวจจับการ Jailbreak ที่จะวิเคราะห์ทั้ง Prompt ผู้ใช้และแหล่งข้อมูลที่ไม่น่าเชื่อถือแบบ Real-Time
- Agent Alignment Checks ตัวตรวจสอบ Chain-of-thought ที่จะตรวจสอบการให้เหตุผลของ Agent ในกรณีที่เกิด Prompt Injection และการดำเนินการที่ไม่สอดคล้องกับเป้าหมาย
- CodeShield ตัววิเคราะห์ออนไลน์ที่ช่วยป้องกันการสร้างโค้ดที่ไม่ปลอดภัยหรือเป็นอันตรายจาก Agent ที่เขียนโค้ด
รายละเอียดเพิ่มเติมสามารถอ่านได้ที่งานวิจัยของทาง Meta ที่บล็อกโพสของ Meta หรือที่ arXiv รวมทั้งสามารถดูโค้ดได้ที่ GitHub
ที่มา: https://www.infoq.com/news/2025/05/llamafirewall-agent-protection/