งานวิจัยเผย LLM รุ่นใหม่ คะแนนวัดผลเขียนโค้ดสูงขึ้น แต่ก็สร้างบั๊กร้ายแรงขึ้น

รายงานใหม่จากสตาร์ทอัพด้านการทดสอบคุณภาพโค้ด SonarSource เตือนว่า แม้โมเดลภาษาขนาดใหญ่รุ่นล่าสุดจะมีความสามารถมากขึ้นในการทำคะแนนผ่านการทดสอบวัดความสามารถด้านการเขียนโค้ด ทว่าในขณะเดียวกันกลับสร้างบั๊กและช่องโหว่ความมั่นคงปลอดภัยที่ร้ายแรงมากขึ้น

การศึกษานี้วิเคราะห์งานเขียนโปรแกรมภาษา Java มากกว่า 4,400 งานที่ดำเนินการโดย Claude Sonnet 4 และ Claude Sonnet 3.7 ของ Anthropic, GPT-4o ของ OpenAI, Llama 3.2 90B ของ Meta และ OpenCoder-8B ซึ่งเป็นโอเพนซอร์ส โดยใช้เอนจินวิเคราะห์แบบคงที่ SonarQube Enterprise

แม้โมเดลทั้งหมดที่ทดสอบจะแสดงทักษะการเขียนโค้ดที่แข็งแกร่ง เช่น การสร้างโค้ดที่ถูกต้องตามไวยากรณ์ ทำงานได้จริง และสามารถแก้ปัญหาเชิงอัลกอริทึมที่ซับซ้อนได้ แต่การวิเคราะห์พบจุดอ่อนเชิงระบบในทุกโมเดล โดยสิ่งที่น่ากังวลที่สุดคือการขาดความตระหนักด้านความมั่นคงปลอดภัย ซึ่งทุกโมเดลสร้างช่องโหว่ระดับ “BLOCKER” ซึ่งเป็นระดับความร้ายแรงสูงสุดในสัดส่วนที่สูง

Llama 3.2 90B ติดอันดับสูงสุด โดยมากกว่า 70% ของช่องโหว่ถูกจัดเป็นระดับ BLOCKER ตามมาด้วย GPT-4o ที่ 62.5% และ Claude Sonnet 4 ที่เกือบ 60% โค้ดที่สร้างโดยโมเดลเหล่านี้มีข้อบกพร่องที่พบบ่อย เช่น ช่องโหว่ Path Traversal, ความเสี่ยงด้าน Injection และการฝังข้อมูลลับไว้ในโค้ด ซึ่งเกิดจากข้อจำกัดในการติดตามการไหลของข้อมูลที่ไม่น่าเชื่อถือ และการคัดลอกโค้ดที่ไม่ปลอดภัยจากชุดข้อมูลฝึก

รายงานยังชี้ถึงความรุนแรงของบั๊ก โดย Claude Sonnet 4 ซึ่งทำคะแนนสูงสุดในด้านการทำงาน กลับสร้างบั๊กระดับ BLOCKER เกือบสองเท่าของ Claude 3.7 Sonnet ซึ่งเป็นรุ่นก่อนหน้า หรือเพิ่มขึ้นถึง 93% โดยบั๊กที่มีผลกระทบสูงหลายรายการเกี่ยวข้องกับปัญหาการประมวลผลพร้อมกัน การรั่วไหลของทรัพยากร และการละเมิดข้อตกลงของ API ซึ่งสามารถทำให้ระบบที่ใช้งานจริงล้มเหลวอย่างไม่คาดคิด

บั๊กที่พบบ่อยที่สุดใน GPT-4o คือความผิดพลาดด้าน Control Flow คิดเป็นเกือบครึ่งหนึ่งของจำนวนบั๊กทั้งหมด ในขณะที่ OpenCoder-8B สร้างโค้ดส่วนเกินที่ไม่ได้ใช้งานจำนวนมาก ซึ่งอาจกลายเป็นหนี้ทางเทคนิคในระยะยาว

การวิจัยของ Sonar ยังได้จัด “บุคลิกการเขียนโค้ด” ให้แต่ละโมเดลดังนี้

  • Claude Sonnet 4 – “สถาปนิกอาวุโส” เขียนโค้ดซับซ้อนและยาว มีศักยภาพสร้างโซลูชันขั้นสูง แต่มีความเสี่ยงต่อข้อผิดพลาดรุนแรง
  • GPT-4o – “ผู้เชี่ยวชาญรอบด้านที่มีประสิทธิภาพ” รักษาสมดุลของความซับซ้อนได้ดี แต่พลาดเรื่องความแม่นยำทางตรรกะ
  • Llama 3.2 90B – “คำสัญญาที่ไม่ถูกปฏิบัติจริง” มีทักษะด้านการทำงานปานกลางและความมั่นคงปลอดภัยอ่อนแอที่สุด
  • OpenCoder-8B – “ผู้สร้างต้นแบบอย่างรวดเร็ว” เหมาะกับการทำ Proof-of-Concept ด้วยความเร็ว แต่มีความหนาแน่นของปัญหาสูงที่สุด
  • Claude 3.7 Sonnet – “ผู้มาก่อนที่สมดุล” มีโค้ดที่อ่านง่ายและมีคอมเมนต์มากที่สุด แต่ยังมีช่องโหว่ความมั่นคงปลอดภัยเช่นเดียวกัน

ผู้เขียนรายงานระบุว่า “การทดสอบด้านการทำงานเป็นตัวชี้วัดสำคัญของความสามารถหลักของ LLM ในการแก้ปัญหา และเป็นส่วนสำคัญที่แสดงให้เห็นถึงความก้าวหน้าอย่างรวดเร็วของอุตสาหกรรม ผลการศึกษานี้ไม่ได้มีเจตนาลดทอนความสำเร็จดังกล่าว แต่เพื่อเสริมบริบทและความเข้าใจเพิ่มเติม”

ทั้งนี้ ผู้เขียนเสริมว่า หากไม่มีการตรวจสอบด้านความมั่นคงปลอดภัยและคุณภาพอย่างเป็นระบบ องค์กรอาจเสี่ยงต่อการนำโค้ดที่สร้างโดย AI ซึ่งเต็มไปด้วยบั๊กและช่องโหว่รุนแรงไปใช้งานจริง แนวทางที่แนะนำคือ “ไว้ใจแต่ต้องตรวจสอบ” ทุกบรรทัดของโค้ด ไม่ว่าจะมาจากมนุษย์หรือ LLM

ที่มา: https://siliconangle.com/2025/08/13/study-finds-newer-llms-introduce-severe-coding-bugs-despite-higher-benchmark-scores/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

Extreme Networks เปิดตัว Wi-Fi 7 AP รุ่นใหม่ พร้อม Agentic AI สำหรับบริหารจัดการระบบเครือข่ายแบบอัตโนมัติ

Extreme Networks ได้ออกมาประกาศถึงอัปเดตครั้งใหญ่ โดยเปิดตัว Wi-Fi 7 Access Point รุ่นใหม่ล่าสุด 5 รุ่น พร้อมนวัตกรรมใหม่ในการบริหารจัดการระบบเครือข่ายด้วย AI Agent เพื่อดูแลรักษาระบบเครือข่ายขององค์กรให้ทำงานได้อย่างต่อเนื่องโดยอัตโนมัติ