งานวิจัยเผย LLM รุ่นใหม่ คะแนนวัดผลเขียนโค้ดสูงขึ้น แต่ก็สร้างบั๊กร้ายแรงขึ้น

รายงานใหม่จากสตาร์ทอัพด้านการทดสอบคุณภาพโค้ด SonarSource เตือนว่า แม้โมเดลภาษาขนาดใหญ่รุ่นล่าสุดจะมีความสามารถมากขึ้นในการทำคะแนนผ่านการทดสอบวัดความสามารถด้านการเขียนโค้ด ทว่าในขณะเดียวกันกลับสร้างบั๊กและช่องโหว่ความมั่นคงปลอดภัยที่ร้ายแรงมากขึ้น

การศึกษานี้วิเคราะห์งานเขียนโปรแกรมภาษา Java มากกว่า 4,400 งานที่ดำเนินการโดย Claude Sonnet 4 และ Claude Sonnet 3.7 ของ Anthropic, GPT-4o ของ OpenAI, Llama 3.2 90B ของ Meta และ OpenCoder-8B ซึ่งเป็นโอเพนซอร์ส โดยใช้เอนจินวิเคราะห์แบบคงที่ SonarQube Enterprise

แม้โมเดลทั้งหมดที่ทดสอบจะแสดงทักษะการเขียนโค้ดที่แข็งแกร่ง เช่น การสร้างโค้ดที่ถูกต้องตามไวยากรณ์ ทำงานได้จริง และสามารถแก้ปัญหาเชิงอัลกอริทึมที่ซับซ้อนได้ แต่การวิเคราะห์พบจุดอ่อนเชิงระบบในทุกโมเดล โดยสิ่งที่น่ากังวลที่สุดคือการขาดความตระหนักด้านความมั่นคงปลอดภัย ซึ่งทุกโมเดลสร้างช่องโหว่ระดับ “BLOCKER” ซึ่งเป็นระดับความร้ายแรงสูงสุดในสัดส่วนที่สูง

Llama 3.2 90B ติดอันดับสูงสุด โดยมากกว่า 70% ของช่องโหว่ถูกจัดเป็นระดับ BLOCKER ตามมาด้วย GPT-4o ที่ 62.5% และ Claude Sonnet 4 ที่เกือบ 60% โค้ดที่สร้างโดยโมเดลเหล่านี้มีข้อบกพร่องที่พบบ่อย เช่น ช่องโหว่ Path Traversal, ความเสี่ยงด้าน Injection และการฝังข้อมูลลับไว้ในโค้ด ซึ่งเกิดจากข้อจำกัดในการติดตามการไหลของข้อมูลที่ไม่น่าเชื่อถือ และการคัดลอกโค้ดที่ไม่ปลอดภัยจากชุดข้อมูลฝึก

รายงานยังชี้ถึงความรุนแรงของบั๊ก โดย Claude Sonnet 4 ซึ่งทำคะแนนสูงสุดในด้านการทำงาน กลับสร้างบั๊กระดับ BLOCKER เกือบสองเท่าของ Claude 3.7 Sonnet ซึ่งเป็นรุ่นก่อนหน้า หรือเพิ่มขึ้นถึง 93% โดยบั๊กที่มีผลกระทบสูงหลายรายการเกี่ยวข้องกับปัญหาการประมวลผลพร้อมกัน การรั่วไหลของทรัพยากร และการละเมิดข้อตกลงของ API ซึ่งสามารถทำให้ระบบที่ใช้งานจริงล้มเหลวอย่างไม่คาดคิด

บั๊กที่พบบ่อยที่สุดใน GPT-4o คือความผิดพลาดด้าน Control Flow คิดเป็นเกือบครึ่งหนึ่งของจำนวนบั๊กทั้งหมด ในขณะที่ OpenCoder-8B สร้างโค้ดส่วนเกินที่ไม่ได้ใช้งานจำนวนมาก ซึ่งอาจกลายเป็นหนี้ทางเทคนิคในระยะยาว

การวิจัยของ Sonar ยังได้จัด “บุคลิกการเขียนโค้ด” ให้แต่ละโมเดลดังนี้

  • Claude Sonnet 4 – “สถาปนิกอาวุโส” เขียนโค้ดซับซ้อนและยาว มีศักยภาพสร้างโซลูชันขั้นสูง แต่มีความเสี่ยงต่อข้อผิดพลาดรุนแรง
  • GPT-4o – “ผู้เชี่ยวชาญรอบด้านที่มีประสิทธิภาพ” รักษาสมดุลของความซับซ้อนได้ดี แต่พลาดเรื่องความแม่นยำทางตรรกะ
  • Llama 3.2 90B – “คำสัญญาที่ไม่ถูกปฏิบัติจริง” มีทักษะด้านการทำงานปานกลางและความมั่นคงปลอดภัยอ่อนแอที่สุด
  • OpenCoder-8B – “ผู้สร้างต้นแบบอย่างรวดเร็ว” เหมาะกับการทำ Proof-of-Concept ด้วยความเร็ว แต่มีความหนาแน่นของปัญหาสูงที่สุด
  • Claude 3.7 Sonnet – “ผู้มาก่อนที่สมดุล” มีโค้ดที่อ่านง่ายและมีคอมเมนต์มากที่สุด แต่ยังมีช่องโหว่ความมั่นคงปลอดภัยเช่นเดียวกัน

ผู้เขียนรายงานระบุว่า “การทดสอบด้านการทำงานเป็นตัวชี้วัดสำคัญของความสามารถหลักของ LLM ในการแก้ปัญหา และเป็นส่วนสำคัญที่แสดงให้เห็นถึงความก้าวหน้าอย่างรวดเร็วของอุตสาหกรรม ผลการศึกษานี้ไม่ได้มีเจตนาลดทอนความสำเร็จดังกล่าว แต่เพื่อเสริมบริบทและความเข้าใจเพิ่มเติม”

ทั้งนี้ ผู้เขียนเสริมว่า หากไม่มีการตรวจสอบด้านความมั่นคงปลอดภัยและคุณภาพอย่างเป็นระบบ องค์กรอาจเสี่ยงต่อการนำโค้ดที่สร้างโดย AI ซึ่งเต็มไปด้วยบั๊กและช่องโหว่รุนแรงไปใช้งานจริง แนวทางที่แนะนำคือ “ไว้ใจแต่ต้องตรวจสอบ” ทุกบรรทัดของโค้ด ไม่ว่าจะมาจากมนุษย์หรือ LLM

ที่มา: https://siliconangle.com/2025/08/13/study-finds-newer-llms-introduce-severe-coding-bugs-despite-higher-benchmark-scores/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้