รายงานใหม่จากสตาร์ทอัพด้านการทดสอบคุณภาพโค้ด SonarSource เตือนว่า แม้โมเดลภาษาขนาดใหญ่รุ่นล่าสุดจะมีความสามารถมากขึ้นในการทำคะแนนผ่านการทดสอบวัดความสามารถด้านการเขียนโค้ด ทว่าในขณะเดียวกันกลับสร้างบั๊กและช่องโหว่ความมั่นคงปลอดภัยที่ร้ายแรงมากขึ้น

การศึกษานี้วิเคราะห์งานเขียนโปรแกรมภาษา Java มากกว่า 4,400 งานที่ดำเนินการโดย Claude Sonnet 4 และ Claude Sonnet 3.7 ของ Anthropic, GPT-4o ของ OpenAI, Llama 3.2 90B ของ Meta และ OpenCoder-8B ซึ่งเป็นโอเพนซอร์ส โดยใช้เอนจินวิเคราะห์แบบคงที่ SonarQube Enterprise
แม้โมเดลทั้งหมดที่ทดสอบจะแสดงทักษะการเขียนโค้ดที่แข็งแกร่ง เช่น การสร้างโค้ดที่ถูกต้องตามไวยากรณ์ ทำงานได้จริง และสามารถแก้ปัญหาเชิงอัลกอริทึมที่ซับซ้อนได้ แต่การวิเคราะห์พบจุดอ่อนเชิงระบบในทุกโมเดล โดยสิ่งที่น่ากังวลที่สุดคือการขาดความตระหนักด้านความมั่นคงปลอดภัย ซึ่งทุกโมเดลสร้างช่องโหว่ระดับ “BLOCKER” ซึ่งเป็นระดับความร้ายแรงสูงสุดในสัดส่วนที่สูง
Llama 3.2 90B ติดอันดับสูงสุด โดยมากกว่า 70% ของช่องโหว่ถูกจัดเป็นระดับ BLOCKER ตามมาด้วย GPT-4o ที่ 62.5% และ Claude Sonnet 4 ที่เกือบ 60% โค้ดที่สร้างโดยโมเดลเหล่านี้มีข้อบกพร่องที่พบบ่อย เช่น ช่องโหว่ Path Traversal, ความเสี่ยงด้าน Injection และการฝังข้อมูลลับไว้ในโค้ด ซึ่งเกิดจากข้อจำกัดในการติดตามการไหลของข้อมูลที่ไม่น่าเชื่อถือ และการคัดลอกโค้ดที่ไม่ปลอดภัยจากชุดข้อมูลฝึก
รายงานยังชี้ถึงความรุนแรงของบั๊ก โดย Claude Sonnet 4 ซึ่งทำคะแนนสูงสุดในด้านการทำงาน กลับสร้างบั๊กระดับ BLOCKER เกือบสองเท่าของ Claude 3.7 Sonnet ซึ่งเป็นรุ่นก่อนหน้า หรือเพิ่มขึ้นถึง 93% โดยบั๊กที่มีผลกระทบสูงหลายรายการเกี่ยวข้องกับปัญหาการประมวลผลพร้อมกัน การรั่วไหลของทรัพยากร และการละเมิดข้อตกลงของ API ซึ่งสามารถทำให้ระบบที่ใช้งานจริงล้มเหลวอย่างไม่คาดคิด
บั๊กที่พบบ่อยที่สุดใน GPT-4o คือความผิดพลาดด้าน Control Flow คิดเป็นเกือบครึ่งหนึ่งของจำนวนบั๊กทั้งหมด ในขณะที่ OpenCoder-8B สร้างโค้ดส่วนเกินที่ไม่ได้ใช้งานจำนวนมาก ซึ่งอาจกลายเป็นหนี้ทางเทคนิคในระยะยาว
การวิจัยของ Sonar ยังได้จัด “บุคลิกการเขียนโค้ด” ให้แต่ละโมเดลดังนี้
- Claude Sonnet 4 – “สถาปนิกอาวุโส” เขียนโค้ดซับซ้อนและยาว มีศักยภาพสร้างโซลูชันขั้นสูง แต่มีความเสี่ยงต่อข้อผิดพลาดรุนแรง
- GPT-4o – “ผู้เชี่ยวชาญรอบด้านที่มีประสิทธิภาพ” รักษาสมดุลของความซับซ้อนได้ดี แต่พลาดเรื่องความแม่นยำทางตรรกะ
- Llama 3.2 90B – “คำสัญญาที่ไม่ถูกปฏิบัติจริง” มีทักษะด้านการทำงานปานกลางและความมั่นคงปลอดภัยอ่อนแอที่สุด
- OpenCoder-8B – “ผู้สร้างต้นแบบอย่างรวดเร็ว” เหมาะกับการทำ Proof-of-Concept ด้วยความเร็ว แต่มีความหนาแน่นของปัญหาสูงที่สุด
- Claude 3.7 Sonnet – “ผู้มาก่อนที่สมดุล” มีโค้ดที่อ่านง่ายและมีคอมเมนต์มากที่สุด แต่ยังมีช่องโหว่ความมั่นคงปลอดภัยเช่นเดียวกัน
ผู้เขียนรายงานระบุว่า “การทดสอบด้านการทำงานเป็นตัวชี้วัดสำคัญของความสามารถหลักของ LLM ในการแก้ปัญหา และเป็นส่วนสำคัญที่แสดงให้เห็นถึงความก้าวหน้าอย่างรวดเร็วของอุตสาหกรรม ผลการศึกษานี้ไม่ได้มีเจตนาลดทอนความสำเร็จดังกล่าว แต่เพื่อเสริมบริบทและความเข้าใจเพิ่มเติม”
ทั้งนี้ ผู้เขียนเสริมว่า หากไม่มีการตรวจสอบด้านความมั่นคงปลอดภัยและคุณภาพอย่างเป็นระบบ องค์กรอาจเสี่ยงต่อการนำโค้ดที่สร้างโดย AI ซึ่งเต็มไปด้วยบั๊กและช่องโหว่รุนแรงไปใช้งานจริง แนวทางที่แนะนำคือ “ไว้ใจแต่ต้องตรวจสอบ” ทุกบรรทัดของโค้ด ไม่ว่าจะมาจากมนุษย์หรือ LLM
ที่มา: https://siliconangle.com/2025/08/13/study-finds-newer-llms-introduce-severe-coding-bugs-despite-higher-benchmark-scores/
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย






