งานวิจัยเผย LLM รุ่นใหม่ คะแนนวัดผลเขียนโค้ดสูงขึ้น แต่ก็สร้างบั๊กร้ายแรงขึ้น

August 14, 2025 AI, Application Security, Cloud and Systems, Cybersecurity, Developer Tools, Low-Code/No-Code, Meta, OpenAI, Products, Software Development, Software Development & DevOps

รายงานใหม่จากสตาร์ทอัพด้านการทดสอบคุณภาพโค้ด SonarSource เตือนว่า แม้โมเดลภาษาขนาดใหญ่รุ่นล่าสุดจะมีความสามารถมากขึ้นในการทำคะแนนผ่านการทดสอบวัดความสามารถด้านการเขียนโค้ด ทว่าในขณะเดียวกันกลับสร้างบั๊กและช่องโหว่ความมั่นคงปลอดภัยที่ร้ายแรงมากขึ้น

การศึกษานี้วิเคราะห์งานเขียนโปรแกรมภาษา Java มากกว่า 4,400 งานที่ดำเนินการโดย Claude Sonnet 4 และ Claude Sonnet 3.7 ของ Anthropic, GPT-4o ของ OpenAI, Llama 3.2 90B ของ Meta และ OpenCoder-8B ซึ่งเป็นโอเพนซอร์ส โดยใช้เอนจินวิเคราะห์แบบคงที่ SonarQube Enterprise

แม้โมเดลทั้งหมดที่ทดสอบจะแสดงทักษะการเขียนโค้ดที่แข็งแกร่ง เช่น การสร้างโค้ดที่ถูกต้องตามไวยากรณ์ ทำงานได้จริง และสามารถแก้ปัญหาเชิงอัลกอริทึมที่ซับซ้อนได้ แต่การวิเคราะห์พบจุดอ่อนเชิงระบบในทุกโมเดล โดยสิ่งที่น่ากังวลที่สุดคือการขาดความตระหนักด้านความมั่นคงปลอดภัย ซึ่งทุกโมเดลสร้างช่องโหว่ระดับ “BLOCKER” ซึ่งเป็นระดับความร้ายแรงสูงสุดในสัดส่วนที่สูง

Llama 3.2 90B ติดอันดับสูงสุด โดยมากกว่า 70% ของช่องโหว่ถูกจัดเป็นระดับ BLOCKER ตามมาด้วย GPT-4o ที่ 62.5% และ Claude Sonnet 4 ที่เกือบ 60% โค้ดที่สร้างโดยโมเดลเหล่านี้มีข้อบกพร่องที่พบบ่อย เช่น ช่องโหว่ Path Traversal, ความเสี่ยงด้าน Injection และการฝังข้อมูลลับไว้ในโค้ด ซึ่งเกิดจากข้อจำกัดในการติดตามการไหลของข้อมูลที่ไม่น่าเชื่อถือ และการคัดลอกโค้ดที่ไม่ปลอดภัยจากชุดข้อมูลฝึก

รายงานยังชี้ถึงความรุนแรงของบั๊ก โดย Claude Sonnet 4 ซึ่งทำคะแนนสูงสุดในด้านการทำงาน กลับสร้างบั๊กระดับ BLOCKER เกือบสองเท่าของ Claude 3.7 Sonnet ซึ่งเป็นรุ่นก่อนหน้า หรือเพิ่มขึ้นถึง 93% โดยบั๊กที่มีผลกระทบสูงหลายรายการเกี่ยวข้องกับปัญหาการประมวลผลพร้อมกัน การรั่วไหลของทรัพยากร และการละเมิดข้อตกลงของ API ซึ่งสามารถทำให้ระบบที่ใช้งานจริงล้มเหลวอย่างไม่คาดคิด

บั๊กที่พบบ่อยที่สุดใน GPT-4o คือความผิดพลาดด้าน Control Flow คิดเป็นเกือบครึ่งหนึ่งของจำนวนบั๊กทั้งหมด ในขณะที่ OpenCoder-8B สร้างโค้ดส่วนเกินที่ไม่ได้ใช้งานจำนวนมาก ซึ่งอาจกลายเป็นหนี้ทางเทคนิคในระยะยาว

การวิจัยของ Sonar ยังได้จัด “บุคลิกการเขียนโค้ด” ให้แต่ละโมเดลดังนี้

Claude Sonnet 4 – “สถาปนิกอาวุโส” เขียนโค้ดซับซ้อนและยาว มีศักยภาพสร้างโซลูชันขั้นสูง แต่มีความเสี่ยงต่อข้อผิดพลาดรุนแรง
GPT-4o – “ผู้เชี่ยวชาญรอบด้านที่มีประสิทธิภาพ” รักษาสมดุลของความซับซ้อนได้ดี แต่พลาดเรื่องความแม่นยำทางตรรกะ
Llama 3.2 90B – “คำสัญญาที่ไม่ถูกปฏิบัติจริง” มีทักษะด้านการทำงานปานกลางและความมั่นคงปลอดภัยอ่อนแอที่สุด
OpenCoder-8B – “ผู้สร้างต้นแบบอย่างรวดเร็ว” เหมาะกับการทำ Proof-of-Concept ด้วยความเร็ว แต่มีความหนาแน่นของปัญหาสูงที่สุด
Claude 3.7 Sonnet – “ผู้มาก่อนที่สมดุล” มีโค้ดที่อ่านง่ายและมีคอมเมนต์มากที่สุด แต่ยังมีช่องโหว่ความมั่นคงปลอดภัยเช่นเดียวกัน

ผู้เขียนรายงานระบุว่า “การทดสอบด้านการทำงานเป็นตัวชี้วัดสำคัญของความสามารถหลักของ LLM ในการแก้ปัญหา และเป็นส่วนสำคัญที่แสดงให้เห็นถึงความก้าวหน้าอย่างรวดเร็วของอุตสาหกรรม ผลการศึกษานี้ไม่ได้มีเจตนาลดทอนความสำเร็จดังกล่าว แต่เพื่อเสริมบริบทและความเข้าใจเพิ่มเติม”

ทั้งนี้ ผู้เขียนเสริมว่า หากไม่มีการตรวจสอบด้านความมั่นคงปลอดภัยและคุณภาพอย่างเป็นระบบ องค์กรอาจเสี่ยงต่อการนำโค้ดที่สร้างโดย AI ซึ่งเต็มไปด้วยบั๊กและช่องโหว่รุนแรงไปใช้งานจริง แนวทางที่แนะนำคือ “ไว้ใจแต่ต้องตรวจสอบ” ทุกบรรทัดของโค้ด ไม่ว่าจะมาจากมนุษย์หรือ LLM

ที่มา: https://siliconangle.com/2025/08/13/study-finds-newer-llms-introduce-severe-coding-bugs-despite-higher-benchmark-scores/

Tags ai benchmark bugs Claude coding GPT llama LLM meta openai security vulnerabilities SonarSource

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

งานวิจัยเผย LLM รุ่นใหม่ คะแนนวัดผลเขียนโค้ดสูงขึ้น แต่ก็สร้างบั๊กร้ายแรงขึ้น

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

งานวิจัยเผย LLM รุ่นใหม่ คะแนนวัดผลเขียนโค้ดสูงขึ้น แต่ก็สร้างบั๊กร้ายแรงขึ้น

Share this:

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also