นักวิจัยจาก Amazon ค้นพบช่องโหว่ Remote Code Execution (RCE) ที่มีคะแนนความรุนแรงสูงสุดที่ 10.0 ใน Apache Parquet ทุกเวอร์ชันไปจนถึง 1.15.0 ส่งผลกระทบต่อระบบ Big Data หลายแพลตฟอร์ม
ช่องโหว่ที่มีรหัส CVE-2025-30065 เกิดจากปัญหาในการ deserialize ข้อมูลที่ไม่น่าเชื่อถือ ทำให้ผู้โจมตีสามารถสร้างไฟล์ Parquet แบบพิเศษเพื่อเข้าควบคุมระบบเป้าหมาย ขโมยหรือแก้ไขข้อมูล รบกวนบริการ หรือนำมัลแวร์อันตรายเช่น Ransomware เข้าสู่ระบบได้ อย่างไรก็ตาม ช่องโหว่นี้จะถูกใช้ประโยชน์ได้ก็ต่อเมื่อผู้โจมตีสามารถหลอกให้ผู้ใช้งานนำเข้าไฟล์ Parquet ที่ถูกสร้างขึ้นมาโดยเฉพาะเท่านั้น
Apache Parquet เป็นระบบจัดเก็บข้อมูลแบบคอลัมน์แบบ Open-source และออกแบบมาเพื่อการประมวลผลข้อมูลอย่างมีประสิทธิภาพ โดย Parquet จะเก็บข้อมูลแยกตามคอลัมน์ ทำให้เร็วและประหยัดพื้นที่มากกว่าสำหรับงานวิเคราะห์ข้อมูล รูปแบบนี้ถูกนำไปใช้อย่างแพร่หลายในระบบ data engineering และ data analytics รวมถึงแพลตฟอร์ม Big Data เช่น Hadoop, AWS, Amazon, Google และบริการคลาวด์ของ Azure, Data Lake และเครื่องมือ ETL ต่างๆ บริษัทขนาดใหญ่ที่ใช้ Parquet รวมถึง Netflix, Uber, Airbnb และ LinkedIn
ปัญหาความปลอดภัยใน Parquet ถูกเปิดเผยเมื่อวันที่ 1 เมษายน 2025 หลังจากที่ Keyi Li นักวิจัยจาก Amazon ได้รายงานช่องโหว่ออกมา โดยประกาศอย่างสั้นๆ บน Openwall ระบุว่า “การแปลง Schema ในโมดูล parquet-avro ของ Apache Parquet 1.15.0 และเวอร์ชันก่อนหน้าอนุญาตให้ผู้ไม่หวังดีสามารถเรียกใช้โค้ดตามใจได้” Endor Labs เชื่อว่าปัญหานี้ถูกนำเข้ามาตั้งแต่ Parquet เวอร์ชัน 1.8.0 แม้ว่ารุ่นเก่ากว่าอาจได้รับผลกระทบด้วย บริษัทแนะนำให้ตรวจสอบร่วมกับนักพัฒนาหรือเจ้าของผลิตภัณฑ์เพื่อระบุเวอร์ชัน Parquet ที่ถูกใช้ในซอฟต์แวร์นั้นๆ
แม้จะยังไม่พบการโจมตีจริงในขณะนี้ แต่ความเสี่ยงถือว่าสูงเนื่องจากความรุนแรงของช่องโหว่และการใช้งานไฟล์ Parquet อย่างแพร่หลายในแอปพลิเคชัน Big Data ผู้ดูแลระบบที่ได้รับผลกระทบควรอัปเกรดเป็น Parquet เวอร์ชัน 1.15.1 โดยเร็วที่สุด หากไม่สามารถอัปเกรดได้ทันที แนะนำให้หลีกเลี่ยงไฟล์ Parquet ที่ไม่น่าเชื่อถือหรือตรวจสอบความปลอดภัยอย่างรอบคอบก่อนประมวลผล