มูลนิธิ Wikimedia ซึ่งเป็นองค์กรที่อยู่เบื้องหลังสารานุกรมเสรีที่ใหญ่ที่สุดบนอินเทอร์เน็ตอย่าง Wikipedia ได้เสนอชุดข้อมูลที่พร้อมสำหรับปัญญาประดิษฐ์บน Kaggle โดยมีเป้าหมายเพื่อยับยั้งบริษัท AI และผู้ฝึกโมเดลภาษาขนาดใหญ่ (LLM) จากการดึงข้อมูลจากเว็บไซต์โดยอัตโนมัติ (web scraping)

“แทนที่จะต้องดึงหรือแปลงข้อความบทความดิบ ผู้ใช้ Kaggle สามารถทำงานกับข้อมูล Wikipedia ที่ถูกจัดโครงสร้างมาแล้วในรูปแบบ JSON ได้โดยตรง — ซึ่งเหมาะอย่างยิ่งสำหรับการฝึกโมเดล การสร้างฟีเจอร์ และการทดสอบกระบวนการ NLP” มูลนิธิ Wikimedia กล่าวในการประกาศ
Kaggle เป็นชุมชนด้านวิทยาการข้อมูลและแมชชีนเลิร์นนิงที่เป็นเจ้าของและบริหารโดย Google ซึ่งให้บริการชุดข้อมูลและการแข่งขันด้านวิทยาการข้อมูลต่าง ๆ
การอัปโหลดชุดข้อมูลนี้เริ่มให้ใช้งานตั้งแต่วันที่ 15 เมษายน และประกอบด้วยองค์ประกอบคุณภาพสูง เช่น บทคัดย่อ คำอธิบายสั้น ข้อมูล infobox ในรูปแบบ key-value ลิงก์รูปภาพ และบทความที่ถูกแบ่งไว้เป็นส่วน ๆ ทว่าไม่ได้รวมถึงข้อมูลอ้างอิงหรือองค์ประกอบที่ไม่ใช่ข้อความ เช่น รูปภาพและแผนภูมิ
เนื่องจากเนื้อหานี้นำมาจาก Wikipedia จึงอยู่ภายใต้สัญญาอนุญาตแบบ Creative Commons ซึ่งเป็นใบอนุญาตที่เปิดเสรีและอนุญาตให้แชร์ ดัดแปลง และรีมิกซ์เนื้อหาได้อย่างอิสระ รวมถึงอยู่ภายใต้ใบอนุญาต GNU Free Documentation License (GFDL) โดยในบางกรณีอาจมีใบอนุญาตแบบสาธารณสมบัติหรือแบบอื่นใช้ร่วมด้วย
“ตอนนี้ Kaggle เป็นแหล่งหลักที่ผู้คนใช้ค้นหาชุดข้อมูล และมีไม่กี่ชุดข้อมูลเปิดที่มีอิทธิพลมากเท่ากับสิ่งที่มูลนิธิ Wikimedia จัดไว้ให้” Brenda Flynn หัวหน้าฝ่ายความร่วมมือของ Kaggle กล่าว
ผู้พัฒนา LLM ต้องพึ่งพาข้อมูลจากอินเทอร์เน็ตเป็นอย่างมากในการฝึกโมเดลของตน แต่โดยมากแล้วพวกเขาจะได้ข้อมูลจากการดึงออกมาจากเว็บไซต์สาธารณะโดยใช้กระบวนการ scraping ซึ่งเป็นการดึงข้อมูลแบบอัตโนมัติ โดยมักจะเป็นข้อความและภาพ โดยใช้ซอฟต์แวร์ที่อาจทำงานหนักและสร้างภาระเพิ่มเติมแก่เซิร์ฟเวอร์เว็บไซต์เกินกว่าการใช้งานโดยมนุษย์ทั่วไป
ภาระเพิ่มเติมนี้ส่งผลต่อประสิทธิภาพของเซิร์ฟเวอร์ซึ่งมีค่าใช้จ่ายสูง อีกทั้งข้อมูลที่ดึงมาก็ยังต้องถูกแปลงใหม่เพื่อให้สามารถใช้งานในกระบวนการแมชชีนเลิร์นนิงและ AI ได้
Wikimedia และ Kaggle ระบุในการประกาศร่วมกันว่าชุดข้อมูลนี้ออกแบบมาเพื่อลดความจำเป็นในการ scraping ไม่เพียงแต่เพื่อลดภาระต่อเซิร์ฟเวอร์ของ Wikimedia เท่านั้น แต่ยังเพื่อให้ข้อมูลที่สะอาด แบ่งส่วนไว้ล่วงหน้า และเป็นมิตรต่อผู้พัฒนาอีกด้วย
ปัจจุบัน Kaggle มีชุดข้อมูลที่เข้าถึงได้ฟรีมากกว่า 461,000 ชุด สำหรับการใช้งานด้าน AI และแมชชีนเลิร์นนิง ครอบคลุมหัวข้อต่าง ๆ อย่างหลากหลาย โดยชุดข้อมูลของ Wikipedia จะเข้าร่วมกับชุดข้อมูลเกี่ยวกับสุขภาพ (เช่น เบาหวานและมะเร็ง) การเงิน (เช่น การฉ้อโกงบัตรเครดิตและตลาดหุ้น) และสังคมศาสตร์ (เช่น แนวโน้มโซเชียลมีเดียและการศึกษา) — รวมถึงยังมีชุดข้อมูลเกี่ยวกับโภชนาการของผลิตภัณฑ์ซีเรียล 80 ชนิด และเหตุการณ์พบเห็น UFO ด้วย
ชุดข้อมูล Wikipedia ใหม่นี้มีให้ใช้งานในเวอร์ชันภาษาฝรั่งเศสและภาษาอังกฤษบน Kaggle ในสถานะเบต้าเริ่มต้น โดย Kaggle เปิดรับข้อเสนอแนะและการพูดคุยจากชุมชนโดยตรงเกี่ยวกับชุดข้อมูลนี้
ที่มา: https://siliconangle.com/2025/04/17/wikipedia-offers-ai-developers-article-data-kaggle-stop-automated-scraping/