IBM Flashsystem

Wikipedia บอกผู้พัฒนา AI หยุด Scrape ได้แล้ว เอาข้อมูลบทความไปเลย

มูลนิธิ Wikimedia ซึ่งเป็นองค์กรที่อยู่เบื้องหลังสารานุกรมเสรีที่ใหญ่ที่สุดบนอินเทอร์เน็ตอย่าง Wikipedia ได้เสนอชุดข้อมูลที่พร้อมสำหรับปัญญาประดิษฐ์บน Kaggle โดยมีเป้าหมายเพื่อยับยั้งบริษัท AI และผู้ฝึกโมเดลภาษาขนาดใหญ่ (LLM) จากการดึงข้อมูลจากเว็บไซต์โดยอัตโนมัติ (web scraping)

Credit: Wikimedia

“แทนที่จะต้องดึงหรือแปลงข้อความบทความดิบ ผู้ใช้ Kaggle สามารถทำงานกับข้อมูล Wikipedia ที่ถูกจัดโครงสร้างมาแล้วในรูปแบบ JSON ได้โดยตรง — ซึ่งเหมาะอย่างยิ่งสำหรับการฝึกโมเดล การสร้างฟีเจอร์ และการทดสอบกระบวนการ NLP” มูลนิธิ Wikimedia กล่าวในการประกาศ

Kaggle เป็นชุมชนด้านวิทยาการข้อมูลและแมชชีนเลิร์นนิงที่เป็นเจ้าของและบริหารโดย Google ซึ่งให้บริการชุดข้อมูลและการแข่งขันด้านวิทยาการข้อมูลต่าง ๆ

การอัปโหลดชุดข้อมูลนี้เริ่มให้ใช้งานตั้งแต่วันที่ 15 เมษายน และประกอบด้วยองค์ประกอบคุณภาพสูง เช่น บทคัดย่อ คำอธิบายสั้น ข้อมูล infobox ในรูปแบบ key-value ลิงก์รูปภาพ และบทความที่ถูกแบ่งไว้เป็นส่วน ๆ ทว่าไม่ได้รวมถึงข้อมูลอ้างอิงหรือองค์ประกอบที่ไม่ใช่ข้อความ เช่น รูปภาพและแผนภูมิ

เนื่องจากเนื้อหานี้นำมาจาก Wikipedia จึงอยู่ภายใต้สัญญาอนุญาตแบบ Creative Commons ซึ่งเป็นใบอนุญาตที่เปิดเสรีและอนุญาตให้แชร์ ดัดแปลง และรีมิกซ์เนื้อหาได้อย่างอิสระ รวมถึงอยู่ภายใต้ใบอนุญาต GNU Free Documentation License (GFDL) โดยในบางกรณีอาจมีใบอนุญาตแบบสาธารณสมบัติหรือแบบอื่นใช้ร่วมด้วย

“ตอนนี้ Kaggle เป็นแหล่งหลักที่ผู้คนใช้ค้นหาชุดข้อมูล และมีไม่กี่ชุดข้อมูลเปิดที่มีอิทธิพลมากเท่ากับสิ่งที่มูลนิธิ Wikimedia จัดไว้ให้” Brenda Flynn หัวหน้าฝ่ายความร่วมมือของ Kaggle กล่าว

ผู้พัฒนา LLM ต้องพึ่งพาข้อมูลจากอินเทอร์เน็ตเป็นอย่างมากในการฝึกโมเดลของตน แต่โดยมากแล้วพวกเขาจะได้ข้อมูลจากการดึงออกมาจากเว็บไซต์สาธารณะโดยใช้กระบวนการ scraping ซึ่งเป็นการดึงข้อมูลแบบอัตโนมัติ โดยมักจะเป็นข้อความและภาพ โดยใช้ซอฟต์แวร์ที่อาจทำงานหนักและสร้างภาระเพิ่มเติมแก่เซิร์ฟเวอร์เว็บไซต์เกินกว่าการใช้งานโดยมนุษย์ทั่วไป

ภาระเพิ่มเติมนี้ส่งผลต่อประสิทธิภาพของเซิร์ฟเวอร์ซึ่งมีค่าใช้จ่ายสูง อีกทั้งข้อมูลที่ดึงมาก็ยังต้องถูกแปลงใหม่เพื่อให้สามารถใช้งานในกระบวนการแมชชีนเลิร์นนิงและ AI ได้

Wikimedia และ Kaggle ระบุในการประกาศร่วมกันว่าชุดข้อมูลนี้ออกแบบมาเพื่อลดความจำเป็นในการ scraping ไม่เพียงแต่เพื่อลดภาระต่อเซิร์ฟเวอร์ของ Wikimedia เท่านั้น แต่ยังเพื่อให้ข้อมูลที่สะอาด แบ่งส่วนไว้ล่วงหน้า และเป็นมิตรต่อผู้พัฒนาอีกด้วย

ปัจจุบัน Kaggle มีชุดข้อมูลที่เข้าถึงได้ฟรีมากกว่า 461,000 ชุด สำหรับการใช้งานด้าน AI และแมชชีนเลิร์นนิง ครอบคลุมหัวข้อต่าง ๆ อย่างหลากหลาย โดยชุดข้อมูลของ Wikipedia จะเข้าร่วมกับชุดข้อมูลเกี่ยวกับสุขภาพ (เช่น เบาหวานและมะเร็ง) การเงิน (เช่น การฉ้อโกงบัตรเครดิตและตลาดหุ้น) และสังคมศาสตร์ (เช่น แนวโน้มโซเชียลมีเดียและการศึกษา) — รวมถึงยังมีชุดข้อมูลเกี่ยวกับโภชนาการของผลิตภัณฑ์ซีเรียล 80 ชนิด และเหตุการณ์พบเห็น UFO ด้วย

ชุดข้อมูล Wikipedia ใหม่นี้มีให้ใช้งานในเวอร์ชันภาษาฝรั่งเศสและภาษาอังกฤษบน Kaggle ในสถานะเบต้าเริ่มต้น โดย Kaggle เปิดรับข้อเสนอแนะและการพูดคุยจากชุมชนโดยตรงเกี่ยวกับชุดข้อมูลนี้

ที่มา: https://siliconangle.com/2025/04/17/wikipedia-offers-ai-developers-article-data-kaggle-stop-automated-scraping/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Gravitee ระดมทุน 60 ล้านดอลลาร์ ช่วยนักพัฒนาจัดการความซับซ้อน API

Gravitee Topco สตาร์ทอัพด้านการจัดการไปป์ไลน์ทราฟฟิกดิจิทัล ประกาศว่าได้ปิดรอบการระดมทุน Series C มูลค่า 60 ล้านดอลลาร์ที่นำโดย Sixth Street Growth ทำให้ยอดระดมทุนรวมจนถึงปัจจุบันสูงกว่า 125 ล้านดอลลาร์แล้ว

Red Hat เปิดตัวฟีเจอร์ใหม่ด้าน Hybrid Cloud พร้อม AI Assistant และระบบจัดการ Edge

Red Hat ประกาศเปิดตัวชุดเครื่องมือใหม่ มุ่งเน้นการเพิ่มประสิทธิภาพและลดความซับซ้อนในการทำงานบน Hybrid Cloud และ Edge Computing พร้อมประกาศความร่วมมือกับ AMD