Wikipedia บอกผู้พัฒนา AI หยุด Scrape ได้แล้ว เอาข้อมูลบทความไปเลย

มูลนิธิ Wikimedia ซึ่งเป็นองค์กรที่อยู่เบื้องหลังสารานุกรมเสรีที่ใหญ่ที่สุดบนอินเทอร์เน็ตอย่าง Wikipedia ได้เสนอชุดข้อมูลที่พร้อมสำหรับปัญญาประดิษฐ์บน Kaggle โดยมีเป้าหมายเพื่อยับยั้งบริษัท AI และผู้ฝึกโมเดลภาษาขนาดใหญ่ (LLM) จากการดึงข้อมูลจากเว็บไซต์โดยอัตโนมัติ (web scraping)

Credit: Wikimedia

“แทนที่จะต้องดึงหรือแปลงข้อความบทความดิบ ผู้ใช้ Kaggle สามารถทำงานกับข้อมูล Wikipedia ที่ถูกจัดโครงสร้างมาแล้วในรูปแบบ JSON ได้โดยตรง — ซึ่งเหมาะอย่างยิ่งสำหรับการฝึกโมเดล การสร้างฟีเจอร์ และการทดสอบกระบวนการ NLP” มูลนิธิ Wikimedia กล่าวในการประกาศ

Kaggle เป็นชุมชนด้านวิทยาการข้อมูลและแมชชีนเลิร์นนิงที่เป็นเจ้าของและบริหารโดย Google ซึ่งให้บริการชุดข้อมูลและการแข่งขันด้านวิทยาการข้อมูลต่าง ๆ

การอัปโหลดชุดข้อมูลนี้เริ่มให้ใช้งานตั้งแต่วันที่ 15 เมษายน และประกอบด้วยองค์ประกอบคุณภาพสูง เช่น บทคัดย่อ คำอธิบายสั้น ข้อมูล infobox ในรูปแบบ key-value ลิงก์รูปภาพ และบทความที่ถูกแบ่งไว้เป็นส่วน ๆ ทว่าไม่ได้รวมถึงข้อมูลอ้างอิงหรือองค์ประกอบที่ไม่ใช่ข้อความ เช่น รูปภาพและแผนภูมิ

เนื่องจากเนื้อหานี้นำมาจาก Wikipedia จึงอยู่ภายใต้สัญญาอนุญาตแบบ Creative Commons ซึ่งเป็นใบอนุญาตที่เปิดเสรีและอนุญาตให้แชร์ ดัดแปลง และรีมิกซ์เนื้อหาได้อย่างอิสระ รวมถึงอยู่ภายใต้ใบอนุญาต GNU Free Documentation License (GFDL) โดยในบางกรณีอาจมีใบอนุญาตแบบสาธารณสมบัติหรือแบบอื่นใช้ร่วมด้วย

“ตอนนี้ Kaggle เป็นแหล่งหลักที่ผู้คนใช้ค้นหาชุดข้อมูล และมีไม่กี่ชุดข้อมูลเปิดที่มีอิทธิพลมากเท่ากับสิ่งที่มูลนิธิ Wikimedia จัดไว้ให้” Brenda Flynn หัวหน้าฝ่ายความร่วมมือของ Kaggle กล่าว

ผู้พัฒนา LLM ต้องพึ่งพาข้อมูลจากอินเทอร์เน็ตเป็นอย่างมากในการฝึกโมเดลของตน แต่โดยมากแล้วพวกเขาจะได้ข้อมูลจากการดึงออกมาจากเว็บไซต์สาธารณะโดยใช้กระบวนการ scraping ซึ่งเป็นการดึงข้อมูลแบบอัตโนมัติ โดยมักจะเป็นข้อความและภาพ โดยใช้ซอฟต์แวร์ที่อาจทำงานหนักและสร้างภาระเพิ่มเติมแก่เซิร์ฟเวอร์เว็บไซต์เกินกว่าการใช้งานโดยมนุษย์ทั่วไป

ภาระเพิ่มเติมนี้ส่งผลต่อประสิทธิภาพของเซิร์ฟเวอร์ซึ่งมีค่าใช้จ่ายสูง อีกทั้งข้อมูลที่ดึงมาก็ยังต้องถูกแปลงใหม่เพื่อให้สามารถใช้งานในกระบวนการแมชชีนเลิร์นนิงและ AI ได้

Wikimedia และ Kaggle ระบุในการประกาศร่วมกันว่าชุดข้อมูลนี้ออกแบบมาเพื่อลดความจำเป็นในการ scraping ไม่เพียงแต่เพื่อลดภาระต่อเซิร์ฟเวอร์ของ Wikimedia เท่านั้น แต่ยังเพื่อให้ข้อมูลที่สะอาด แบ่งส่วนไว้ล่วงหน้า และเป็นมิตรต่อผู้พัฒนาอีกด้วย

ปัจจุบัน Kaggle มีชุดข้อมูลที่เข้าถึงได้ฟรีมากกว่า 461,000 ชุด สำหรับการใช้งานด้าน AI และแมชชีนเลิร์นนิง ครอบคลุมหัวข้อต่าง ๆ อย่างหลากหลาย โดยชุดข้อมูลของ Wikipedia จะเข้าร่วมกับชุดข้อมูลเกี่ยวกับสุขภาพ (เช่น เบาหวานและมะเร็ง) การเงิน (เช่น การฉ้อโกงบัตรเครดิตและตลาดหุ้น) และสังคมศาสตร์ (เช่น แนวโน้มโซเชียลมีเดียและการศึกษา) — รวมถึงยังมีชุดข้อมูลเกี่ยวกับโภชนาการของผลิตภัณฑ์ซีเรียล 80 ชนิด และเหตุการณ์พบเห็น UFO ด้วย

ชุดข้อมูล Wikipedia ใหม่นี้มีให้ใช้งานในเวอร์ชันภาษาฝรั่งเศสและภาษาอังกฤษบน Kaggle ในสถานะเบต้าเริ่มต้น โดย Kaggle เปิดรับข้อเสนอแนะและการพูดคุยจากชุมชนโดยตรงเกี่ยวกับชุดข้อมูลนี้

ที่มา: https://siliconangle.com/2025/04/17/wikipedia-offers-ai-developers-article-data-kaggle-stop-automated-scraping/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Salesforce เข้าซื้อกิจการ Fin มูลค่าราว 3,600 ล้านดอลลาร์ เสริมแกร่ง AI Agent งานบริการลูกค้า

Salesforce ประกาศลงนามข้อตกลงขั้นสุดท้ายเข้าซื้อกิจการ Fin ผู้ให้บริการแพลตฟอร์ม customer agent ในมูลค่าราว 3,600 ล้านดอลลาร์สหรัฐ เพื่อนำเทคโนโลยี AI Agent สำหรับงานบริการลูกค้ามาเสริมความสามารถให้กับ Agentforce

Cisco ออกแพตช์แก้ช่องโหว่ Zero-day บน Catalyst SD-WAN Manager ที่ถูกใช้โจมตียกระดับสิทธิ์เป็น root

Cisco ปล่อยอัปเดตด้านความปลอดภัยแก้ช่องโหว่บน Catalyst SD-WAN Manager (เดิมคือ SD-WAN vManage) หลังพบว่าถูกใช้โจมตีจริงในลักษณะ Zero-day เพื่อยกระดับสิทธิ์เป็น root บนระบบที่ได้รับผลกระทบ