Wikipedia บอกผู้พัฒนา AI หยุด Scrape ได้แล้ว เอาข้อมูลบทความไปเลย

April 21, 2025 AI, Big Data and Data Science, Business Software, Cloud and Systems, Data Management, Google, IT Business, Products

มูลนิธิ Wikimedia ซึ่งเป็นองค์กรที่อยู่เบื้องหลังสารานุกรมเสรีที่ใหญ่ที่สุดบนอินเทอร์เน็ตอย่าง Wikipedia ได้เสนอชุดข้อมูลที่พร้อมสำหรับปัญญาประดิษฐ์บน Kaggle โดยมีเป้าหมายเพื่อยับยั้งบริษัท AI และผู้ฝึกโมเดลภาษาขนาดใหญ่ (LLM) จากการดึงข้อมูลจากเว็บไซต์โดยอัตโนมัติ (web scraping)

“แทนที่จะต้องดึงหรือแปลงข้อความบทความดิบ ผู้ใช้ Kaggle สามารถทำงานกับข้อมูล Wikipedia ที่ถูกจัดโครงสร้างมาแล้วในรูปแบบ JSON ได้โดยตรง — ซึ่งเหมาะอย่างยิ่งสำหรับการฝึกโมเดล การสร้างฟีเจอร์ และการทดสอบกระบวนการ NLP” มูลนิธิ Wikimedia กล่าวในการประกาศ

Kaggle เป็นชุมชนด้านวิทยาการข้อมูลและแมชชีนเลิร์นนิงที่เป็นเจ้าของและบริหารโดย Google ซึ่งให้บริการชุดข้อมูลและการแข่งขันด้านวิทยาการข้อมูลต่าง ๆ

การอัปโหลดชุดข้อมูลนี้เริ่มให้ใช้งานตั้งแต่วันที่ 15 เมษายน และประกอบด้วยองค์ประกอบคุณภาพสูง เช่น บทคัดย่อ คำอธิบายสั้น ข้อมูล infobox ในรูปแบบ key-value ลิงก์รูปภาพ และบทความที่ถูกแบ่งไว้เป็นส่วน ๆ ทว่าไม่ได้รวมถึงข้อมูลอ้างอิงหรือองค์ประกอบที่ไม่ใช่ข้อความ เช่น รูปภาพและแผนภูมิ

เนื่องจากเนื้อหานี้นำมาจาก Wikipedia จึงอยู่ภายใต้สัญญาอนุญาตแบบ Creative Commons ซึ่งเป็นใบอนุญาตที่เปิดเสรีและอนุญาตให้แชร์ ดัดแปลง และรีมิกซ์เนื้อหาได้อย่างอิสระ รวมถึงอยู่ภายใต้ใบอนุญาต GNU Free Documentation License (GFDL) โดยในบางกรณีอาจมีใบอนุญาตแบบสาธารณสมบัติหรือแบบอื่นใช้ร่วมด้วย

“ตอนนี้ Kaggle เป็นแหล่งหลักที่ผู้คนใช้ค้นหาชุดข้อมูล และมีไม่กี่ชุดข้อมูลเปิดที่มีอิทธิพลมากเท่ากับสิ่งที่มูลนิธิ Wikimedia จัดไว้ให้” Brenda Flynn หัวหน้าฝ่ายความร่วมมือของ Kaggle กล่าว

ผู้พัฒนา LLM ต้องพึ่งพาข้อมูลจากอินเทอร์เน็ตเป็นอย่างมากในการฝึกโมเดลของตน แต่โดยมากแล้วพวกเขาจะได้ข้อมูลจากการดึงออกมาจากเว็บไซต์สาธารณะโดยใช้กระบวนการ scraping ซึ่งเป็นการดึงข้อมูลแบบอัตโนมัติ โดยมักจะเป็นข้อความและภาพ โดยใช้ซอฟต์แวร์ที่อาจทำงานหนักและสร้างภาระเพิ่มเติมแก่เซิร์ฟเวอร์เว็บไซต์เกินกว่าการใช้งานโดยมนุษย์ทั่วไป

ภาระเพิ่มเติมนี้ส่งผลต่อประสิทธิภาพของเซิร์ฟเวอร์ซึ่งมีค่าใช้จ่ายสูง อีกทั้งข้อมูลที่ดึงมาก็ยังต้องถูกแปลงใหม่เพื่อให้สามารถใช้งานในกระบวนการแมชชีนเลิร์นนิงและ AI ได้

Wikimedia และ Kaggle ระบุในการประกาศร่วมกันว่าชุดข้อมูลนี้ออกแบบมาเพื่อลดความจำเป็นในการ scraping ไม่เพียงแต่เพื่อลดภาระต่อเซิร์ฟเวอร์ของ Wikimedia เท่านั้น แต่ยังเพื่อให้ข้อมูลที่สะอาด แบ่งส่วนไว้ล่วงหน้า และเป็นมิตรต่อผู้พัฒนาอีกด้วย

ปัจจุบัน Kaggle มีชุดข้อมูลที่เข้าถึงได้ฟรีมากกว่า 461,000 ชุด สำหรับการใช้งานด้าน AI และแมชชีนเลิร์นนิง ครอบคลุมหัวข้อต่าง ๆ อย่างหลากหลาย โดยชุดข้อมูลของ Wikipedia จะเข้าร่วมกับชุดข้อมูลเกี่ยวกับสุขภาพ (เช่น เบาหวานและมะเร็ง) การเงิน (เช่น การฉ้อโกงบัตรเครดิตและตลาดหุ้น) และสังคมศาสตร์ (เช่น แนวโน้มโซเชียลมีเดียและการศึกษา) — รวมถึงยังมีชุดข้อมูลเกี่ยวกับโภชนาการของผลิตภัณฑ์ซีเรียล 80 ชนิด และเหตุการณ์พบเห็น UFO ด้วย

ชุดข้อมูล Wikipedia ใหม่นี้มีให้ใช้งานในเวอร์ชันภาษาฝรั่งเศสและภาษาอังกฤษบน Kaggle ในสถานะเบต้าเริ่มต้น โดย Kaggle เปิดรับข้อเสนอแนะและการพูดคุยจากชุมชนโดยตรงเกี่ยวกับชุดข้อมูลนี้

ที่มา: https://siliconangle.com/2025/04/17/wikipedia-offers-ai-developers-article-data-kaggle-stop-automated-scraping/

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” [4 ส.ค. 2569 — 14.00น.]

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” เพื่อเรียนรู้กับการป้องกันไม่ให้ข้อมูลสำคัญขององค์กรหรือหน่วยงาน รั่วไหลไปกับการใช้งาน AI Agent ที่มีความรวดเร็วและซับซ้อนขึ้นเรื่อยๆ ด้วยมาตรการต่างๆ เช่น …

รายงาน 2026H1 Threat Review จาก Forescout ชี้ช่องโหว่พุ่ง 51% และ Ransomware เพิ่มขึ้น 25%

Forescout เผยรายงาน 2026H1 Threat Review วิเคราะห์แนวโน้มภัยคุกคามไซเบอร์ทั่วโลกในครึ่งแรกของปี 2026 พบช่องโหว่ที่ถูกเผยแพร่เพิ่มขึ้น 51% เมื่อเทียบกับปีก่อน ขณะที่การอ้างการโจมตีด้วย Ransomware เพิ่มขึ้น 25%

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

Wikipedia บอกผู้พัฒนา AI หยุด Scrape ได้แล้ว เอาข้อมูลบทความไปเลย

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” [4 ส.ค. 2569 — 14.00น.]

รายงาน 2026H1 Threat Review จาก Forescout ชี้ช่องโหว่พุ่ง 51% และ Ransomware เพิ่มขึ้น 25%

Wikipedia บอกผู้พัฒนา AI หยุด Scrape ได้แล้ว เอาข้อมูลบทความไปเลย

Share this:

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also