
เพื่อผลักดันวงการการศึกษาให้มีข้อมูลตัวอย่างสำหรับการทำ Machine Learning มากขึ้น Yahoo! จึงได้เปิดเผย Dataset พฤติกรรมการอ่านข่าวของผู้ใช้งานกว่า 20 ล้านคนที่ถูกปิดบังตัวตนเอาไว้ โดยมีข้อมูลรวมกันกว่า 110,000 ล้านบรรทัด มีขนาดรวมถึง 13.5TB ที่รวบรวมเอาไว้ตั้งแต่ช่วงเดือนกุมภาพันธ์ถึงเดือนพฤษภาคม 2015 ที่ผ่านมา
Yahoo! หวังว่าข้อมูล Dataset ขนาดใหญ่เหล่านี้จะช่วยให้งานวิจัยต่างๆ ทางด้าน Machine Learning สามารถเกิดขึ้นได้โดยอ้างอิงกับข้อมูลจริงที่มีขนาดใหญ่ และสร้างประโยชน์ต่างๆ ได้มากมาย ไม่ว่าจะเป็นการวิจัยทางด้านระบบแนะนำข่าวสาร, การคัดกรองข้อมูล, การเรียนรู้แบบ Context-aware, การพัฒนา Algorithm ในการเรียนรู้จากข้อมูลขนาดใหญ่, การเรียนรู้พฤติกรรมของผู้ใช้งาน และอื่นๆ อีกมากมาย
สำหรับผู้ที่สนใจลองเข้าไปศึกษา Dataset นี้เพิ่มเติมได้ที่ http://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75 เลยนะครับ
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย






