Yahoo! เปิดเผย Dataset ข้อมูลพฤติกรรมการอ่านข่าวของผู้ใช้งาน กว่า 13.5TB ให้นำไปใช้ศึกษาและทำ Machine Learning ได้

Credit: ShutterStock.com
Credit: ShutterStock.com

เพื่อผลักดันวงการการศึกษาให้มีข้อมูลตัวอย่างสำหรับการทำ Machine Learning มากขึ้น Yahoo! จึงได้เปิดเผย Dataset พฤติกรรมการอ่านข่าวของผู้ใช้งานกว่า 20 ล้านคนที่ถูกปิดบังตัวตนเอาไว้ โดยมีข้อมูลรวมกันกว่า 110,000 ล้านบรรทัด มีขนาดรวมถึง 13.5TB ที่รวบรวมเอาไว้ตั้งแต่ช่วงเดือนกุมภาพันธ์ถึงเดือนพฤษภาคม 2015 ที่ผ่านมา

Yahoo! หวังว่าข้อมูล Dataset ขนาดใหญ่เหล่านี้จะช่วยให้งานวิจัยต่างๆ ทางด้าน Machine Learning สามารถเกิดขึ้นได้โดยอ้างอิงกับข้อมูลจริงที่มีขนาดใหญ่ และสร้างประโยชน์ต่างๆ ได้มากมาย ไม่ว่าจะเป็นการวิจัยทางด้านระบบแนะนำข่าวสาร, การคัดกรองข้อมูล, การเรียนรู้แบบ Context-aware, การพัฒนา Algorithm ในการเรียนรู้จากข้อมูลขนาดใหญ่, การเรียนรู้พฤติกรรมของผู้ใช้งาน และอื่นๆ อีกมากมาย

สำหรับผู้ที่สนใจลองเข้าไปศึกษา Dataset นี้เพิ่มเติมได้ที่ http://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75 เลยนะครับ

ที่มา: http://www.theregister.co.uk/2016/01/14/yahoo_dumps_135tb_of_users_news_interaction_data_for_machine_eating/


About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

[Guest Post] Synology เปิดตัว DiskStation DS1522+ สำหรับการจัดการข้อมูลเอนกประสงค์

ไทเป ไต้หวัน วันที่ 29 มิถุนายน 2022 วันนี้ Synology ได้เปิดตัว Synology DiskStation ขนาด 5 เบย์ รุ่นใหม่ DS1522+ โซลูชันขนาดกะทัดรัดรุ่นล่าสุดในสายการผลิต …

Cloud Computing กำลังก้าวสู่ความสำเร็จครั้งสำคัญ

เทคโนโลยีคอมพิวเตอร์เริ่มเข้ามามีบทบาทในช่วงทศวรรษที่ 1980 หลังจากนั้นมาไม่เคยว่างเว้นจากการพัฒนาความทันสมัยอย่างต่อเนื่อง สถิติเหตุการณ์การเปลี่ยนถ่ายครั้งสำคัญทั้งด้านเศรษฐกิจและนวัตกรรมต่างๆ ส่วนใหญ่จะเกิดขึ้นพร้อมๆ กันในทุกๆ รอบ 10 ปี ปัจจุบันเป็นเวลาครบ 5 ทศวรรษพอดิบพอดี กับวิกฤติ COVID-19 นำมาสู่โอกาสและการเปลี่ยนถ่ายครั้งสำคัญนับตั้งแต่ต้นปี …