แนะนำ 5 ชุดข้อมูลน่าสนใจจากขุมทรัพย์ข้อมูล Kaggle Datasets

น่าจะเป็นที่คุ้นเคยกันดีกับผู้ที่ทำงานเกี่ยวกับข้อมูลสำหรับเว็บไซต์ Kaggle สนามประลองความสามารถของอัลกอริทึม machine learning ซึ่งเป็นแหล่งรวบรวม data scientist ฝีมือดีมากมาย แต่รู้หรือไม่ว่า Kaggle นั้นเป็นแหล่งรวมชุดข้อมูลมากมายให้ดาวน์โหลดมาใช้กัน และที่สำคัญคือ ฟรี!!

ชุดข้อมูลทั้ง 1,108 ชุด (ณ เวลาที่เขียน) ที่ว่านี้ถูกรวบรวมอยู่ในหน้าเว็บไซต์ https://www.kaggle.com/datasets ที่ผู้ใช้สามารถเข้าไปค้นหาเลือกใช้ง่ายๆ โดยหากยังไม่อยากดาวน์โหลดลงมายังเครื่องให้เสียเวลา ผู้ใช้สามารถ”เล่น”กับชุดข้อมูลผ่านเครื่องมือ Kernel ของ Kaggle ที่อนุญาตให้ผู้ใช้ลองเขียน script หรือสร้าง notebook เพื่อลองใช้ข้อมูลด้วยภาษา R หรือ Python และรันโค้ดแบบออนไลน์เลย และนอกจากนี้ หากผู้ใช้มีชุดข้อมูลที่อยากแบ่งปันก็สามารถอัพโหลดไปยังเว็บไซต์ Kaggle ได้อีกด้วย

ในโอกาสนี้จะขอแนะนำ 5 ชุดข้อมูลที่ผู้เขียนเห็นว่าน่าสนใจสำหรับการทำโปรเจคเกี่ยวกับข้อมูลหรือ machine learning ดังนี้

1. Getting Real about Fake News

ข่าวสารที่เต็มไปด้วยอคติหรือเป็นเท็จที่ถูกแชร์กันเป็นจำนวนมากนั้นนับเป็นหนึ่งในปัญหาสังคมของโลกยุคปัจจุบันที่แม้แต่ผู้ให้บริการรายใหญ่อย่าง Facebook และ Google ก็กำลังเร่งแก้ไข ชุดข้อมูลนี้รวบรวมข่าวกว่า 12,999 ชิ้นจาก 244 เว็บไซต์ที่ถูกเครื่องมือ BS Detector ตรวจจับว่าเป็นข่าวเท็จหรือบิดเบือนพร้อมด้วยหัวข้อข่าว เนื้อหา ชื่อผู้เขียน ความเป็นสแปม และรายละเอียดอื่นๆ ซึ่งน่าสนใจว่าเทคนิคการวิเคราะห์ข้อมูล หรืออัลกอริทึม machine learning ใดๆจะสามารถตรวจจับได้อย่างมีประสิทธิภาพหรือไม่ว่าข่าวพวกนี้เป็นข่าวคุณภาพต่ำ

Point: natural language processing

2. European Soccer Database

การวิเคราะห์ข้อมูลกีฬานั้นไม่ใช่เรื่องใหม่ โดยเฉพาะกับกีฬายอดนิยมอย่างฟุตบอลที่มีผู้รับชมอย่างเหนียวแน่นทั่วโลก ชุดข้อมูลนี้รวบรวมข้อมูลการแข่งขันกว่า 25,000 แมตช์และผู้เล่นกว่า 10,000 คนใน 11 ประเทศของยุโรปตั้งแต่ปี 2008 ถึง 2016 ผู้ใช้สามารถนำข้อมูลนี้ไปวิเคราะห์ข้อมูลหลายด้าน เช่น การทายผลฟุตบอล การวิเคราะห์ฟอร์มของผู้เล่น การวิเคราะห์ความสำคัญของปัจจัยต่างๆที่อาจมีผลกับผลลัพธ์ในสนาม เป็นต้น และถ้าหากอยากเจาะลึกไปกว่านั้นใน Kaggle เองก็มีฐานข้อมูลของผู้เล่น 17,000 คนจากเกม FIFA ให้ดาวน์โหลดไปใช้กันเพิ่มเติมด้วย

Point: statistical analysis, correlation, feature selection

3. Bitcoin Historical Data

น้อยสิ่งนักที่จะมาแรงกว่า bitcoin ในเวลานี้ ชุดข้อมูลดังกล่าวรวบรวมสถิติการซื้อขายย้อนหลังทุกๆ 1 นาทีของ bitcoin ผ่านผู้ให้บริการซื้อขายต่างๆในหลากหลายสกุลเงินโดยย้อนไปไกลสุดถึงปี 2012 ผู้ใช้สามารถนำชุดข้อมูลนี้ไปวิเคราะห์เพื่อค้นหาแนวโน้มของตลาดที่น่าสนใจ หรือกลยุทธในการซื้อขายที่มีประสิทธิภาพ แต่แอบบอกสักนิดว่าด้วยความอ่อนไหวของ bitcoin ต่อสถานการณ์รอบโลก อาจจะน่าสนใจกว่าหากนำข้อมูลไปวิเคราะห์ร่วมกับชุดข้อมูลข่าวที่ Kaggle ก็มีให้เลือกใช้หลากหลาย เช่น ชุดข้อมูล Daily News for Stock Market Prediction ที่มีมาเพื่อวัตถุประสงค์คล้ายๆกัน

Point: time series analysis

4. Fashion MNIST

การวิเคราะห์ข้อมูลจากรูปภาพก็เป็นอีกหนึ่งสาขาที่มีการนำไปใช้อย่างแพร่หลาย ไม่ว่าจะในวงการการแพทย์ ค้าปลีก หรือแม้กระทั่งอุตสาหกรรมยานยนต์​ ชุดข้อมูล Fashion MNIST นี้ประกอบไปด้วยภาพสินค้าแฟชั่นขาวดำขนาด 28×28 pixel จำนวน 70,000 รูปจาก Zalando ทำให้มันกลายเป็นชุดข้อมูลที่ครบครันในการเริ่มการศึกษาหรือพัฒนาระบบ machine learning เพื่อวิเคราะห์ประเภทของข้อมูลรูปภาพ ในทำนองเดียวกัน หากต้องการความท้าทายที่ยากขึ้นมาอีกหน่อย ทาง Kaggle ก็มีชุดข้อมูลรูปภาพอาหาร Food Images ที่มีความหลากหลายในมุมมองและสีสันมากกว่าไว้ให้ลองดาวน์โหลดกัน

Point: image processing and classification

5. Every song you have heard (almost)!

ระบบปัญญาประดิษฐ์นั้นก้าวไกลไปถึงขั้นที่สามารถสร้างสรรค์ผลงานศิลปะได้ด้วยตัวเองแล้ว และหากเราให้ข้อมูลกับมันมากพอ อัลกอริทึมจะสามารถแต่งเพลงขึ้นมาเองได้หรือไม่? นี่ดูจะเป็นคำถามหลักของชุดข้อมูลนี้ที่รวมเนื้อเพลงจากศิลปินมากมายไว้ถึง 500,000 เพลงด้วยกัน และแน่นอนว่าการนำข้อมูลชุดนี้ไปใช้นั้นไม่ถูกจำกัดอยู่แค่เพื่อตอบคำถามเบื้องต้น ผู้ใช้อาจลองนำมาวิเคราะห์ลักษณะเด่นของศิลปินคนโปรด ค้นหาความคล้ายคลึงในเนื้อหาระหว่างศิลปิน หรือนำไปใช้คู่กับข้อมูลการจัดอันดับเพลง (เช่น Billboard 1964-2015 Songs + Lyrics) เพื่อค้นหาดูว่าอะไรคือเคล็ดลับความสำเร็จของเพลง เป็นต้น

Point: natural language processing, computational creativity



Check Also

Google จัดงาน Google Games Bangkok 2017 ให้นักศึกษาสาย IT แข่งเขียนโปรแกรมแก้ปัญหา 11 พฤศจิกายน 2017

Google ประกาศจัดงาน Google Games เปิดโอกาสให้เหล่านิสิตนักศึกษาทางด้าน IT ทั่วไทยมาแสดงฝีมือเขียนโปรแกรมเพื่อแก้ไขปัญหาต่างๆ ร่วมกันในวันที่ 11 พฤศจิกายน 2017 ที่จะถึงนี้ ณ ออฟฟิศของ Google …

Cisco เผยแผนซื้อกิจการ Perspica ผู้พัฒนา IT Operations Analytics นับเป็นบริษัทที่ 200 ที่เข้าซื้อ

หลังจากที่ก่อนหน้านี้ Cisco ได้เข้าซื้อกิจการ AppDynamics เพื่อเปิดบริการ Cloud Application Monitoring and Analytics ไปแล้ว ตอนนี้ Cisco ได้ออกมาประกาศถึงความต้องการในการเข้าซื้อกิจการของ Perspica …

ปิดโหมดสีเทา