แนะนำ 5 ชุดข้อมูลน่าสนใจจากขุมทรัพย์ข้อมูล Kaggle Datasets

น่าจะเป็นที่คุ้นเคยกันดีกับผู้ที่ทำงานเกี่ยวกับข้อมูลสำหรับเว็บไซต์ Kaggle สนามประลองความสามารถของอัลกอริทึม machine learning ซึ่งเป็นแหล่งรวบรวม data scientist ฝีมือดีมากมาย แต่รู้หรือไม่ว่า Kaggle นั้นเป็นแหล่งรวมชุดข้อมูลมากมายให้ดาวน์โหลดมาใช้กัน และที่สำคัญคือ ฟรี!!

ชุดข้อมูลทั้ง 1,108 ชุด (ณ เวลาที่เขียน) ที่ว่านี้ถูกรวบรวมอยู่ในหน้าเว็บไซต์ https://www.kaggle.com/datasets ที่ผู้ใช้สามารถเข้าไปค้นหาเลือกใช้ง่ายๆ โดยหากยังไม่อยากดาวน์โหลดลงมายังเครื่องให้เสียเวลา ผู้ใช้สามารถ”เล่น”กับชุดข้อมูลผ่านเครื่องมือ Kernel ของ Kaggle ที่อนุญาตให้ผู้ใช้ลองเขียน script หรือสร้าง notebook เพื่อลองใช้ข้อมูลด้วยภาษา R หรือ Python และรันโค้ดแบบออนไลน์เลย และนอกจากนี้ หากผู้ใช้มีชุดข้อมูลที่อยากแบ่งปันก็สามารถอัพโหลดไปยังเว็บไซต์ Kaggle ได้อีกด้วย

ในโอกาสนี้จะขอแนะนำ 5 ชุดข้อมูลที่ผู้เขียนเห็นว่าน่าสนใจสำหรับการทำโปรเจคเกี่ยวกับข้อมูลหรือ machine learning ดังนี้

1. Getting Real about Fake News

ข่าวสารที่เต็มไปด้วยอคติหรือเป็นเท็จที่ถูกแชร์กันเป็นจำนวนมากนั้นนับเป็นหนึ่งในปัญหาสังคมของโลกยุคปัจจุบันที่แม้แต่ผู้ให้บริการรายใหญ่อย่าง Facebook และ Google ก็กำลังเร่งแก้ไข ชุดข้อมูลนี้รวบรวมข่าวกว่า 12,999 ชิ้นจาก 244 เว็บไซต์ที่ถูกเครื่องมือ BS Detector ตรวจจับว่าเป็นข่าวเท็จหรือบิดเบือนพร้อมด้วยหัวข้อข่าว เนื้อหา ชื่อผู้เขียน ความเป็นสแปม และรายละเอียดอื่นๆ ซึ่งน่าสนใจว่าเทคนิคการวิเคราะห์ข้อมูล หรืออัลกอริทึม machine learning ใดๆจะสามารถตรวจจับได้อย่างมีประสิทธิภาพหรือไม่ว่าข่าวพวกนี้เป็นข่าวคุณภาพต่ำ

Point: natural language processing

2. European Soccer Database

การวิเคราะห์ข้อมูลกีฬานั้นไม่ใช่เรื่องใหม่ โดยเฉพาะกับกีฬายอดนิยมอย่างฟุตบอลที่มีผู้รับชมอย่างเหนียวแน่นทั่วโลก ชุดข้อมูลนี้รวบรวมข้อมูลการแข่งขันกว่า 25,000 แมตช์และผู้เล่นกว่า 10,000 คนใน 11 ประเทศของยุโรปตั้งแต่ปี 2008 ถึง 2016 ผู้ใช้สามารถนำข้อมูลนี้ไปวิเคราะห์ข้อมูลหลายด้าน เช่น การทายผลฟุตบอล การวิเคราะห์ฟอร์มของผู้เล่น การวิเคราะห์ความสำคัญของปัจจัยต่างๆที่อาจมีผลกับผลลัพธ์ในสนาม เป็นต้น และถ้าหากอยากเจาะลึกไปกว่านั้นใน Kaggle เองก็มีฐานข้อมูลของผู้เล่น 17,000 คนจากเกม FIFA ให้ดาวน์โหลดไปใช้กันเพิ่มเติมด้วย

Point: statistical analysis, correlation, feature selection

3. Bitcoin Historical Data

น้อยสิ่งนักที่จะมาแรงกว่า bitcoin ในเวลานี้ ชุดข้อมูลดังกล่าวรวบรวมสถิติการซื้อขายย้อนหลังทุกๆ 1 นาทีของ bitcoin ผ่านผู้ให้บริการซื้อขายต่างๆในหลากหลายสกุลเงินโดยย้อนไปไกลสุดถึงปี 2012 ผู้ใช้สามารถนำชุดข้อมูลนี้ไปวิเคราะห์เพื่อค้นหาแนวโน้มของตลาดที่น่าสนใจ หรือกลยุทธในการซื้อขายที่มีประสิทธิภาพ แต่แอบบอกสักนิดว่าด้วยความอ่อนไหวของ bitcoin ต่อสถานการณ์รอบโลก อาจจะน่าสนใจกว่าหากนำข้อมูลไปวิเคราะห์ร่วมกับชุดข้อมูลข่าวที่ Kaggle ก็มีให้เลือกใช้หลากหลาย เช่น ชุดข้อมูล Daily News for Stock Market Prediction ที่มีมาเพื่อวัตถุประสงค์คล้ายๆกัน

Point: time series analysis

4. Fashion MNIST

การวิเคราะห์ข้อมูลจากรูปภาพก็เป็นอีกหนึ่งสาขาที่มีการนำไปใช้อย่างแพร่หลาย ไม่ว่าจะในวงการการแพทย์ ค้าปลีก หรือแม้กระทั่งอุตสาหกรรมยานยนต์​ ชุดข้อมูล Fashion MNIST นี้ประกอบไปด้วยภาพสินค้าแฟชั่นขาวดำขนาด 28×28 pixel จำนวน 70,000 รูปจาก Zalando ทำให้มันกลายเป็นชุดข้อมูลที่ครบครันในการเริ่มการศึกษาหรือพัฒนาระบบ machine learning เพื่อวิเคราะห์ประเภทของข้อมูลรูปภาพ ในทำนองเดียวกัน หากต้องการความท้าทายที่ยากขึ้นมาอีกหน่อย ทาง Kaggle ก็มีชุดข้อมูลรูปภาพอาหาร Food Images ที่มีความหลากหลายในมุมมองและสีสันมากกว่าไว้ให้ลองดาวน์โหลดกัน

Point: image processing and classification

5. Every song you have heard (almost)!

ระบบปัญญาประดิษฐ์นั้นก้าวไกลไปถึงขั้นที่สามารถสร้างสรรค์ผลงานศิลปะได้ด้วยตัวเองแล้ว และหากเราให้ข้อมูลกับมันมากพอ อัลกอริทึมจะสามารถแต่งเพลงขึ้นมาเองได้หรือไม่? นี่ดูจะเป็นคำถามหลักของชุดข้อมูลนี้ที่รวมเนื้อเพลงจากศิลปินมากมายไว้ถึง 500,000 เพลงด้วยกัน และแน่นอนว่าการนำข้อมูลชุดนี้ไปใช้นั้นไม่ถูกจำกัดอยู่แค่เพื่อตอบคำถามเบื้องต้น ผู้ใช้อาจลองนำมาวิเคราะห์ลักษณะเด่นของศิลปินคนโปรด ค้นหาความคล้ายคลึงในเนื้อหาระหว่างศิลปิน หรือนำไปใช้คู่กับข้อมูลการจัดอันดับเพลง (เช่น Billboard 1964-2015 Songs + Lyrics) เพื่อค้นหาดูว่าอะไรคือเคล็ดลับความสำเร็จของเพลง เป็นต้น

Point: natural language processing, computational creativity




Check Also

Samsung เริ่มผลิต 16Gb GDDR6 สำหรับ GPU ระดับสูงแล้ว

Samsung Electronics ได้ออกมาประกาศเริ่มต้นสายการผลิต 16 Gitabit (Gb) Graphics Double Data Rate 6 (GDDR6) สำหรับใช้งานภายใน GPU ประสิทธิภาพสูงพิเศษโดยเฉพาะออกมาแล้ว

AWS Lambda ประกาศสนับสนุน C# บน .NET Core 2.0

AWSได้ออกมาประกาศรองรับ C# บน .NET Core 2.0 แล้วอย่างเป็นทางการ ทำให้นักพัฒนาสามารถพัฒนา C# บนระบบ Serverless Architectures ได้แล้ว