Black Hat Asia 2023

แนะนำ 5 ชุดข้อมูลน่าสนใจจากขุมทรัพย์ข้อมูล Kaggle Datasets

น่าจะเป็นที่คุ้นเคยกันดีกับผู้ที่ทำงานเกี่ยวกับข้อมูลสำหรับเว็บไซต์ Kaggle สนามประลองความสามารถของอัลกอริทึม machine learning ซึ่งเป็นแหล่งรวบรวม data scientist ฝีมือดีมากมาย แต่รู้หรือไม่ว่า Kaggle นั้นเป็นแหล่งรวมชุดข้อมูลมากมายให้ดาวน์โหลดมาใช้กัน และที่สำคัญคือ ฟรี!!

ชุดข้อมูลทั้ง 1,108 ชุด (ณ เวลาที่เขียน) ที่ว่านี้ถูกรวบรวมอยู่ในหน้าเว็บไซต์ https://www.kaggle.com/datasets ที่ผู้ใช้สามารถเข้าไปค้นหาเลือกใช้ง่ายๆ โดยหากยังไม่อยากดาวน์โหลดลงมายังเครื่องให้เสียเวลา ผู้ใช้สามารถ”เล่น”กับชุดข้อมูลผ่านเครื่องมือ Kernel ของ Kaggle ที่อนุญาตให้ผู้ใช้ลองเขียน script หรือสร้าง notebook เพื่อลองใช้ข้อมูลด้วยภาษา R หรือ Python และรันโค้ดแบบออนไลน์เลย และนอกจากนี้ หากผู้ใช้มีชุดข้อมูลที่อยากแบ่งปันก็สามารถอัพโหลดไปยังเว็บไซต์ Kaggle ได้อีกด้วย

ในโอกาสนี้จะขอแนะนำ 5 ชุดข้อมูลที่ผู้เขียนเห็นว่าน่าสนใจสำหรับการทำโปรเจคเกี่ยวกับข้อมูลหรือ machine learning ดังนี้

1. Getting Real about Fake News

ข่าวสารที่เต็มไปด้วยอคติหรือเป็นเท็จที่ถูกแชร์กันเป็นจำนวนมากนั้นนับเป็นหนึ่งในปัญหาสังคมของโลกยุคปัจจุบันที่แม้แต่ผู้ให้บริการรายใหญ่อย่าง Facebook และ Google ก็กำลังเร่งแก้ไข ชุดข้อมูลนี้รวบรวมข่าวกว่า 12,999 ชิ้นจาก 244 เว็บไซต์ที่ถูกเครื่องมือ BS Detector ตรวจจับว่าเป็นข่าวเท็จหรือบิดเบือนพร้อมด้วยหัวข้อข่าว เนื้อหา ชื่อผู้เขียน ความเป็นสแปม และรายละเอียดอื่นๆ ซึ่งน่าสนใจว่าเทคนิคการวิเคราะห์ข้อมูล หรืออัลกอริทึม machine learning ใดๆจะสามารถตรวจจับได้อย่างมีประสิทธิภาพหรือไม่ว่าข่าวพวกนี้เป็นข่าวคุณภาพต่ำ

Point: natural language processing

2. European Soccer Database

การวิเคราะห์ข้อมูลกีฬานั้นไม่ใช่เรื่องใหม่ โดยเฉพาะกับกีฬายอดนิยมอย่างฟุตบอลที่มีผู้รับชมอย่างเหนียวแน่นทั่วโลก ชุดข้อมูลนี้รวบรวมข้อมูลการแข่งขันกว่า 25,000 แมตช์และผู้เล่นกว่า 10,000 คนใน 11 ประเทศของยุโรปตั้งแต่ปี 2008 ถึง 2016 ผู้ใช้สามารถนำข้อมูลนี้ไปวิเคราะห์ข้อมูลหลายด้าน เช่น การทายผลฟุตบอล การวิเคราะห์ฟอร์มของผู้เล่น การวิเคราะห์ความสำคัญของปัจจัยต่างๆที่อาจมีผลกับผลลัพธ์ในสนาม เป็นต้น และถ้าหากอยากเจาะลึกไปกว่านั้นใน Kaggle เองก็มีฐานข้อมูลของผู้เล่น 17,000 คนจากเกม FIFA ให้ดาวน์โหลดไปใช้กันเพิ่มเติมด้วย

Point: statistical analysis, correlation, feature selection

3. Bitcoin Historical Data

น้อยสิ่งนักที่จะมาแรงกว่า bitcoin ในเวลานี้ ชุดข้อมูลดังกล่าวรวบรวมสถิติการซื้อขายย้อนหลังทุกๆ 1 นาทีของ bitcoin ผ่านผู้ให้บริการซื้อขายต่างๆในหลากหลายสกุลเงินโดยย้อนไปไกลสุดถึงปี 2012 ผู้ใช้สามารถนำชุดข้อมูลนี้ไปวิเคราะห์เพื่อค้นหาแนวโน้มของตลาดที่น่าสนใจ หรือกลยุทธในการซื้อขายที่มีประสิทธิภาพ แต่แอบบอกสักนิดว่าด้วยความอ่อนไหวของ bitcoin ต่อสถานการณ์รอบโลก อาจจะน่าสนใจกว่าหากนำข้อมูลไปวิเคราะห์ร่วมกับชุดข้อมูลข่าวที่ Kaggle ก็มีให้เลือกใช้หลากหลาย เช่น ชุดข้อมูล Daily News for Stock Market Prediction ที่มีมาเพื่อวัตถุประสงค์คล้ายๆกัน

Point: time series analysis

4. Fashion MNIST

การวิเคราะห์ข้อมูลจากรูปภาพก็เป็นอีกหนึ่งสาขาที่มีการนำไปใช้อย่างแพร่หลาย ไม่ว่าจะในวงการการแพทย์ ค้าปลีก หรือแม้กระทั่งอุตสาหกรรมยานยนต์​ ชุดข้อมูล Fashion MNIST นี้ประกอบไปด้วยภาพสินค้าแฟชั่นขาวดำขนาด 28×28 pixel จำนวน 70,000 รูปจาก Zalando ทำให้มันกลายเป็นชุดข้อมูลที่ครบครันในการเริ่มการศึกษาหรือพัฒนาระบบ machine learning เพื่อวิเคราะห์ประเภทของข้อมูลรูปภาพ ในทำนองเดียวกัน หากต้องการความท้าทายที่ยากขึ้นมาอีกหน่อย ทาง Kaggle ก็มีชุดข้อมูลรูปภาพอาหาร Food Images ที่มีความหลากหลายในมุมมองและสีสันมากกว่าไว้ให้ลองดาวน์โหลดกัน

Point: image processing and classification

5. Every song you have heard (almost)!

ระบบปัญญาประดิษฐ์นั้นก้าวไกลไปถึงขั้นที่สามารถสร้างสรรค์ผลงานศิลปะได้ด้วยตัวเองแล้ว และหากเราให้ข้อมูลกับมันมากพอ อัลกอริทึมจะสามารถแต่งเพลงขึ้นมาเองได้หรือไม่? นี่ดูจะเป็นคำถามหลักของชุดข้อมูลนี้ที่รวมเนื้อเพลงจากศิลปินมากมายไว้ถึง 500,000 เพลงด้วยกัน และแน่นอนว่าการนำข้อมูลชุดนี้ไปใช้นั้นไม่ถูกจำกัดอยู่แค่เพื่อตอบคำถามเบื้องต้น ผู้ใช้อาจลองนำมาวิเคราะห์ลักษณะเด่นของศิลปินคนโปรด ค้นหาความคล้ายคลึงในเนื้อหาระหว่างศิลปิน หรือนำไปใช้คู่กับข้อมูลการจัดอันดับเพลง (เช่น Billboard 1964-2015 Songs + Lyrics) เพื่อค้นหาดูว่าอะไรคือเคล็ดลับความสำเร็จของเพลง เป็นต้น

Point: natural language processing, computational creativity


Check Also

Google จับมือ Replit เสริมบริการ Generative AI สำหรับ Software Development

Google จับมือ Replit เสริมบริการ Generative AI สำหรับ Software Development

Microsoft เปิดตัว Security Copilot ระบบ AI ผู้ช่วยด้านความมั่นคงปลอดภัย

Microsoft เปิดตัว Security Copilot ระบบ AI ผู้ช่วยด้านความมั่นคงปลอดภัย ใช้งาน GPT-4