
1.Image Processing
- MNIST (งานวิจัย) : ข้อมูลลายมือตัวเลข มีข้อมูลสำหรับเรียนรู้ 60,000 ตัว และทดสอบ 10,000 ตัว (ดาวน์โหลด dataset ขนาด 50MB)
- MS-COCO (งานวิจัย) : ข้อมูลทำ Object Detection จากคนกว่า 250,000 คนและ Object กว่า 80 ประเภท (ดาวน์โหลด dataset ขนาด 25 GB)

- ImageNet (งานวิจัย) : ข้อมูลรูปที่ถูกจัดลำดับแล้วโดย WordNet มีรูปกว่า 1,500,000 รูป (ดาวน์โหลด dataset ขนาด 150 GB)
- Open Images Dataset (งานวิจัย) : รูปภาพทดสอบกว่า 9 ล้านรูป ซึ่งมีการแบ่งวัตถุออกเป็น Class กว่าพัน Class (ดาวน์โหลด dataset ขนาด 500GB )

2.NLP
- IMDB Review (งานวิจัย) : อันนี้ไม่ต้องอธิบายเยอะ รีวิวหนังเป็น Raw Text ข้อมูลเรียนรู้ 25,000 และข้อมูลทดสอบ อีก 25,000 (ดาวน์โหลด dataset ขนาด 80 MB)
- The Wikipedia Corpus (งานวิจัย) : Text บน Wikipedia มีคำกว่า 1.9 พันล้านคำจาก 4 ล้านบทความ (ดาวน์โหลด dataset ขนาด 20 MB)
- Machine Translation of European Languages (งานวิจัย) : ข้อมูลการแปลภาษาระหว่าง ฝรั่งเศส-อังกฤษ, สเปน-อังกฤษ, เยอรมัน-อังกฤษ, เช็ค-อังกฤษ จำนวนกว่า 30 ล้านประโยค (ดาวน์โหลด dataset ขนาด 15 GB)
3.Audio,Speech
- Free Music Archive (งานวิจัย) : HQ Audio มี Track และ Metadata มาให้เป็น CSV เช่น ID, Title, Artist มีเพลงกว่า 1 แสนเพลง (ดาวน์โหลด dataset ขนาด 1TB)
- Free Spoken Digit Dataset (งานวิจัย) : ข้อมูลเสียงคนพูดเลขเป็นภาษาอังกฤษ จาก 3 คนและบันทึกกว่า 1,500 ครั้ง (ดาวน์โหลด dataset ขนาด 10 MB)
- VoxCeleb (งานวิจัย) : เสียงของดาราจำนวน 1,251 คนที่ถอดออกมาจากยูทูป ชุดข้อมูลประกอบด้วยการเปล่งเสียงกว่า 1 แสนครั้ง โดยเลือกเป็นผู้ชายประมาณ 55% จากสำเนียง อายุ และยังไม่มีความซ้ำซ้อนระหว่างชุดเรียนรู้และชุดทดสอบ (ดาวน์โหลด dataset ขนาด 150 MB)
เรายกเฉพาะตัวอย่างที่น่าสนใจประมาณ 10 ชุดข้อมูลจากทั้งหมด 25 ชุด หากสนใจเพิ่มเติมสามารถไปที่ลิ้งก์ตามด้านล่างได้ครับ
ที่มา : https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/