แจก 10 Dataset สำหรับ Deep Learning

สำหรับผู้สนใจการทำ Deep Learning ซึ่งวันนี้เราได้ไปพบกับคอลัมน์ที่แจกข้อมูลสำหรับนำไปทดลองใช้งานจำนวน 10 ชุดแบ่งเป็น 3 หมวดคือ Image Process, NLP และ Audio/Speech Process ซึ่งเตือนไว้ก่อนว่าข้อมูลบางชุดจะใหญ่เกิน 1 TB ทีเดียว

credit : Analyticsvidhya.com

1.Image Processing

  • MNIST (งานวิจัย) : ข้อมูลลายมือตัวเลข มีข้อมูลสำหรับเรียนรู้ 60,000 ตัว และทดสอบ 10,000 ตัว (ดาวน์โหลด dataset ขนาด 50MB)
  • MS-COCO (งานวิจัย) : ข้อมูลทำ Object Detection  จากคนกว่า 250,000 คนและ Object กว่า 80 ประเภท (ดาวน์โหลด dataset ขนาด 25 GB)
credit : Analyticsvidhya.com
  • ImageNet (งานวิจัย) : ข้อมูลรูปที่ถูกจัดลำดับแล้วโดย WordNet มีรูปกว่า 1,500,000 รูป (ดาวน์โหลด dataset ขนาด 150 GB)
  • Open Images Dataset (งานวิจัย) : รูปภาพทดสอบกว่า 9 ล้านรูป ซึ่งมีการแบ่งวัตถุออกเป็น Class กว่าพัน Class (ดาวน์โหลด dataset ขนาด 500GB )
ctedit : Analyticsvidhya

2.NLP

  • IMDB Review (งานวิจัย) : อันนี้ไม่ต้องอธิบายเยอะ รีวิวหนังเป็น Raw Text ข้อมูลเรียนรู้ 25,000 และข้อมูลทดสอบ อีก 25,000 (ดาวน์โหลด dataset ขนาด 80 MB)
  • The Wikipedia Corpus (งานวิจัย) : Text บน Wikipedia มีคำกว่า 1.9 พันล้านคำจาก 4 ล้านบทความ (ดาวน์โหลด dataset ขนาด 20 MB)
  • Machine Translation of European Languages (งานวิจัย) : ข้อมูลการแปลภาษาระหว่าง ฝรั่งเศส-อังกฤษ, สเปน-อังกฤษ, เยอรมัน-อังกฤษ, เช็ค-อังกฤษ จำนวนกว่า 30 ล้านประโยค (ดาวน์โหลด dataset ขนาด 15 GB)

3.Audio,Speech

  • Free Music Archive (งานวิจัย) : HQ Audio มี Track และ Metadata มาให้เป็น CSV เช่น ID, Title, Artist มีเพลงกว่า 1 แสนเพลง (ดาวน์โหลด dataset ขนาด 1TB)
  • Free Spoken Digit Dataset (งานวิจัย) : ข้อมูลเสียงคนพูดเลขเป็นภาษาอังกฤษ จาก 3 คนและบันทึกกว่า 1,500 ครั้ง (ดาวน์โหลด dataset ขนาด 10 MB)
  • VoxCeleb (งานวิจัย) : เสียงของดาราจำนวน 1,251 คนที่ถอดออกมาจากยูทูป ชุดข้อมูลประกอบด้วยการเปล่งเสียงกว่า 1 แสนครั้ง โดยเลือกเป็นผู้ชายประมาณ 55% จากสำเนียง อายุ และยังไม่มีความซ้ำซ้อนระหว่างชุดเรียนรู้และชุดทดสอบ (ดาวน์โหลด dataset ขนาด 150 MB)

เรายกเฉพาะตัวอย่างที่น่าสนใจประมาณ 10 ชุดข้อมูลจากทั้งหมด 25 ชุด หากสนใจเพิ่มเติมสามารถไปที่ลิ้งก์ตามด้านล่างได้ครับ

ที่มา : https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/


About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

[Video Webinar] HTTP/3, How Cloudflare Help to Make the Internet Better โดย Cloudflare APAC

สำหรับผู้ที่ไม่ได้เข้าชมการบรรยาย TechTalk Webinar เรื่อง “HTTP/3, How Cloudflare Help to Make the Internet Better” เพื่อรู้จักกับแนวคิดและการทำงานของ HTTP/3 …

Google ออกบริการ Transfer Service เพื่อย้าย Data ขึ้น Cloud

Transfer Service เป็นบริการเพื่อย้าย Data ขึ้น Cloud ล่าสุดจาก Google ที่หวังให้ผู้ใช้ตัดสินใจย้ายข้อมูลจาก On-premise ขึ้น Cloud ได้ง่ายมากขึ้น