แจก 10 Dataset สำหรับ Deep Learning

สำหรับผู้สนใจการทำ Deep Learning ซึ่งวันนี้เราได้ไปพบกับคอลัมน์ที่แจกข้อมูลสำหรับนำไปทดลองใช้งานจำนวน 10 ชุดแบ่งเป็น 3 หมวดคือ Image Process, NLP และ Audio/Speech Process ซึ่งเตือนไว้ก่อนว่าข้อมูลบางชุดจะใหญ่เกิน 1 TB ทีเดียว

credit : Analyticsvidhya.com

1.Image Processing

  • MNIST (งานวิจัย) : ข้อมูลลายมือตัวเลข มีข้อมูลสำหรับเรียนรู้ 60,000 ตัว และทดสอบ 10,000 ตัว (ดาวน์โหลด dataset ขนาด 50MB)
  • MS-COCO (งานวิจัย) : ข้อมูลทำ Object Detection  จากคนกว่า 250,000 คนและ Object กว่า 80 ประเภท (ดาวน์โหลด dataset ขนาด 25 GB)
credit : Analyticsvidhya.com
  • ImageNet (งานวิจัย) : ข้อมูลรูปที่ถูกจัดลำดับแล้วโดย WordNet มีรูปกว่า 1,500,000 รูป (ดาวน์โหลด dataset ขนาด 150 GB)
  • Open Images Dataset (งานวิจัย) : รูปภาพทดสอบกว่า 9 ล้านรูป ซึ่งมีการแบ่งวัตถุออกเป็น Class กว่าพัน Class (ดาวน์โหลด dataset ขนาด 500GB )
ctedit : Analyticsvidhya

2.NLP

  • IMDB Review (งานวิจัย) : อันนี้ไม่ต้องอธิบายเยอะ รีวิวหนังเป็น Raw Text ข้อมูลเรียนรู้ 25,000 และข้อมูลทดสอบ อีก 25,000 (ดาวน์โหลด dataset ขนาด 80 MB)
  • The Wikipedia Corpus (งานวิจัย) : Text บน Wikipedia มีคำกว่า 1.9 พันล้านคำจาก 4 ล้านบทความ (ดาวน์โหลด dataset ขนาด 20 MB)
  • Machine Translation of European Languages (งานวิจัย) : ข้อมูลการแปลภาษาระหว่าง ฝรั่งเศส-อังกฤษ, สเปน-อังกฤษ, เยอรมัน-อังกฤษ, เช็ค-อังกฤษ จำนวนกว่า 30 ล้านประโยค (ดาวน์โหลด dataset ขนาด 15 GB)

3.Audio,Speech

  • Free Music Archive (งานวิจัย) : HQ Audio มี Track และ Metadata มาให้เป็น CSV เช่น ID, Title, Artist มีเพลงกว่า 1 แสนเพลง (ดาวน์โหลด dataset ขนาด 1TB)
  • Free Spoken Digit Dataset (งานวิจัย) : ข้อมูลเสียงคนพูดเลขเป็นภาษาอังกฤษ จาก 3 คนและบันทึกกว่า 1,500 ครั้ง (ดาวน์โหลด dataset ขนาด 10 MB)
  • VoxCeleb (งานวิจัย) : เสียงของดาราจำนวน 1,251 คนที่ถอดออกมาจากยูทูป ชุดข้อมูลประกอบด้วยการเปล่งเสียงกว่า 1 แสนครั้ง โดยเลือกเป็นผู้ชายประมาณ 55% จากสำเนียง อายุ และยังไม่มีความซ้ำซ้อนระหว่างชุดเรียนรู้และชุดทดสอบ (ดาวน์โหลด dataset ขนาด 150 MB)

เรายกเฉพาะตัวอย่างที่น่าสนใจประมาณ 10 ชุดข้อมูลจากทั้งหมด 25 ชุด หากสนใจเพิ่มเติมสามารถไปที่ลิ้งก์ตามด้านล่างได้ครับ

ที่มา : https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/

About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

VMware เปิดตัว VCF 9.1 ยกระดับ Private Cloud เพิ่มความคุ้มค่าและความปลอดภัย ตอบโจทย์ยุค AI

VMware ได้ประกาศเปิดตัว VMware Cloud Foundation หรือ VCF 9.1 อย่างเป็นทางการ หวังยกระดับ Private Cloud ให้เป็นแพลตฟอร์มที่บริหารจัดการได้ง่าย คุ้มค่าต่อการลงทุน และมาพร้อมกับระบบรักษาความปลอดภัยที่แข็งแกร่งตั้งแต่ระดับโครงสร้างพื้นฐาน …