Breaking News
AMR | Sophos Webinar

แจก 10 Dataset สำหรับ Deep Learning

สำหรับผู้สนใจการทำ Deep Learning ซึ่งวันนี้เราได้ไปพบกับคอลัมน์ที่แจกข้อมูลสำหรับนำไปทดลองใช้งานจำนวน 10 ชุดแบ่งเป็น 3 หมวดคือ Image Process, NLP และ Audio/Speech Process ซึ่งเตือนไว้ก่อนว่าข้อมูลบางชุดจะใหญ่เกิน 1 TB ทีเดียว

credit : Analyticsvidhya.com

1.Image Processing

  • MNIST (งานวิจัย) : ข้อมูลลายมือตัวเลข มีข้อมูลสำหรับเรียนรู้ 60,000 ตัว และทดสอบ 10,000 ตัว (ดาวน์โหลด dataset ขนาด 50MB)
  • MS-COCO (งานวิจัย) : ข้อมูลทำ Object Detection  จากคนกว่า 250,000 คนและ Object กว่า 80 ประเภท (ดาวน์โหลด dataset ขนาด 25 GB)
credit : Analyticsvidhya.com
  • ImageNet (งานวิจัย) : ข้อมูลรูปที่ถูกจัดลำดับแล้วโดย WordNet มีรูปกว่า 1,500,000 รูป (ดาวน์โหลด dataset ขนาด 150 GB)
  • Open Images Dataset (งานวิจัย) : รูปภาพทดสอบกว่า 9 ล้านรูป ซึ่งมีการแบ่งวัตถุออกเป็น Class กว่าพัน Class (ดาวน์โหลด dataset ขนาด 500GB )
ctedit : Analyticsvidhya

2.NLP

  • IMDB Review (งานวิจัย) : อันนี้ไม่ต้องอธิบายเยอะ รีวิวหนังเป็น Raw Text ข้อมูลเรียนรู้ 25,000 และข้อมูลทดสอบ อีก 25,000 (ดาวน์โหลด dataset ขนาด 80 MB)
  • The Wikipedia Corpus (งานวิจัย) : Text บน Wikipedia มีคำกว่า 1.9 พันล้านคำจาก 4 ล้านบทความ (ดาวน์โหลด dataset ขนาด 20 MB)
  • Machine Translation of European Languages (งานวิจัย) : ข้อมูลการแปลภาษาระหว่าง ฝรั่งเศส-อังกฤษ, สเปน-อังกฤษ, เยอรมัน-อังกฤษ, เช็ค-อังกฤษ จำนวนกว่า 30 ล้านประโยค (ดาวน์โหลด dataset ขนาด 15 GB)

3.Audio,Speech

  • Free Music Archive (งานวิจัย) : HQ Audio มี Track และ Metadata มาให้เป็น CSV เช่น ID, Title, Artist มีเพลงกว่า 1 แสนเพลง (ดาวน์โหลด dataset ขนาด 1TB)
  • Free Spoken Digit Dataset (งานวิจัย) : ข้อมูลเสียงคนพูดเลขเป็นภาษาอังกฤษ จาก 3 คนและบันทึกกว่า 1,500 ครั้ง (ดาวน์โหลด dataset ขนาด 10 MB)
  • VoxCeleb (งานวิจัย) : เสียงของดาราจำนวน 1,251 คนที่ถอดออกมาจากยูทูป ชุดข้อมูลประกอบด้วยการเปล่งเสียงกว่า 1 แสนครั้ง โดยเลือกเป็นผู้ชายประมาณ 55% จากสำเนียง อายุ และยังไม่มีความซ้ำซ้อนระหว่างชุดเรียนรู้และชุดทดสอบ (ดาวน์โหลด dataset ขนาด 150 MB)

เรายกเฉพาะตัวอย่างที่น่าสนใจประมาณ 10 ชุดข้อมูลจากทั้งหมด 25 ชุด หากสนใจเพิ่มเติมสามารถไปที่ลิ้งก์ตามด้านล่างได้ครับ

ที่มา : https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/



About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

Leadership Vision: AI for Business in the New Normal บทสัมภาษณ์คุณปฐมา จันทรักษ์ IBM Thailand

ท่ามกลางวิกฤตโรคระบาดที่กำลังเป็นปัญหาอยู่ทั่วโลกนี้ AI จะเข้ามาช่วยบรรเทาสถานการณ์ได้อย่างไร? และภาคธุรกิจจะคว้าโอกาสใหม่ๆ ด้วย AI ได้อย่างไรบ้าง? มาพบกับคำตอบของคำถามเหล่านี้ได้ในบทความ "TechTalkThai Vision: AI for Business in the New Normal" บทสัมภาษณ์คุณปฐมา จันทรักษ์ รองประธานด้านการขยายธุรกิจในกลุ่มประเทศอินโดจีน และกรรมการผู้จัดการใหญ่ ไอบีเอ็ม ประเทศไทย

[Guest Post] เริ่มต้น DevOps ด้วย Atlassian Cloud

คู่มือเพื่อเริ่มต้นเรียนรู้ความสามารถของ Atlassian Cloud