ADPT

แจก 10 Dataset สำหรับ Deep Learning

สำหรับผู้สนใจการทำ Deep Learning ซึ่งวันนี้เราได้ไปพบกับคอลัมน์ที่แจกข้อมูลสำหรับนำไปทดลองใช้งานจำนวน 10 ชุดแบ่งเป็น 3 หมวดคือ Image Process, NLP และ Audio/Speech Process ซึ่งเตือนไว้ก่อนว่าข้อมูลบางชุดจะใหญ่เกิน 1 TB ทีเดียว

credit : Analyticsvidhya.com

1.Image Processing

  • MNIST (งานวิจัย) : ข้อมูลลายมือตัวเลข มีข้อมูลสำหรับเรียนรู้ 60,000 ตัว และทดสอบ 10,000 ตัว (ดาวน์โหลด dataset ขนาด 50MB)
  • MS-COCO (งานวิจัย) : ข้อมูลทำ Object Detection  จากคนกว่า 250,000 คนและ Object กว่า 80 ประเภท (ดาวน์โหลด dataset ขนาด 25 GB)
credit : Analyticsvidhya.com
  • ImageNet (งานวิจัย) : ข้อมูลรูปที่ถูกจัดลำดับแล้วโดย WordNet มีรูปกว่า 1,500,000 รูป (ดาวน์โหลด dataset ขนาด 150 GB)
  • Open Images Dataset (งานวิจัย) : รูปภาพทดสอบกว่า 9 ล้านรูป ซึ่งมีการแบ่งวัตถุออกเป็น Class กว่าพัน Class (ดาวน์โหลด dataset ขนาด 500GB )
ctedit : Analyticsvidhya

2.NLP

  • IMDB Review (งานวิจัย) : อันนี้ไม่ต้องอธิบายเยอะ รีวิวหนังเป็น Raw Text ข้อมูลเรียนรู้ 25,000 และข้อมูลทดสอบ อีก 25,000 (ดาวน์โหลด dataset ขนาด 80 MB)
  • The Wikipedia Corpus (งานวิจัย) : Text บน Wikipedia มีคำกว่า 1.9 พันล้านคำจาก 4 ล้านบทความ (ดาวน์โหลด dataset ขนาด 20 MB)
  • Machine Translation of European Languages (งานวิจัย) : ข้อมูลการแปลภาษาระหว่าง ฝรั่งเศส-อังกฤษ, สเปน-อังกฤษ, เยอรมัน-อังกฤษ, เช็ค-อังกฤษ จำนวนกว่า 30 ล้านประโยค (ดาวน์โหลด dataset ขนาด 15 GB)

3.Audio,Speech

  • Free Music Archive (งานวิจัย) : HQ Audio มี Track และ Metadata มาให้เป็น CSV เช่น ID, Title, Artist มีเพลงกว่า 1 แสนเพลง (ดาวน์โหลด dataset ขนาด 1TB)
  • Free Spoken Digit Dataset (งานวิจัย) : ข้อมูลเสียงคนพูดเลขเป็นภาษาอังกฤษ จาก 3 คนและบันทึกกว่า 1,500 ครั้ง (ดาวน์โหลด dataset ขนาด 10 MB)
  • VoxCeleb (งานวิจัย) : เสียงของดาราจำนวน 1,251 คนที่ถอดออกมาจากยูทูป ชุดข้อมูลประกอบด้วยการเปล่งเสียงกว่า 1 แสนครั้ง โดยเลือกเป็นผู้ชายประมาณ 55% จากสำเนียง อายุ และยังไม่มีความซ้ำซ้อนระหว่างชุดเรียนรู้และชุดทดสอบ (ดาวน์โหลด dataset ขนาด 150 MB)

เรายกเฉพาะตัวอย่างที่น่าสนใจประมาณ 10 ชุดข้อมูลจากทั้งหมด 25 ชุด หากสนใจเพิ่มเติมสามารถไปที่ลิ้งก์ตามด้านล่างได้ครับ

ที่มา : https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/


About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

[Guest Post] HPE GreenLake เปิดตัวผลิตภัณฑ์ใหม่ ภายในงาน HPE Discover 2021

ที่งาน HPE Discover 2021 เมื่อวันที่ 23-25  มิถุนายนที่ผ่านมา HPE GreenLake ได้มีการเปิดตัวผลิตภัณฑ์ใหม่มากมาย หนึ่งในนั้นคือ HPE GreenLake Lighthouse และ Project Aurora เพื่อเป็นการตอกย้ำวิสัยทัศน์และทิศทางของบริษัทที่จะเป็น Edge-to-Cloud Platform as-a-Service

F5 Webinar: ความปลอดภัยที่ควรคำนึงเมื่อต้องใช้งาน Modern Application

F5 ขอเรียนเชิญผู้บริหารและผู้ปฏิบัติงานด้าน IT เข้าร่วมการบรรยาย F5 Webinar เรื่อง “ความปลอดภัยที่ควรคำนึงเมื่อต้องใช้งาน Modern Application” พร้อมเรียนรู้ Case Study จากผู้ที่นำเอา Microservices …