Microsoft ปล่อย MS MARCO ชุด Dataset คำถามและคำตอบสำหรับฝึก AI ให้ใช้งานได้แบบฟรีๆ
MS MARCO หรือ Microsoft MAchine Reading COmprehension เป็นชุด Dataset ที่ใช้สำหรับฝึก AI ให้เข้าใจคำถามของมนุษย์ ซึ่งใน Dataset ชุดนี้ประกอบไปด้วยคำถามและคำตอบมากกว่า 100,000 รายการ โดย MS MARCO ไม่ได้นำเอาคำถามหรือคำตอบที่อยู่ใน Wikipedia หรือเว็บไซท์ทั่วไปมาสร้างเป็น Dataset แต่จะนำคำถามและคำตอบที่เกิดขึ้นจริงของมนุษย์ในทุกๆวัน เช่น ข้อมูลการค้นหาจาก Bing หรือคำถามที่มนุษย์ถาม Cortana มารวบรวมเป็น Dataset ทำให้ข้อมูลที่ได้นั้นเป็นข้อมูลจากมนุษย์จริงๆ ทำให้นักพัฒนาหรือนักวิจัยสามารถนำ MS MARCO ไปใช้ฝึก Machine Learning หรือ AI ได้ ส่งผลให้ AI ทำงานได้อย่างฉลาดและแม่นยำมากขึ้น เนื่องจากการใช้ข้อมูลที่เกิดขึ้นจริงจะช่วยให้ AI สามารถเข้าใจคำถามที่มีความซับซ้อน คำถามที่มนุษย์ใช้ถามกันจริงๆในชีวิตประจำวัน และคำถามที่มีหลายคำตอบได้
ที่ผ่านมามีหลายโครงการที่รวบรวม Dataset เพื่อใช้สำหรับฝึก AI เกิดขึ้นมากมาย เช่น โครงการ ImageNet ที่เป็นการรวมฐานข้อมูลรูปภาพจำนวนมาก เพื่อใช้ในการฝึก AI ให้เข้าใจสิ่งที่อยู่ในรูปภาพ โดย Microsoft หวังว่า MS MARCO จะสามารถดำเนินรอยตามโครงการ ImageNet ได้ ทำให้นักวิจัยสามารถสร้าง AI ที่มีความฉลาดมากกว่าในปัจจุบันได้ ปัจจุบัน Microsoft เปิดให้นักพัฒนาและนักวิจัยสามารถดาวน์โหลด MS MARCO ไปใช้งานได้แบบไม่เสียค่าใช้จ่าย
ผู้ที่สนใจสามารถอ่านรายละเอียดเพิ่มเติมได้จาก Paper : https://arxiv.org/pdf/1611.09268v1.pdf
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย







