Microsoft ปล่อย MS MARCO ชุด Dataset คำถามและคำตอบสำหรับฝึก AI ให้ใช้งานได้แบบฟรีๆ

Microsoft ปล่อย MS MARCO ชุด Dataset คำถามและคำตอบสำหรับฝึก AI ให้ใช้งานได้แบบฟรีๆ

MS MARCO หรือ Microsoft MAchine Reading COmprehension เป็นชุด Dataset ที่ใช้สำหรับฝึก AI ให้เข้าใจคำถามของมนุษย์ ซึ่งใน Dataset ชุดนี้ประกอบไปด้วยคำถามและคำตอบมากกว่า 100,000 รายการ โดย MS MARCO ไม่ได้นำเอาคำถามหรือคำตอบที่อยู่ใน Wikipedia หรือเว็บไซท์ทั่วไปมาสร้างเป็น Dataset แต่จะนำคำถามและคำตอบที่เกิดขึ้นจริงของมนุษย์ในทุกๆวัน เช่น ข้อมูลการค้นหาจาก Bing หรือคำถามที่มนุษย์ถาม Cortana มารวบรวมเป็น Dataset ทำให้ข้อมูลที่ได้นั้นเป็นข้อมูลจากมนุษย์จริงๆ ทำให้นักพัฒนาหรือนักวิจัยสามารถนำ MS MARCO ไปใช้ฝึก Machine Learning หรือ AI ได้ ส่งผลให้ AI ทำงานได้อย่างฉลาดและแม่นยำมากขึ้น เนื่องจากการใช้ข้อมูลที่เกิดขึ้นจริงจะช่วยให้ AI สามารถเข้าใจคำถามที่มีความซับซ้อน คำถามที่มนุษย์ใช้ถามกันจริงๆในชีวิตประจำวัน และคำถามที่มีหลายคำตอบได้

ที่ผ่านมามีหลายโครงการที่รวบรวม Dataset เพื่อใช้สำหรับฝึก AI เกิดขึ้นมากมาย เช่น โครงการ ImageNet ที่เป็นการรวมฐานข้อมูลรูปภาพจำนวนมาก เพื่อใช้ในการฝึก AI ให้เข้าใจสิ่งที่อยู่ในรูปภาพ โดย Microsoft หวังว่า MS MARCO จะสามารถดำเนินรอยตามโครงการ ImageNet ได้ ทำให้นักวิจัยสามารถสร้าง AI ที่มีความฉลาดมากกว่าในปัจจุบันได้ ปัจจุบัน Microsoft เปิดให้นักพัฒนาและนักวิจัยสามารถดาวน์โหลด MS MARCO ไปใช้งานได้แบบไม่เสียค่าใช้จ่าย

ผู้ที่สนใจสามารถอ่านรายละเอียดเพิ่มเติมได้จาก Paper : https://arxiv.org/pdf/1611.09268v1.pdf

ที่มา : http://blogs.microsoft.com/next/2016/12/16/msmarco/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้