หลังจากที่มีการตรวจพบว่า Dataset รูปภาพสำหรับใช้ในการ Train AI เพื่อจำแนกบุคคลหรือวัตถุของ MIT นั้นมีการใช้ถ้อยคำที่หยาบคายและเหยียดผู้คนอยู่ ทาง MIT ก็นำข้อมูลเหล่านั้นออกไม่ให้มีการเข้าถึงได้ พร้อมกล่าวขอโทษต่อสาธารณะ และแจ้งให้นักวิจัยและนักพัฒนาซอฟต์แวร์เลิกใช้ข้อมูลชุดนั้น รวมถึงขอร้องให้ทำการลบข้อมูลออกไปด้วย
Dataset ที่เป็นปัญหานี้มีชื่อว่า 80 Million Tiny Images ที่ได้รวมเอารูปภาพขนาดเล็กจำนวนกว่า 79,300,000 ภาพที่นำมาจาก Google Images ตั้งแต่ปี 2008 พร้อมทำการ Label ข้อมูลเหล่านั้นเอาไว้เรียบร้อยเพื่อให้สามารถนำไปใช้ในงานวิจัยด้าน Image Recognition กันได้ง่ายๆ รวมถึงยังมีกรนำข้อมูลเหล่นี้มาใช้เพื่อ Benchmark การทำ Computer Vision อีกด้วย
การค้นพบถึงปัญหาภายใน Dataset ครั้งนี้เกิดขึ้นเมื่อ Vinay Prabhu ผู้ดำรงตำแหน่ง Chief Data Scientist แห่ง UnifyID และ Abeba Birhane ที่กำลังศึกษาอยู่ ณ University College Dublin ใน Ireland ได้ออกมาเผยถึงการค้นพบว่ามีการ Label ข้อมูลอย่างไม่เหมาะสม ทั้งการใช้คำเหยียดชาติพันธุ์กับคนผิวดำหรือคนเอเชีย และการใช้คำที่หยาบคายกับภาพของผู้หญิงและอวัยวะส่วนต่างๆ
ข้อมูลเหล่านี้ถูกลบออกจากเว็บ CSAIL ของ MIT ทันทีเมื่อมีการตรวจพบปัญหานี้ และทาง MIT ก็ออกมาขอโทษอย่างเป็นทางการต่อกรณีที่เกิดขึ้นนี้ โดยภาพและข้อมูล Label ที่ได้มาเกิดจากการรวบรวมข้อมูลบน Internet โดยอัตโนมัติและไม่ได้มีทีมงานเข้าไปทำการคัดกรองเนื่องจากภาพมีขนาดเล็กเกินไปรวมถึงยังมีจำนวนมหาศาลเกือบ 80 ล้านรูป ความผิดพลาดจึงเกิดขึ้นในครั้งนี้
ที่มา: https://www.theregister.com/2020/07/01/mit_dataset_removed/