Breaking News

นักวิจัยพัฒนา AI สำหรับอ่านปาก แม่นยำถึง 93.4%

ทีมนักวิจัยจาก University of Oxford ได้ประสบความสำเร็จในการพัฒนาเทคโนโลยีการอ่านปากด้วย Deep Learning ด้วยความแม่นยำที่สูงถึง 93.4% ต่างจากความแม่นยำของมนุษย์ที่มีเพียง 52.3% เท่านั้น

oxford_university_lipnet

โครงการนี้เริ่มต้นโดยการนำข้อมูลจาก GRID http://scitation.aip.org/content/asa/journal/jasa/120/5/10.1121/1.2229005 ซึ่งได้รวบรวมวิดีโอการพูดประโยคความยาว 3 วินาทีที่ฟังไม่เข้าใจนับหมื่นรูปแบบจากอาสาสมัคร 34 คนเอาไว้พร้อมคำบรรยายประกอบ โดยแต่ละประโยคนั้นจะประกอบไปด้วย คำสั่ง สี คำบุพบท ตัวอักษร ตัวเลข และคำขยายกิริยา

ปัจจุบันความแม่นยำระดับนี้ยังคงทำได้เฉพาะกับข้อมูลจำกัดเหล่านี้เท่านั้น แต่ทีมวิจัยก็มองในแง่ดีว่าถึงแม้จะมีข้อมูลจำกัดระบบ AI ก็ยังสามารถเรียนรู้ได้ดี หากมีข้อมูลมากกว่านี้ระบบ AI จะต้องแม่นำยิ่งขึ้นกว่าเดิมแน่นอน

เทคโนโลยีนี้มีความเป็นไปได้ที่จะถูกนำไปใช้ผู้ที่บกพร่องทางการฟังให้สามารถทราบได้ว่าคู่สนทนากำลังพูดถึงเรื่องอะไรอยู่ในที่ที่มีเสียงดัง

สำหรับความเป็นไปได้ที่ความสามารถนี้จะถูกนำไปรวมอยู่บนอุปกรณ์ CCTV เพื่อตรวจสอบว่าใครพูดอะไรกันบ้างนั้นถือว่ายังต่ำอยู่ เพราะเทคโนโลยีนี้จำเป็นต้องเห็นลิ้นของผู้พูดด้วย ทำให้ต้องอาศัยกล้องคุณภาพดีและถ่ายจากหน้าตรงเท่านั้น ซึ่งถ้าหากจะทำถึงระดับนั้นการติดตั้งไมโครโฟนก็ดูจะเป็นทางออกที่ง่ายกว่าในการดักฟัง

ผู้ที่สนใจสามารถอ่านงานวิจัยฉบับเต็มได้ที่ http://www.oxml.co.uk/publications/2016-Assael_Shillingford_LipNet.pdf เลยนะครับ

ที่มา: http://www.theverge.com/2016/11/7/13551210/ai-deep-learning-lip-reading-accuracy-oxford


About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

Salesforce ประกาศใช้ Azure ขยายฐานการให้บริการ Marketing Cloud

เมื่อวานนี้ Salesforce ผู้นำตลาด Cloud CRM ได้ประกาศว่ากำลังจะใช้ Azure เพื่อให้บริการ Marketing Cloud

[Guest Post] Planetcomm ผู้เชี่ยวชาญระบบประชุมทางไกล

เทคโนโลยีการติดต่อสื่อสารระบบวิดีโอคอนเฟอเรนซ์ (Video Conference) หรือการประชุมทางไกลด้วยภาพและเสียง ถือเป็นหนึ่งในเครื่องมือสำคัญ ที่ช่วยเพิ่มประสิทธิภาพการดำเนินงานและลดค่าใช้จ่ายขององค์กรในยุคดิจิทัลได้เป็นอย่างดี