Google ใช้ AI ช่วยในการแบ่งแยกเสียงจากฝูงชน

นักวิจัยจาก Google ได้ใช้เทคโนโลยี Deep learning เพื่อแยกเสียงจากข้อมูล Audio ที่ถูกบันทึกในสภาพแวดล้อมที่มีมวลชนจำนวนมาก โดยระบบที่พัฒนาขึ้นเทียบเคียงได้กับความสามารถของสมอง หรือ ‘Cocktail party’ ที่แยกแยะและโฟกัสไปยังเสียงที่สนใจ 1 หรือมากกว่าในฝูงชนได้

credit: Bleepingcomputer

ระบบถูกออกแบบมาให้ทำงานกับข้อมูล Audio และวีดีโอพร้อมๆ กัน โดยอาศัยข้อมูลจากวีดีโอคุณภาพสูงของการพูดหรือการเรียนบน Youtube จำนวนกว่า 1 แสนวีดีโอ ทุกการพูดเกิดจากผู้พูดเพียงคนเดียวซึ่งทีมงานได้เทรนให้ AI จดจำเสียงตามการขยับริมฝีปากหรือปาก หลังจากนั้นนักวิจัยได้ขยายการทดลองโดยมีผู้พูดหลายคนและไม่มีพื้นฐานเกี่ยวกับเสียงนั้นมาก่อนเพื่อจำลองเหตุการณ์คล้ายกับความสามารถของสมอง ผลลัพธ์คือระบบสามารถแยกแยะเสียงที่มีผู้พูดหลายคนได้ อย่างไรก็ตามข้อจำกัดคือต้องปรากฏหน้าผู้พูดบนหน้าจอด้วยเพื่อให้ AI ทำงานเชื่อมโยงเสียงกับผู้พูดและจัดลำดับสิ่งที่ได้ยินได้

Google มีแผนที่จะนำเทคโนโลยีนี้ไปใช้กับผลิตภัณฑ์ของตน เช่น Assistant/Smart Speaker หรือการแสดงบทพูดแบบทันทีบน Google Glasses สำหรับผู้พิการหูหนวก หรือ การระบบแสดงบทพูดบน Youtube และ การแสดงบทพูดในซอฟต์แวร์จัดประชุมผ่านวีดีโอ นอกจากนี้ในสถานการณ์ของกล้องวงจรปิดที่บันทึกไว้ก็สามารถประยุกต์ใช้เพื่อช่วยเจ้าหน้าที่แยกแยะเสียงของบุคคลที่สนใจออกจากการรบกวนต่างๆ

ผู้สนใจสามารถติดตามเพิ่มเติมได้ที่  “Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation.” หรือชมวีดีโอตามด้านล่าง

ที่มา : https://www.bleepingcomputer.com/news/technology/google-develops-ai-that-can-separate-voices-in-a-crowd/


About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

เปิดตัว Infortrend EonServ 7000 ระบบ VMS Server บันทึกภาพจากล้องวงจรปิดได้ 570 Channel พร้อมๆ กัน

Infortrend Technology ผู้ผลิตระบบ Enterprise Storage ชั้นนำ ได้ออกมาประกาศเปิดตัว Infortrend EonServ 7000 ระบบ Server สำหรับ Video Management Software (VMS) ที่ผ่านการรับรองจาก Milestone ว่าสามารถทำการบันทึกภาพจากกล้องวงจรปิดได้พร้อมกันสูงสุดถึง 570 Channel

เปิดตัว Fujitsu PRIMEFLEX for VMware vSAN ระบบ HCI ที่รองรับ SAP HANA ได้

Fujitsu ได้ออกมาประกาศเปิดตัวโซลูชัน้ PRIMEFLEX for VMware vSAN ระบบ Hyper-Converged Infrastructure (HCI) ที่รองรับการใช้งาน SAP HANA แบบ Virtualized ได้