IBM Flashsystem

Meta เปิดตัว Spirit LM โมเดล Open Source เชื่อมโยงเสียงและข้อความให้ไร้รอยต่อมากขึ้น

ดูเหมือนว่า Meta จะอยากเปิดตัวโมเดล AI ที่ล้อไปกับเทศกาลฮาโลวีนที่กำลังจะถึงในเร็ว ๆ นี้ โดยได้เปิดตัว Meta Spirit LM โมเดล Multimodal ใหม่ให้เป็น Open Source ที่สามารถใส่อารมณ์หรือโทนเสียง ทำให้เชื่อมโยงข้อความและเสียงที่เป็น Input และ Output ได้อย่างไร้รอยต่อมากยิ่งขึ้น 

ล่าสุด Meta ได้เปิดตัว Meta Spirit LM โมเดล Multimodal ที่จะไปแข่งขันกับคู่แข่งเจ้าอื่น ๆ อย่าง GPT-4o ของ OpenAI หรือว่า EVI 2 ของ Hume หรือว่า ElevenLabs ที่มีความเชี่ยวชาญในการแปลงเสียงเป็นข้อความ (Speech-To-Text หรือ Automatic Speech Recognition หรือ ASR) และแปลงข้อความเป็นเสียง (Text-To-Speech หรือ TTS) โดยเฉพาะ

Credit : Meta Spirit LM

Meta Spirit LM นี้ถูกออกแบบและพัฒนาโดยทีม Fundamental AI Research (FAIR) แห่ง Meta ซึ่งโมเดลดังกล่าวต้องการที่จะแก้ไขข้อจำกัดที่มีอยู่ในการสังเคราะห์หรือว่าสร้างเสียงให้มีความเป็นธรรมชาติ และมีการแสดงออกในอารมณ์ที่ต้องการได้มากขึ้น ด้วยการเรียนรู้การทำ ASR, TTS และ Speech Classification ได้พร้อม ๆ กัน

โดย Meta ได้ปล่อย Spirit LM ออกมา 2 เวอร์ชัน ได้แก่

  • Spirit LM Base ที่ใช้ Token ของโฟเนติก (Phonetic) หรือการออกเสียงในการประมวลผลและสังเคราะห์เสียงพูด
  • Spirit LM Expressive ที่จะมี Token เพิ่มสำหรับเรื่องพิตช์ (Pitch) และโทน (Tonee) ที่จะให้โมเดลสามารถจับอารมณ์ เช่น ตื่นเต้นหรือว่าเศร้า เพื่อให้สะท้อนสิ่งเหล่านั้นเข้าไปในเสียงที่สังเคราะห์ขึ้นมาได้

อย่างไรก็ดี ณ วินาทีนี้โมเดล Meta Spirit LM ยังไม่ได้อนุญาตให้ใช้งานได้ในเชิงพาณิชย์ ซึ่งอนุญาตให้ทดลองนำไปใช้สำหรับงานวิจัยที่ต่อยอดจากโมเดล Open Source ดังกล่าวนี้เท่านั้น  สำหรับรายละเอียดเกี่ยวกับ Spirit LM สามารถอ่านและฟังตัวอย่างเสียงเพิ่มเติมได้ที่นี่

ที่มา: https://venturebeat.com/ai/meta-introduces-spirit-lm-open-source-model-that-combines-text-and-speech-inputs-outputs/

About chatchai

Tech Writer แห่ง TechTalk Thai ที่สนใจในทุกนวัตกรรมและเทคโนโลยี

Check Also

Xtremax Webinar: Safe and Trustworthy AI – How to Build AI That Works Responsibly

Xtremax ร่วมกับ AWS ขอเรียนเชิญผู้บริหารและผู้ปฏิบัติงานด้าน IT และเหล่า Developer เข้าร่วมงานสัมมนาออนไลน์เรื่อง “Safe and Trustworthy AI – How to …

Docker Desktop 4.43 เปิดตัวอัปเดตใหม่เสริมความสามารถ AI Model และ MCP Tools

Docker Desktop 4.43 ปรับปรุงครั้งสำคัญ ทั้ง Model Runner ที่จัดการโมเดล AI ได้ดีขึ้น, MCP Catalog ที่ใช้งานง่ายขึ้นพร้อมรองรับการส่ง MCP Server …