Thinking Machines เปิดตัวโมเดลใหม่สำหรับปฏิสัมพันธ์เรียลไทม์แบบมนุษย์

Thinking Machines Lab สตาร์ทอัพวิจัยปัญญาประดิษฐ์ที่ก่อตั้งโดย Mira Murati อดีตประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ OpenAI Group ต้องการก้าวข้ามยุคของการปฏิสัมพันธ์กับ AI แบบ “ผลัดกันตอบ”

Credit: Thinking Machines

บริษัทเพิ่งประกาศเปิดตัวรุ่นพรีวิวเพื่อการวิจัยสำหรับ “โมเดลปฏิสัมพันธ์” ตัวแรก ซึ่งเป็นระบบ AI แบบมัลติโมดัลประเภทใหม่ที่ออกแบบมาเพื่อหลีกเลี่ยงการหยุดชะงักที่มักเกิดขึ้นเมื่อมนุษย์สื่อสารกับระบบ AI อย่างที่ผู้ใช้ AI เป็นประจำทราบดีว่า พื้นฐานการปฏิสัมพันธ์นั้นยังไม่ราบรื่นนัก โดยผู้ใช้ต้องส่งข้อมูลเข้า เช่น ข้อความหรือรูปภาพ จากนั้นต้องรอตั้งแต่ไม่กี่มิลลิวินาทีไปจนถึงหลายนาที ขึ้นอยู่กับโมเดลที่ใช้ ก่อนจะได้รับข้อมูลตอบกลับในที่สุด

สิ่งนี้เกิดขึ้นเพราะโมเดลที่มีอยู่ในปัจจุบันจำเป็นต้องรอให้ผู้ใช้ถามคำถามหรือพูดให้จบประโยคก่อน จึงจะเริ่มประมวลผลคำตอบได้ เพื่อแก้ปัญหานี้ Thinking Machines ได้สร้างสถาปัตยกรรมโมเดลแบบใหม่ทั้งหมดที่รองรับการสื่อสารแบบ “ฟูลดูเพล็กซ์” ซึ่งหมายถึง AI ที่สามารถฟัง เห็น และพูดได้พร้อมกัน

Thinking Machines แย้งว่าการปฏิสัมพันธ์แบบผลัดกันไปมาของโมเดลในปัจจุบัน บังคับให้มนุษย์ต้อง “ปรับตัว” เข้าหาอินเทอร์เฟซ ตลอดหลายเดือนที่ผ่านมา มนุษย์เรียนรู้ที่จะตั้งคำถามให้เหมือนอีเมลและรวบรวมความคิดเป็นชุด ๆ เพราะรู้ว่า AI ที่ใช้ไม่สามารถรับมือกับการถูกแทรก หรือจัดการกับการตอบรับเล็กน้อย เช่น “อืม” หรือ “เข้าใจแล้ว” ที่มีอยู่ในการสื่อสารตามธรรมชาติของมนุษย์ได้ แต่หาก AI จะกลายเป็นผู้ร่วมงานที่เหมือนมนุษย์อย่างแท้จริงในงานที่มีความสำคัญสูง เช่น การผ่าตัดทางการแพทย์ มันต้องหาทางกำจัดความล่าช้านั้นให้ได้

คำตอบของบริษัทคือสถาปัตยกรรมโมเดลแบบใหม่ที่ละทิ้งลำดับโทเค็นแบบสลับกันมาตรฐาน แล้วหันมาใช้การออกแบบที่เน้น “ไมโครเทิร์น” แบบหลายกระแสที่มีขนาดใหญ่ขึ้น ระบบจะประมวลผลข้อมูลเข้าและออกเป็นส่วนย่อย ๆ ทุก 200 มิลลิวินาที ทำให้สามารถตอบสนองต่อสัญญาณภาพหรือเสียงที่ได้รับได้แบบเรียลไทม์ แม้ในขณะที่กำลังพูดอยู่ก็ตาม สตาร์ทอัพรายนี้กล่าวว่าสถาปัตยกรรม “โมเดลคู่” นี้ถูกออกแบบมาเพื่อสร้างสมดุลระหว่างความเร็วและการใช้เหตุผลเชิงลึก

ส่วนประกอบแรกของสถาปัตยกรรมนี้คือ TML-Interaction-Small ซึ่งเป็นโมเดล Mixture-of-Experts ขนาด 276 พันล้านพารามิเตอร์ ที่ออกแบบมาเพื่อจัดการการสนทนา การมีอยู่ และการติดตามผลในทันทีด้วยความเร็วสูง โดยทำงานคู่กับเอเจนต์แบบอซิงโครนัสที่ทำงานอยู่เบื้องหลัง ดังนั้นในขณะที่โมเดลปฏิสัมพันธ์ทำให้การสนทนาลื่นไหล โมเดลเบื้องหลังจะรับหน้าที่ดูแลงานหนักทั้งหมด ไม่ว่าจะเป็นการใช้เหตุผลที่ซับซ้อน การค้นหาเว็บ และการเรียกใช้เครื่องมือที่จำเป็น และจะส่งผลลัพธ์ไปยังโมเดลปฏิสัมพันธ์เมื่อพร้อม เพื่อนำข้อมูลเหล่านั้นมาผสมผสานเข้าในการแชตสด

ในบล็อกโพสต์ บริษัทอธิบายว่าแทนที่จะใช้ตัวเข้ารหัสภายนอก (external encoder) ขนาดใหญ่เพื่อแปลเสียงหรือวิดีโอเป็นสัญญาณที่โมเดลเข้าใจได้ บริษัทกลับใช้ “encoder-free early fusion” ที่รับสัญญาณดิบโดยตรงผ่านเลเยอร์ embedding ที่มีน้ำหนักเบา ทุกอย่างจะถูกประมวลผลอย่างรวดเร็วภายใน Transformer ซึ่งเป็นสิ่งที่ทำให้ได้เปรียบอย่างมากในเรื่องของความหน่วง

Thinking Machines อ้างว่าสถาปัตยกรรมโมเดลคู่นี้ให้ผลลัพธ์ที่น่าประทับใจ โดยในการทดสอบบน FD-bench ซึ่งเป็นเกณฑ์มาตรฐานสำหรับวัดคุณภาพการปฏิสัมพันธ์ของ AI ตัวโมเดล TML-Interaction-Small สามารถทำความหน่วงในการสลับบทสนทนาได้น้อยกว่า 0.4 วินาที ซึ่งนำหน้า Gemini-3.1-flash-live ของ Google ที่ทำได้ 0.57 วินาที และ GPT-realtime-2.0 ที่ทำได้ 1.18 วินาที อย่างเห็นได้ชัด

แม้ว่าแชตบอตที่เร็วขึ้นจะเป็นที่ชื่นชอบของคนส่วนใหญ่ แต่ผลกระทบที่สำคัญที่สุดอาจอยู่ในแอปพลิเคชันระดับองค์กร โมเดลที่มองเห็นและตอบสนองได้แบบเรียลไทม์ช่วยเปิดโอกาสความเป็นไปได้ที่ไม่มีอยู่เมื่อต้องเผชิญกับความล่าช้าของโมเดลในปัจจุบัน

ตัวอย่างเช่น โมเดลปฏิสัมพันธ์ในตัวสามารถตั้งค่าให้ตรวจสอบฟีดวิดีโอในห้องปฏิบัติการหรือโรงงานผลิต และแจ้งเตือนมนุษย์ทันทีที่เกิดการละเมิดความมั่นคงปลอดภัย แทนที่จะต้องรอให้ผู้ควบคุมเดินผ่านมาเห็นด้วยตาตนเอง ส่วนในด้านการบริการลูกค้า ความหน่วงที่ต่ำลงจะช่วยให้การโทรให้ความรู้สึกเหมือนเป็นการสนทนาจริง ๆ มากขึ้น

สิ่งที่พึงประสงค์เป็นพิเศษคือ โมเดลของ Thinking Machines มีความรู้สึกภายในเกี่ยวกับเวลา ซึ่งช่วยให้จัดการคำขอที่อ่อนไหวต่อเวลาได้ เช่น ผู้ใช้ในห้องแล็บสามารถบอกโมเดลว่า “ช่วยเตือนฉันด้วยถ้าปฏิกิริยาเคมีนี้ใช้เวลานานกว่าครั้งที่แล้ว” โดยไม่จำเป็นต้องระบุเวลาเริ่มต้นหรือสิ้นสุดในพรอมต์

Thinking Machines ระบุว่า TML-Interaction-Small และโมเดลพื้นหลังที่เป็นพันธมิตรกัน จะเปิดให้ใช้งานเฉพาะพาร์ทเนอร์บางรายในช่วงรุ่นพรีวิวเพื่อการวิจัยเท่านั้น โดยมีกำหนดจะเปิดตัวสู่สาธารณะในช่วงปลายปีนี้

ที่มา: https://siliconangle.com/2026/05/11/thinking-machines-drops-new-highly-responsive-model-designed-humanlike-interactions-real-time/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

ตลาดงานสายเทคฯ ฟื้นตัว! CompTIA เผยความต้องการพุ่งสูงสุดในรอบ 3 ปี ได้แรงหนุนจาก AI และ Cybersecurity

ภาพรวมการจ้างงานสายเทคโนโลยีในสหรัฐอเมริกากลับมาคึกคักอีกครั้งในเดือนเมษายน 2026 โดยมีการเปิดรับตำแหน่งงานสายเทคโนโลยีทะลุ 575,000 ตำแหน่ง ซึ่งถือเป็นจุดสูงสุดในรอบ 3 ปี ตามข้อมูลล่าสุดจาก CompTIA ปัจจัยหลักมาจากการที่องค์กรต่าง ๆ เริ่มเดินหน้า AI และ …

iZeno ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Microsoft Project Retirement 2026 — Your Migration Path to Jira PPM with BigPicture” [4 มิ.ย. 2569 — 10.00น.]

iZeno ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Microsoft Project Retirement 2026 — Your Migration Path to Jira PPM with BigPicture” …