OpenAI “GPT-4o” โมเดลเรือธงใหม่ เล่านิทานใส่อารมณ์ ร้องเพลง และสอนเลขได้

จากที่ Sam Altman ได้ปัดข่าวลือว่าจะ OpenAI จะเปิดตัว Search Engine แต่จะเป็นสิ่งที่เหมือนเป็นเวทมนตร์มาก ๆ ในค่ำคืนที่ผ่านมา บริษัทได้เปิดตัว “GPT-4o” โมเดลเรือธงใหม่ล่าสุดที่สามารถใส่อารมณ์ในการเล่านิทาน ร้องเพลง พร้อมกับสามารถสอนแก้ไขสมการคณิตศาสตร์ได้เหมือนคุยกับเพื่อนจริง ๆ ก็ว่าได้

บทความนี้ ทีมงานได้สรุปรายละเอียดเกี่ยวกับ GPT-4o ที่ OpenAI ได้เปิดตัวอย่างเป็นทางการเรียบร้อยมาให้แล้ว ว่าโมเดลนี้คืออะไร มีความขีดความสามารถอะไรบ้าง ที่บอกได้เลยว่า AI ที่เหมือนกับในภาพยนตร์หลาย ๆ เรื่อง อาจจะได้เห็นกันในช่วงชีวิตนี้ก็เป็นได้

ในค่ำคืนที่ผ่านมา OpenAI ได้เปิดตัวโมเดลเรือธงใหม่ล่าสุด “GPT-4o” ซึ่งย่อมาจาก “GPT-4 Omni” ที่มีขีดความสามารถในการให้เหตุผลผ่านเสียง (Audio) ภาพ (Vision) และข้อความ (Text) ได้พร้อม ๆ กันแบบ “Real-Time” 

ด้วยความสามารถดังกล่าวได้ทำให้การพูดคุยกับโมเดล AI ด้วยภาษาธรรมชาติผ่านอุปกรณ์ไม่ว่าจะเป็นโทรศัพท์สมาร์ตโฟนหรือว่าเครื่องเดสก์ท็อป ที่นอกจากจะตอบสนองได้อย่างรวดเร็วแล้ว ยังให้ความรู้สึกเหมือนพูดคุยเล่นกับเพื่อน ที่มีมุกตลก หรือว่ามีอารมณ์ขำขันในระหว่างการพูดคุยอยู่เสมออีกด้วย

โดย GPT-4o นี้เป็นโมเดลที่ทาง OpenAI ใช้วิธีการฝึกฝน (Training) โมเดลด้วยข้อมูล Text, Vision และ Audio ไปพร้อมกันแบบ End-To-End จึงทำให้ข้อมูล Input และ Output นั้นถูกประมวลผลบนโครงข่ายประสาทเทียม (Neural Network) เดียวกันหมด จึงทำให้ GPT-4o นี้เป็นโมเดล Multimodal LLM ตัวแรกของบริษัทที่สามารถจัดการข้อมูลเข้าหลากหลายรูปแบบได้อย่างรวดเร็ว

จากหน้าเว็บไซต์ของ OpenAI ที่เปิดตัว GPT-4o นั้นมีข้อมูลที่แสดงให้เห็นถึงประสิทธิภาพ (Performance) และจุดเด่นที่เหนือกว่าโมเดลก่อน ๆ ที่ปล่อยออกมา อันเป็นผลที่ทำให้ GPT-4o กลายเป็นโมเดลเรือธงของ OpenAI ณ วินาทีนี้แล้ว ได้แก่

  • Voice Mode ที่สามารถตอบสนองต่อเสียงที่เข้ามาเป็น Input ได้เร็วสุดถึง 232 มิลลิวินาที (เฉลี่ยจะอยู่ที่ 320 มิลลิวินาที) ซึ่งจะอยู่ในระดับที่พอ ๆ กับการตอบสนองในการพูดคุยกันของมนุษย์แล้ว  (ก่อนหน้านี้ Voice Mode ใช้ 3 โมเดลแยกกัน เลยทำให้มีความหน่วงมากกว่า) 
  • ประสิทธิภาพในการประมวลผลข้อความภาษาอังกฤษและการเขียนโปรแกรมเทียบเท่ากับ GPT-4 Turbo แต่ภาษาอื่น ๆ จะเหนือกว่าอย่างมีนัยสำคัญ
  • ความเร็วจะเหนือกว่า GPT-4 Turbo มาก และราคาถูกกว่าเดิมถึง 50% ผ่าน API 
  • ที่สำคัญคือความเข้าใจในภาพและเสียง ที่ดีกว่าโมเดลที่มีมาทั้งหมด

สำหรับรายละเอียดเกี่ยวกับการวัดผลของโมเดล GPT-4o สามารถดูเพิ่มเติมได้บนเว็บไซต์ OpenAI

จากเว็บไซต์ของ OpenAI จะเห็นทางบริษัทได้ทดลองสำรวจขีดความสามารถของโมเดลในหลากหลายรูปแบบมาก ๆ เช่น การสร้างภาพจากข้อความจนถึงระดับที่ทำเป็นนิทานสำหรับเด็กได้ ออกแบบตัวละคน ออกแบบฟอนต์ สร้างดีไซน์ สร้างโลโก้ สร้างวัตถุสามมิติ ฯลฯ อีกมากมาย 

หากแต่ถ้าดูในวีดีโอเปิดตัว GPT-4o และวีดีโอ Live Demo อื่น ๆ แล้วจะยิ่ง “ว้าว” กว่ามาก ๆ เพราะขีดความสามารถในการประมวลผล Text, Audio และ Vision ที่ทำได้พร้อม ๆ กันนี้เองผ่านแอปเดสก์ท็อปหรือว่าแอปบนสมาร์ตโฟน ซึ่งในวีดีโอจะเห็นว่า GPT-4o สามารถทำสิ่งเหล่านี้ได้

หยุดพูดเมื่อได้ยินเสียงคนพูดทันที

แทบทุกครั้งที่ ChatGPT กำลังพูดหรือให้คำตอบอยู่ แล้วพอมีการพูดสวนกลับไปแล้ว ChatGPT จะหยุดพูดแล้วฟังต่อทันที ซึ่งความเร็วของเวลาที่หยุดการตอบสนองแบบนี้ได้ทำให้ประสบการณ์การใช้งาน เรียกว่าเหมือนพูดคุยกับคน ๆ หนึ่งมาก ๆ 

ใส่อารมณ์ตอนเล่านิทานได้

ในช่วงหนึ่งของการสาธิตได้มีการร้องขอให้เล่านิทานให้ฟัง ซึ่งตอนแรก ChatGPT ก็เล่าเรื่องเหมือนการพูดสนทนาทั่วไป แต่พอร้องขอให้ช่วยใส่อารมณ์ในการเล่าเรื่องไปหน่อย ChatGPT ก็สามารถปรับโทนการเล่าเรื่องให้ดูน่าสนใจได้มากขึ้นจริง ๆ 

แก้ไข Math Problem

อีกหนึ่งช่วง คือการใช้ Vision เปิดกล้องแล้วพูดคุยกับ ChatGPT เพื่อแนะนำการแก้ไขสมการคณิตศาสตร์ที่อาจมองเหมือนกับว่าโมเดล AI นี้ “สามารถเข้าใจภาพได้จริง ๆ” และแม้ว่าจะเป็นเพียงสมการ 1 ตัวแปรที่อาจจะง่ายสำหรับใครหลาย ๆ แต่ถ้าหากว่าเป็นเด็กนักเรียนที่กำลังเรียนอยู่ ก็ถือได้ว่า ChatGPT กับ GPT-4o นี้เป็นตัวช่วยได้เป็นอย่างดี 

อธิบายโค้ดโปรแกรม

อีกฟีเจอร์ที่อยู่บนเครื่องเดสก์ท็อป คือสามารถอธิบายสรุปโค้ดโปรแกรมได้ว่าโค้ดที่ส่งเข้าไปให้นั้นคือกำลังทำอะไร ซึ่งสามารถเข้าถึงระดับฟังก์ชัน (Function) ของภาษา Python ได้เลย ว่าฟังก์ชันนั้นคือกำลังทำอะไรอยู่

อภิปรายกราฟ

ด้วยฟีเจอร์ Vision บนแอปในเครื่องเดสก์ท็อปที่ส่งเข้าไปใน ChatGPT ก็ทำให้ ChatGPT สามารถอภิปรายว่ากราฟนั้นเป็นอย่างไร และสามารถถามคำถามที่อยากรู้ภายในกราฟแบบง่าย ๆ ได้อย่างรวดเร็ว

พูดคุยแปลภาษาได้ทันที (Live Translation)

เรียกว่าทำได้เหมือน Google Translate แต่ดูประสบการณ์จะไหลลื่นกว่ามาก ๆ เพราะเพียงแค่หยุดพูด ก็แปลภาษาออกมาได้ทันที ซึ่งถ้าหากโมเดล AI แบบนี้มีขีดความสามารถในการแปลภาษาแบบ Real Time ได้ถูกต้องมากขึ้นเรื่อย ๆ ล่ามแปลภาษาก็อาจจะไม่ได้มีความจำเป็นอีกต่อไป และภาษาก็อาจไม่ได้เป็นข้อจำกัดในการสื่อสารในอนาคตอีกต่อไปแล้ว

จับความรู้สึกจากใบหน้าคน

อีกฟีเจอร์ Vision ที่สามารถตอบสนองได้อย่างรวดเร็วคือการจับความรู้จากใบหน้าคนผ่านกล้อง ที่อธิบายได้ชัดเจนว่าคนในภาพนั้นกำลังยิ้มอยู่และคิดว่าน่าจะมีความรู้สึกตื่นเต้น ซึ่งหากพิจารณาจากคำพูดของ ChatGPT ก็จะยิ่งรู้สึกได้ว่าเหมือนเพื่อนพูดคุยกันอยู่จริง ๆ 

ร้องเพลง Happy Birthday 

หนึ่งในวีดีโอสาธิต ให้ ChatGPT ร้องเพลงสุขสันต์วันเกิดให้เพื่อนได้ โดย ChatGPT สามารถเดาได้เลยจากบริบทว่าน่าจะเป็นวันเกิดของใครบางคนจากการเห็นเค้กและแท่งเทียน ซึ่ง ChatGPT สามารถใส่ชื่อคนเข้าไปในเพลงแล้วก็สามารถใส่ลูกเล่นในเพลงให้ดูโดดเด่นขึ้นมาได้อีกด้วย

GPT-4o นั้นเหมือนเวทมนตร์อย่างที่ Sam Altman กล่าวไว้จริง ๆ โดย GPT-4o ทาง OpenAI จะเปิดให้ใช้งานผ่าน ChatGPT เวอร์ชันฟรีได้ทุกคนในอีกไม่กี่สัปดาห์ข้างหน้านี้ และแอปเดสก์ท็อปของ ChatGPT สำหรับ MacOS นั้นสามารถใช้งานได้แล้ว ส่วน Windows จะออกมาในภายหลัง ซึ่งหากใครใช้เวอร์ชัน Plus อยู่จะมี Message Limit มากกว่าถึง 5 เท่าอีกด้วย

ทั้งนี้ จากบนเว็บไซต์ OpenAI ในส่วนความสามารถด้านข้อความและภาพนั้นได้เริ่มทยอยปล่อยออกมาใน ChatGPT ให้ใช้งานได้แล้วตั้งแต่วันนี้ ส่วน Voice Mode เวอร์ชันใหม่พร้อมกับ GPT-4o เวอร์ชัน Alpha ภายใน ChatGPT Plus นั้นจะค่อย ๆ ทยอยปล่อยออกมาในอีกไม่กี่สัปดาห์ข้างหน้าต่อไป อีกส่วนคือนักพัฒนาระบสามารถเข้าถึง API ในส่วนโมเดล Text และ Vision ได้แล้วตอนนี้ 

สุดท้ายในวีดีโอ ทางทีม OpenAI ได้มีการขอบคุณทาง NVIDIA และ Jensen Huang สำหรับอุปกรณ์ GPU ที่แรงที่สุดที่ทำให้เดโมได้สำเร็จได้วันนี้ นั่นแปลว่า NVIDIA DGX H200 ที่ส่งมอบให้ OpenAI เมื่อปลายเดือนที่แล้วนั้นคือส่วนสำคัญในการสร้างสรรค์ GPT-4o ให้ใช้งานได้ภายในค่ำคืนที่ผ่านมา

ทั้งหมดนี้คือ GPT-4o ที่ OpenAI เปิดตัวเมื่อค่ำคืนที่ผ่านมา ซึ่งทำให้ ChatGPT ได้กลายเป็น AI Assistant ที่สามารถประมวลผลภาพ ข้อความ และเสียงได้ดีขึ้นอย่างมาก และเริ่มจะเหมือนในภาพยนตร์มากขึ้นเรื่อย ๆ โดยตอนนี้การพูดกับ ChatGPT อาจจะอารมณ์เหมือนพูดกับเพื่อนคนหนึ่งแล้ว ซึ่งไม่แน่ว่าวิวัฒนาการของโมเดลที่รวดเร็วแบบนี้ อาจจะสามารภเอาไปใส่ในหุ่นยนต์ Humanoid ได้ในอีกไม่กี่ปีข้างหน้า ก็เป็นได้

สำหรับวีดีโอเปิดตัว Introducing GPT-4o และวีดีโอ Live Demo อื่น ๆ เพิ่มเติมได้ที่นี่

ที่มา: 

About chatchai

Tech Writer แห่ง TechTalk Thai ที่สนใจในทุกนวัตกรรมและเทคโนโลยี

Check Also

Salesforce เข้าซื้อกิจการ Fin มูลค่าราว 3,600 ล้านดอลลาร์ เสริมแกร่ง AI Agent งานบริการลูกค้า

Salesforce ประกาศลงนามข้อตกลงขั้นสุดท้ายเข้าซื้อกิจการ Fin ผู้ให้บริการแพลตฟอร์ม customer agent ในมูลค่าราว 3,600 ล้านดอลลาร์สหรัฐ เพื่อนำเทคโนโลยี AI Agent สำหรับงานบริการลูกค้ามาเสริมความสามารถให้กับ Agentforce

Ericsson เปิดตัวโซลูชัน AI in RAN ยกระดับ 5G ไปอีกขั้นด้วยโครงข่ายที่ฝัง AI อยู่ภายใน

Ericsson เปิดตัว AI in RAN ซอฟต์แวร์แบบ Subscription ล่าสุดที่ฝัง AI ลงในแพลตฟอร์ม Radio Access Network (RAN) โดยตรง …