OpenAI “GPT-4o” โมเดลเรือธงใหม่ เล่านิทานใส่อารมณ์ ร้องเพลง และสอนเลขได้

May 14, 2024 AI, Cloud and Systems

จากที่ Sam Altman ได้ปัดข่าวลือว่าจะ OpenAI จะเปิดตัว Search Engine แต่จะเป็นสิ่งที่เหมือนเป็นเวทมนตร์มาก ๆ ในค่ำคืนที่ผ่านมา บริษัทได้เปิดตัว “GPT-4o” โมเดลเรือธงใหม่ล่าสุดที่สามารถใส่อารมณ์ในการเล่านิทาน ร้องเพลง พร้อมกับสามารถสอนแก้ไขสมการคณิตศาสตร์ได้เหมือนคุยกับเพื่อนจริง ๆ ก็ว่าได้

บทความนี้ ทีมงานได้สรุปรายละเอียดเกี่ยวกับ GPT-4o ที่ OpenAI ได้เปิดตัวอย่างเป็นทางการเรียบร้อยมาให้แล้ว ว่าโมเดลนี้คืออะไร มีความขีดความสามารถอะไรบ้าง ที่บอกได้เลยว่า AI ที่เหมือนกับในภาพยนตร์หลาย ๆ เรื่อง อาจจะได้เห็นกันในช่วงชีวิตนี้ก็เป็นได้

OpenAI เปิดตัว GPT-4o

ในค่ำคืนที่ผ่านมา OpenAI ได้เปิดตัวโมเดลเรือธงใหม่ล่าสุด “GPT-4o” ซึ่งย่อมาจาก “GPT-4 Omni” ที่มีขีดความสามารถในการให้เหตุผลผ่านเสียง (Audio) ภาพ (Vision) และข้อความ (Text) ได้พร้อม ๆ กันแบบ “Real-Time”

ด้วยความสามารถดังกล่าวได้ทำให้การพูดคุยกับโมเดล AI ด้วยภาษาธรรมชาติผ่านอุปกรณ์ไม่ว่าจะเป็นโทรศัพท์สมาร์ตโฟนหรือว่าเครื่องเดสก์ท็อป ที่นอกจากจะตอบสนองได้อย่างรวดเร็วแล้ว ยังให้ความรู้สึกเหมือนพูดคุยเล่นกับเพื่อน ที่มีมุกตลก หรือว่ามีอารมณ์ขำขันในระหว่างการพูดคุยอยู่เสมออีกด้วย

โดย GPT-4o นี้เป็นโมเดลที่ทาง OpenAI ใช้วิธีการฝึกฝน (Training) โมเดลด้วยข้อมูล Text, Vision และ Audio ไปพร้อมกันแบบ End-To-End จึงทำให้ข้อมูล Input และ Output นั้นถูกประมวลผลบนโครงข่ายประสาทเทียม (Neural Network) เดียวกันหมด จึงทำให้ GPT-4o นี้เป็นโมเดล Multimodal LLM ตัวแรกของบริษัทที่สามารถจัดการข้อมูลเข้าหลากหลายรูปแบบได้อย่างรวดเร็ว

ประสิทธิภาพของ GPT-4o

จากหน้าเว็บไซต์ของ OpenAI ที่เปิดตัว GPT-4o นั้นมีข้อมูลที่แสดงให้เห็นถึงประสิทธิภาพ (Performance) และจุดเด่นที่เหนือกว่าโมเดลก่อน ๆ ที่ปล่อยออกมา อันเป็นผลที่ทำให้ GPT-4o กลายเป็นโมเดลเรือธงของ OpenAI ณ วินาทีนี้แล้ว ได้แก่

Voice Mode ที่สามารถตอบสนองต่อเสียงที่เข้ามาเป็น Input ได้เร็วสุดถึง 232 มิลลิวินาที (เฉลี่ยจะอยู่ที่ 320 มิลลิวินาที) ซึ่งจะอยู่ในระดับที่พอ ๆ กับการตอบสนองในการพูดคุยกันของมนุษย์แล้ว (ก่อนหน้านี้ Voice Mode ใช้ 3 โมเดลแยกกัน เลยทำให้มีความหน่วงมากกว่า)
ประสิทธิภาพในการประมวลผลข้อความภาษาอังกฤษและการเขียนโปรแกรมเทียบเท่ากับ GPT-4 Turbo แต่ภาษาอื่น ๆ จะเหนือกว่าอย่างมีนัยสำคัญ
ความเร็วจะเหนือกว่า GPT-4 Turbo มาก และราคาถูกกว่าเดิมถึง 50% ผ่าน API
ที่สำคัญคือความเข้าใจในภาพและเสียง ที่ดีกว่าโมเดลที่มีมาทั้งหมด

สำหรับรายละเอียดเกี่ยวกับการวัดผลของโมเดล GPT-4o สามารถดูเพิ่มเติมได้บนเว็บไซต์ OpenAI

ขีดความสามารถของ GPT-4o

จากเว็บไซต์ของ OpenAI จะเห็นทางบริษัทได้ทดลองสำรวจขีดความสามารถของโมเดลในหลากหลายรูปแบบมาก ๆ เช่น การสร้างภาพจากข้อความจนถึงระดับที่ทำเป็นนิทานสำหรับเด็กได้ ออกแบบตัวละคน ออกแบบฟอนต์ สร้างดีไซน์ สร้างโลโก้ สร้างวัตถุสามมิติ ฯลฯ อีกมากมาย

หากแต่ถ้าดูในวีดีโอเปิดตัว GPT-4o และวีดีโอ Live Demo อื่น ๆ แล้วจะยิ่ง “ว้าว” กว่ามาก ๆ เพราะขีดความสามารถในการประมวลผล Text, Audio และ Vision ที่ทำได้พร้อม ๆ กันนี้เองผ่านแอปเดสก์ท็อปหรือว่าแอปบนสมาร์ตโฟน ซึ่งในวีดีโอจะเห็นว่า GPT-4o สามารถทำสิ่งเหล่านี้ได้

หยุดพูดเมื่อได้ยินเสียงคนพูดทันที

แทบทุกครั้งที่ ChatGPT กำลังพูดหรือให้คำตอบอยู่ แล้วพอมีการพูดสวนกลับไปแล้ว ChatGPT จะหยุดพูดแล้วฟังต่อทันที ซึ่งความเร็วของเวลาที่หยุดการตอบสนองแบบนี้ได้ทำให้ประสบการณ์การใช้งาน เรียกว่าเหมือนพูดคุยกับคน ๆ หนึ่งมาก ๆ

ใส่อารมณ์ตอนเล่านิทานได้

ในช่วงหนึ่งของการสาธิตได้มีการร้องขอให้เล่านิทานให้ฟัง ซึ่งตอนแรก ChatGPT ก็เล่าเรื่องเหมือนการพูดสนทนาทั่วไป แต่พอร้องขอให้ช่วยใส่อารมณ์ในการเล่าเรื่องไปหน่อย ChatGPT ก็สามารถปรับโทนการเล่าเรื่องให้ดูน่าสนใจได้มากขึ้นจริง ๆ

แก้ไข Math Problem

อีกหนึ่งช่วง คือการใช้ Vision เปิดกล้องแล้วพูดคุยกับ ChatGPT เพื่อแนะนำการแก้ไขสมการคณิตศาสตร์ที่อาจมองเหมือนกับว่าโมเดล AI นี้ “สามารถเข้าใจภาพได้จริง ๆ” และแม้ว่าจะเป็นเพียงสมการ 1 ตัวแปรที่อาจจะง่ายสำหรับใครหลาย ๆ แต่ถ้าหากว่าเป็นเด็กนักเรียนที่กำลังเรียนอยู่ ก็ถือได้ว่า ChatGPT กับ GPT-4o นี้เป็นตัวช่วยได้เป็นอย่างดี

อธิบายโค้ดโปรแกรม

อีกฟีเจอร์ที่อยู่บนเครื่องเดสก์ท็อป คือสามารถอธิบายสรุปโค้ดโปรแกรมได้ว่าโค้ดที่ส่งเข้าไปให้นั้นคือกำลังทำอะไร ซึ่งสามารถเข้าถึงระดับฟังก์ชัน (Function) ของภาษา Python ได้เลย ว่าฟังก์ชันนั้นคือกำลังทำอะไรอยู่

อภิปรายกราฟ

ด้วยฟีเจอร์ Vision บนแอปในเครื่องเดสก์ท็อปที่ส่งเข้าไปใน ChatGPT ก็ทำให้ ChatGPT สามารถอภิปรายว่ากราฟนั้นเป็นอย่างไร และสามารถถามคำถามที่อยากรู้ภายในกราฟแบบง่าย ๆ ได้อย่างรวดเร็ว

พูดคุยแปลภาษาได้ทันที (Live Translation)

เรียกว่าทำได้เหมือน Google Translate แต่ดูประสบการณ์จะไหลลื่นกว่ามาก ๆ เพราะเพียงแค่หยุดพูด ก็แปลภาษาออกมาได้ทันที ซึ่งถ้าหากโมเดล AI แบบนี้มีขีดความสามารถในการแปลภาษาแบบ Real Time ได้ถูกต้องมากขึ้นเรื่อย ๆ ล่ามแปลภาษาก็อาจจะไม่ได้มีความจำเป็นอีกต่อไป และภาษาก็อาจไม่ได้เป็นข้อจำกัดในการสื่อสารในอนาคตอีกต่อไปแล้ว

จับความรู้สึกจากใบหน้าคน

อีกฟีเจอร์ Vision ที่สามารถตอบสนองได้อย่างรวดเร็วคือการจับความรู้จากใบหน้าคนผ่านกล้อง ที่อธิบายได้ชัดเจนว่าคนในภาพนั้นกำลังยิ้มอยู่และคิดว่าน่าจะมีความรู้สึกตื่นเต้น ซึ่งหากพิจารณาจากคำพูดของ ChatGPT ก็จะยิ่งรู้สึกได้ว่าเหมือนเพื่อนพูดคุยกันอยู่จริง ๆ

ร้องเพลง Happy Birthday

หนึ่งในวีดีโอสาธิต ให้ ChatGPT ร้องเพลงสุขสันต์วันเกิดให้เพื่อนได้ โดย ChatGPT สามารถเดาได้เลยจากบริบทว่าน่าจะเป็นวันเกิดของใครบางคนจากการเห็นเค้กและแท่งเทียน ซึ่ง ChatGPT สามารถใส่ชื่อคนเข้าไปในเพลงแล้วก็สามารถใส่ลูกเล่นในเพลงให้ดูโดดเด่นขึ้นมาได้อีกด้วย

เตรียมใช้งาน GPT-4o ผ่าน ChatGPT ได้ในอีกไม่กี่สัปดาห์ข้างหน้านี้

GPT-4o นั้นเหมือนเวทมนตร์อย่างที่ Sam Altman กล่าวไว้จริง ๆ โดย GPT-4o ทาง OpenAI จะเปิดให้ใช้งานผ่าน ChatGPT เวอร์ชันฟรีได้ทุกคนในอีกไม่กี่สัปดาห์ข้างหน้านี้ และแอปเดสก์ท็อปของ ChatGPT สำหรับ MacOS นั้นสามารถใช้งานได้แล้ว ส่วน Windows จะออกมาในภายหลัง ซึ่งหากใครใช้เวอร์ชัน Plus อยู่จะมี Message Limit มากกว่าถึง 5 เท่าอีกด้วย

ทั้งนี้ จากบนเว็บไซต์ OpenAI ในส่วนความสามารถด้านข้อความและภาพนั้นได้เริ่มทยอยปล่อยออกมาใน ChatGPT ให้ใช้งานได้แล้วตั้งแต่วันนี้ ส่วน Voice Mode เวอร์ชันใหม่พร้อมกับ GPT-4o เวอร์ชัน Alpha ภายใน ChatGPT Plus นั้นจะค่อย ๆ ทยอยปล่อยออกมาในอีกไม่กี่สัปดาห์ข้างหน้าต่อไป อีกส่วนคือนักพัฒนาระบสามารถเข้าถึง API ในส่วนโมเดล Text และ Vision ได้แล้วตอนนี้

สุดท้ายในวีดีโอ ทางทีม OpenAI ได้มีการขอบคุณทาง NVIDIA และ Jensen Huang สำหรับอุปกรณ์ GPU ที่แรงที่สุดที่ทำให้เดโมได้สำเร็จได้วันนี้ นั่นแปลว่า NVIDIA DGX H200 ที่ส่งมอบให้ OpenAI เมื่อปลายเดือนที่แล้วนั้นคือส่วนสำคัญในการสร้างสรรค์ GPT-4o ให้ใช้งานได้ภายในค่ำคืนที่ผ่านมา

บทส่งท้าย

ทั้งหมดนี้คือ GPT-4o ที่ OpenAI เปิดตัวเมื่อค่ำคืนที่ผ่านมา ซึ่งทำให้ ChatGPT ได้กลายเป็น AI Assistant ที่สามารถประมวลผลภาพ ข้อความ และเสียงได้ดีขึ้นอย่างมาก และเริ่มจะเหมือนในภาพยนตร์มากขึ้นเรื่อย ๆ โดยตอนนี้การพูดกับ ChatGPT อาจจะอารมณ์เหมือนพูดกับเพื่อนคนหนึ่งแล้ว ซึ่งไม่แน่ว่าวิวัฒนาการของโมเดลที่รวดเร็วแบบนี้ อาจจะสามารภเอาไปใส่ในหุ่นยนต์ Humanoid ได้ในอีกไม่กี่ปีข้างหน้า ก็เป็นได้

สำหรับวีดีโอเปิดตัว Introducing GPT-4o และวีดีโอ Live Demo อื่น ๆ เพิ่มเติมได้ที่นี่

ที่มา:

Tags gpt-4o LLM Multimodal openai

About chatchai

Tech Writer แห่ง TechTalk Thai ที่สนใจในทุกนวัตกรรมและเทคโนโลยี

Check Also

ADVICE ผนึกพันธมิตรเทคโนโลยีระดับโลก ปั้น “Advice Business Solutions”ชูบทบาท AI Integrator รุกตลาด B2B เต็มรูปแบบ [PR]

บริษัท แอดไวซ์ ไอที อินฟินิท จำกัด (มหาชน) หรือ ADVICE ผู้นำธุรกิจค้าปลีกและบริการด้านเทคโนโลยีแบบครบวงจร (IT Ecosystem) เดินหน้าขับเคลื่อนกลยุทธ์ธุรกิจในช่วงครึ่งปีหลัง ขยายบทบาทสู่ตลาดลูกค้าองค์กร (B2B) อย่างเต็มรูปแบบ …

บริษัท ลีโอกัส จำกัด สร้างปรากฏการณ์พลิกโฉมองค์กร เปิดตัว AILEO “Human Digital™” นิยามใหม่ของ AI สำหรับธุรกิจ [PR]

โลกธุรกิจกำลังก้าวผ่านขีดจำกัดเดิมของการใช้เทคโนโลยีปัญญาประดิษฐ์ (AI) ตลอดหลายปีที่ผ่านมา แม้ AI จะเข้ามามีบทบาทสำคัญในการเพิ่มความเร็วในการทำงาน แต่สำหรับองค์กรส่วนใหญ่ นวัตกรรมเหล่านี้ยังถูกจำกัดกรอบเป็นเพียง ‘เครื่องมือ’ หรือผู้ช่วยตอบคำถามเบื้องต้นที่ไร้ชีวิตชีวา ไม่ได้เป็นส่วนหนึ่งของการดำเนินธุรกิจอย่างแท้จริง ในขณะที่พฤติกรรมของผู้บริโภคยุคใหม่เรียกร้องการตอบสนองที่รวดเร็วตลอด 24 ชั่วโมง องค์กรระดับ …

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

OpenAI “GPT-4o” โมเดลเรือธงใหม่ เล่านิทานใส่อารมณ์ ร้องเพลง และสอนเลขได้

OpenAI เปิดตัว GPT-4o

ประสิทธิภาพของ GPT-4o