Tag Archives: benchmark

OpenAI เปิดตัว GPT-5.5 ฉลาดขึ้นและประหยัด Token มากขึ้น

OpenAI เปิดตัว GPT-5.5 โมเดล AI รุ่นใหม่ที่มีประสิทธิภาพสูงสุดของบริษัท โดดเด่นด้านการเขียนโค้ดแบบ Agentic, งานความรู้ และงานวิจัย พร้อมประสิทธิภาพการใช้ Token ที่ดีขึ้นอย่างมากเมื่อเทียบกับ GPT-5.4

Read More »

Cursor เปิดตัวโมเดล Composer 2 สำหรับงานเขียนโค้ด ท้าชน Claude Opus 4.6

Cursor เปิดตัว Composer 2 โมเดล AI ที่ออกแบบมาเพื่อการเขียนโค้ดโดยเฉพาะ โดยระบุว่ามีประสิทธิภาพเหนือกว่า Claude Opus 4.6 ในงาน Programming หลายด้าน

Read More »

OpenAI เปิดตัว GPT-5.4 โมเดล AI สำหรับงานระดับมืออาชีพพร้อมความสามารถควบคุมคอมพิวเตอร์

OpenAI เปิดตัว GPT-5.4 โมเดล AI รุ่นใหม่ล่าสุดที่รวมความสามารถด้าน Reasoning, Coding และ Computer Use เข้าด้วยกัน พร้อมเปิดให้บริการแล้วทั้งบน ChatGPT, API และ Codex

Read More »

Google เปิดตัว Gemini 3.1 Pro โมเดล AI รุ่นใหม่ เน้นความสามารถด้าน Reasoning และการแก้ปัญหาซับซ้อน

Google เปิดตัว Gemini 3.1 Pro โมเดล AI ระดับสูงสุดรุ่นล่าสุดที่มุ่งเน้นการปรับปรุงด้าน reasoning และการแก้ปัญหาซับซ้อน พร้อมทำคะแนน benchmark ที่สูงขึ้นอย่างมากในหลายรายการ

Read More »

Anthropic เปิดตัว Claude Sonnet 4.6 ยกระดับ Coding และ Computer Use เทียบชั้นรุ่น Opus

Anthropic เปิดตัว Claude Sonnet 4.6 โมเดล AI รุ่นใหม่ที่ปรับปรุงความสามารถครบทุกด้านทั้ง coding, computer use, long-context reasoning และ agent planning พร้อม context window ขนาด 1 ล้าน tokens

Read More »

OpenAI เปิดตัว GPT-5.3-Codex โมเดล Coding Agent ใหม่ เร็วขึ้น 25% พร้อมทำงานระดับมืออาชีพ

OpenAI เปิดตัว GPT-5.3-Codex โมเดล AI สำหรับ coding agent รุ่นใหม่ล่าสุดที่รวมความสามารถด้าน coding จาก GPT-5.2-Codex และด้าน reasoning จาก GPT-5.2 เข้าไว้ด้วยกัน โดยทำงานเร็วขึ้น 25% และเป็นโมเดลแรกที่มีส่วนช่วยในการพัฒนาตัวเองระหว่างกระบวนการ training

Read More »

Anthropic เปิดตัว Claude Opus 4.6 โมเดล AI ใหม่ มาพร้อม Context Window 1 ล้าน Tokens

Anthropic เปิดตัว Claude Opus 4.6 โมเดล AI รุ่นใหม่ที่ได้รับการปรับปรุงด้านการเขียนโค้ด การวางแผน และการทำงานแบบ agentic พร้อมรองรับ context window ขนาด 1 ล้าน tokens เป็นครั้งแรกในโมเดลระดับ Opus

Read More »

Anthropic เปิดตัว Claude Opus 4.5 โมเดล AI เรือธงรุ่นใหม่ เก่งงาน Agent และเขียนโค้ดดีขึ้น

Anthropic เปิดตัว Claude Opus 4.5 Large Language Model เรือธงรุ่นใหม่ที่บริษัทระบุว่าเป็นโมเดลที่มีความสามารถสูงสุดและปลอดภัยที่สุดเท่าที่เคยพัฒนามา โดยเฉพาะความสามารถด้าน AI Agent ที่ดีกว่าคู่แข่งอย่างชัดเจน

Read More »

AMDเผยผลการทดสอบเบนช์มาร์ก ด้านการฝึกอบรม AI ใหม่ล่าสุด รวมถึงการใช้กราฟิกการ์ด ซีรีส์ AMD Instinct MI350 สำหรับการฝึกอบรม AI เป็นครั้งแรก [PR]

ผลการทดสอบเบนช์มาร์กเผยให้เห็นว่ากราฟิกการ์ดซีรีส์ AMD Instinct MI350 มอบประสิทธิภาพการประมวลผลที่เพิ่มขึ้นอย่างก้าวกระโดด (significant generational performance gains) แสดงให้เห็นประสิทธิภาพที่สูงขึ้นอย่างน่าประทับใจถึง 2.9 เท่า ในการทดสอบ Llama 2-70B เมื่อเทียบกับรุ่นก่อนหน้า

Read More »

Google เปิดตัว Gemini 2.5 Computer Use Model ควบคุมหน้าจอผ่าน AI

Google ประกาศเปิดตัว Gemini 2.5 Computer Use Model ผ่าน API ให้นักพัฒนาสร้าง AI Agent ที่สามารถโต้ตอบกับ User Interface ได้โดยตรง มีประสิทธิภาพเหนือกว่าคู่แข่งในการควบคุม Browser และ Mobile พร้อม Latency ที่ต่ำกว่า

Read More »

งานวิจัยเผย LLM รุ่นใหม่ คะแนนวัดผลเขียนโค้ดสูงขึ้น แต่ก็สร้างบั๊กร้ายแรงขึ้น

รายงานใหม่จากสตาร์ทอัพด้านการทดสอบคุณภาพโค้ด SonarSource เตือนว่า แม้โมเดลภาษาขนาดใหญ่รุ่นล่าสุดจะมีความสามารถมากขึ้นในการทำคะแนนผ่านการทดสอบวัดความสามารถด้านการเขียนโค้ด ทว่าในขณะเดียวกันกลับสร้างบั๊กและช่องโหว่ความมั่นคงปลอดภัยที่ร้ายแรงมากขึ้น

Read More »

Google เคลม LLM เบอร์ 1 แต่ Benchmark ไม่ได้เป็นทุกอย่างในการตัดสิน

แม้ว่าโมเดลจะมีประสิทธิภาพที่ดี แต่เรื่อง Responsible AI ก็เป็นสิ่งที่สำคัญมาก ล่าสุด Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบใหม่ล่าสุดในชื่อ “Gemini-Exp-1114” ที่ Benchmark แล้วได้คะแนนทะยานขึ้นเป็นอันดับที่ 1 แต่อาจจะไม่สามารถนำมาใช้งานได้จริง

Read More »

Microsoft เปิดตัว Windows Agent Arena หนุนวัดผล Generative AI Agent 

Generative AI หรือ LLM ได้เป็นกระแสมาสักพักใหญ่แล้วและกำลังเริ่มเห็นการใช้งานโมเดลในวงกว้างมากยิ่งขึ้นเรื่อย ๆ การวัดประสิทธิภาพของโมเดลจึงเป็นอีกสิ่งที่สำคัญ และ Microsoft Research ก็ได้ออกมาสนับสนุนสิ่งนี้เพิ่มเติมด้วย Windows Agent Arena

Read More »

ผลการทดสอบพบ Clear Linux มีประสิทธิภาพการทำงานดีกว่า Ubuntu

เว็บไซต์ Phoronix เผยผลทดสอบความสำคัญของการทำ Software Optimization บน Xeon “Ice Lake” พบว่าระบบปฏิบัติการ Clear Linux ทำความเร็วได้ดีกว่า Ubuntu

Read More »

GIGABYTE ทุบแหลก สร้าง 8 สถิติโลกใหม่ไปกับ AMD EPYC™ 7002 Processor Systems (ROME)

GIGABYTE หนึ่งในผู้ผลิตเซิร์ฟเวอร์และพัฒนาแพลตฟอร์มชั้นนำที่เพิ่งเปิดตัวแพลตฟอร์มใหม่ไป 17 รุ่นพร้อมกับ AMD อย่างเป็นทางการ  สำหรับ CPU “ROME” AMD EPYC™ 7002  ระบบใหม่ของ GIGABYTE ได้ทำลายสถิติโลกของ SPEC® ถึง 8 รายการ จากสถิติโลกใหม่เหล่านี้ GIGABYTE ไม่เพียงแค่ประสบความสำเร็จในการเอาชนะผลลัพธ์ที่ได้จากระบบที่ใช้โปรเซสเซอร์ทางเลือกอื่นๆ แต่ยังเทียบกับโซลูชั่นของผู้จำหน่ายคู่แข่งที่ใช้ โปรเซสเซอร์ AMD EPYC™ 7002 ซีรีส์เดียวกัน แสดงให้เห็นว่าการออกแบบระบบและระบบวิศวกรรมของ GIGABYTE เหมาะสมและสามารถมอบประสิทธิภาพและประสิทธิผลสูงสุดให้ AMD EPYC™ รุ่นที่ 2 นี้

Read More »

ผลการทดสอบ TPCx-BigBench ชี้ Dell EMC ขึ้นแท่นอันดับ 1 ด้านความคุ้มค่าสูงสุดสำหรับโซลูชัน Hadoop

Dell EMC ได้ผ่านการทดสอบ TPCx-BigBench (TPCx-BB) เพื่อทดสอบประสิทธิภาพการทำงานรองรับโซลูชัน Hadoop และได้กลายเป็นอันดับ 1 ของการทดสอบนี้ในแง่ของ Price/Performance ไปเป็นที่เรียบร้อย

Read More »

Cisco UCS ทุบสถิติ 6 Benchmarks ด้วยชิพประมวลผล Intel Xeon Processor E7-8800 v4 รุ่นล่าสุด

Cisco ผู้ให้บริการโซลูชันระบบเครือข่ายและระบบ Cloud แบบครบวงจร ประกาศเปิดตัว Intel Xeon Processor E7-8800 v4 Family บน Cisco Unified Computing System (Cisco UCS) พร้อมประกาศทุบสถิติขึ้นอันดับ 1 ของ Benchmark ชื่อดังถึง 6 รายการ

Read More »