IBM Flashsystem

Databricks เปิดตัว API สร้างข้อมูลสังเคราะห์สำหรับ AI

Databricks ได้เปิดตัว Application Programming Interface (API) ที่ช่วยให้ลูกค้าสามารถสร้างข้อมูลสังเคราะห์สำหรับโปรเจกต์แมชชีนเลิร์นนิงของตัวเองได้

Credit: Databricks

API ดังกล่าวสามารถใช้งานได้ผ่าน Mosaic AI Agent Evaluation ซึ่งเป็นเครื่องมือที่เป็นส่วนหนึ่งของชุดแพลตฟอร์มข้อมูลแบบเลกเฮาส์ (data lakehouse) โดยเครื่องมือนี้ช่วยให้นักพัฒนาสามารถเปรียบเทียบคุณภาพของผลลัพธ์ ค่าใช้จ่าย และความหน่วง (latency) ของแอปพลิเคชันปัญญาประดิษฐ์ได้ ทั้งนี้ Mosaic AI Agent Evaluation เปิดตัวครั้งแรกในเดือนมิถุนายน พร้อมกับ Mosaic AI Agent Framework ที่ช่วยลดความยุ่งยากในการนำฟีเจอร์การสร้างแบบเสริมการดึงข้อมูล (retrieval-augmented generation) มาใช้

ข้อมูลสังเคราะห์ (synthetic data) คือข้อมูลที่สร้างขึ้นด้วยปัญญาประดิษฐ์โดยมีจุดประสงค์เฉพาะสำหรับการพัฒนาเครือข่ายประสาทเทียม การสร้างชุดข้อมูลฝึกสอนด้วยวิธีนี้เร็วกว่ามากและประหยัดต้นทุนมากกว่าการรวบรวมข้อมูลเอง และ API ใหม่ของ Databricks นี้ก็ได้รับการออกแบบมาเพื่อสร้างชุดคำถามและคำตอบ ซึ่งมีประโยชน์อย่างมากในการพัฒนาแอปพลิเคชันที่ขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่

กระบวนการสร้างชุดข้อมูลด้วย API มี 3 ขั้นตอน ได้แก่

  1. นักพัฒนาต้องอัปโหลด “เฟรม” หรือชุดไฟล์ที่มีข้อมูลธุรกิจซึ่งเกี่ยวข้องกับงานที่แอปพลิเคชัน AI จะดำเนินการ เฟรมเหล่านี้ต้องอยู่ในรูปแบบที่รองรับโดย Apache Spark หรือ Pandas
  2. หลังจากอัปโหลดข้อมูลตัวอย่างแล้ว นักพัฒนาต้องระบุจำนวนคำถามและคำตอบที่ API ควรสร้างขึ้น พร้อมทั้งสามารถให้คำแนะนำเพิ่มเติมเพื่อปรับแต่งผลลัพธ์ได้ เช่น สไตล์ของคำถาม งานที่คำถามจะถูกนำไปใช้ และผู้ใช้งานเป้าหมายของแอปพลิเคชัน
  3. ข้อมูลฝึกสอนที่ไม่ถูกต้องแม่นยำอาจลดคุณภาพของผลลัพธ์ AI ได้ บริษัทต่าง ๆ จึงมักให้ผู้เชี่ยวชาญเฉพาะด้านตรวจสอบชุดข้อมูลสังเคราะห์เพื่อแก้ไขข้อผิดพลาดก่อนที่จะป้อนเข้าสู่เครือข่ายประสาทเทียม ซึ่ง Databricks ระบุว่าได้พัฒนา API ดังกล่าวมาเพื่อช่วยลดความยุ่งยากในส่วนนี้

Databricks ยังมีแผนที่จะปล่อยฟีเจอร์เพิ่มเติมสำหรับ API นี้ในต้นปีหน้า รวมถึงอินเทอร์เฟซแบบกราฟิกใหม่ที่ช่วยให้ผู้ตรวจสอบชุดข้อมูลสามารถตรวจสอบชุดคำถาม-คำตอบได้อย่างรวดเร็วและเพิ่มคำถามใหม่ตามความจำเป็น นอกจากนี้ยังมีเครื่องมือสำหรับติดตามการเปลี่ยนแปลงของชุดข้อมูลสังเคราะห์ของบริษัทในระยะยาวอีกด้วย

ที่มา: https://siliconangle.com/2024/12/09/databricks-introduces-new-api-generating-synthetic-datasets/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

ปลดล็อกทุกขีดจำกัดของข้อมูล Hybrid Multicloud ด้วยสถาปัตยกรรมใหม่จาก Nutanix AOS

แผนของ Hybrid Multicloud ในทางปฏิบัตินั้นยังมีความท้าทายอยู่ไม่น้อย ในประเด็นด้านการบูรณาการของเครื่องมือและข้อมูล โดยการออกแบบแอปพลิเคชันสมัยใหม่ควรให้ความสำคัญในเรื่องของ Cloud native ที่ถูกบริหารจัดการด้วย Kubernetes แต่ในชีวิตจริงการย้ายข้อมูลข้ามไปยังคลาวด์หรือ On-premise ไม่ใช่เรื่องที่ง่ายเช่นนั้น เพราะขาดซึ่งแพลตฟอร์มข้อมูลกลางที่ยึดโยงข้อมูลเข้ากับแอปพลิเคชันอย่างแท้จริง นั่นจึงนำไปสู่การเปิดตัวสถาปัตยกรรมด้านสตอเรจใหม่จาก …

ขอเชิญร่วมงานสัมมนา Microsoft Azure “Migrate to Innovate: Be AI-Ready and secure your IT foundation” [4 มิ.ย. 2568 — 9.00น.]

Metro Systems Corporation ร่วมกับ Microsoft ขอเชิญผู้สนใจเข้าร่วมงานสัมมนาในหัวข้อ “Migrate to Innovate: Be AI-Ready and secure your IT …