Databricks เปิดตัว API สร้างข้อมูลสังเคราะห์สำหรับ AI

Databricks ได้เปิดตัว Application Programming Interface (API) ที่ช่วยให้ลูกค้าสามารถสร้างข้อมูลสังเคราะห์สำหรับโปรเจกต์แมชชีนเลิร์นนิงของตัวเองได้

Credit: Databricks

API ดังกล่าวสามารถใช้งานได้ผ่าน Mosaic AI Agent Evaluation ซึ่งเป็นเครื่องมือที่เป็นส่วนหนึ่งของชุดแพลตฟอร์มข้อมูลแบบเลกเฮาส์ (data lakehouse) โดยเครื่องมือนี้ช่วยให้นักพัฒนาสามารถเปรียบเทียบคุณภาพของผลลัพธ์ ค่าใช้จ่าย และความหน่วง (latency) ของแอปพลิเคชันปัญญาประดิษฐ์ได้ ทั้งนี้ Mosaic AI Agent Evaluation เปิดตัวครั้งแรกในเดือนมิถุนายน พร้อมกับ Mosaic AI Agent Framework ที่ช่วยลดความยุ่งยากในการนำฟีเจอร์การสร้างแบบเสริมการดึงข้อมูล (retrieval-augmented generation) มาใช้

ข้อมูลสังเคราะห์ (synthetic data) คือข้อมูลที่สร้างขึ้นด้วยปัญญาประดิษฐ์โดยมีจุดประสงค์เฉพาะสำหรับการพัฒนาเครือข่ายประสาทเทียม การสร้างชุดข้อมูลฝึกสอนด้วยวิธีนี้เร็วกว่ามากและประหยัดต้นทุนมากกว่าการรวบรวมข้อมูลเอง และ API ใหม่ของ Databricks นี้ก็ได้รับการออกแบบมาเพื่อสร้างชุดคำถามและคำตอบ ซึ่งมีประโยชน์อย่างมากในการพัฒนาแอปพลิเคชันที่ขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่

กระบวนการสร้างชุดข้อมูลด้วย API มี 3 ขั้นตอน ได้แก่

  1. นักพัฒนาต้องอัปโหลด “เฟรม” หรือชุดไฟล์ที่มีข้อมูลธุรกิจซึ่งเกี่ยวข้องกับงานที่แอปพลิเคชัน AI จะดำเนินการ เฟรมเหล่านี้ต้องอยู่ในรูปแบบที่รองรับโดย Apache Spark หรือ Pandas
  2. หลังจากอัปโหลดข้อมูลตัวอย่างแล้ว นักพัฒนาต้องระบุจำนวนคำถามและคำตอบที่ API ควรสร้างขึ้น พร้อมทั้งสามารถให้คำแนะนำเพิ่มเติมเพื่อปรับแต่งผลลัพธ์ได้ เช่น สไตล์ของคำถาม งานที่คำถามจะถูกนำไปใช้ และผู้ใช้งานเป้าหมายของแอปพลิเคชัน
  3. ข้อมูลฝึกสอนที่ไม่ถูกต้องแม่นยำอาจลดคุณภาพของผลลัพธ์ AI ได้ บริษัทต่าง ๆ จึงมักให้ผู้เชี่ยวชาญเฉพาะด้านตรวจสอบชุดข้อมูลสังเคราะห์เพื่อแก้ไขข้อผิดพลาดก่อนที่จะป้อนเข้าสู่เครือข่ายประสาทเทียม ซึ่ง Databricks ระบุว่าได้พัฒนา API ดังกล่าวมาเพื่อช่วยลดความยุ่งยากในส่วนนี้

Databricks ยังมีแผนที่จะปล่อยฟีเจอร์เพิ่มเติมสำหรับ API นี้ในต้นปีหน้า รวมถึงอินเทอร์เฟซแบบกราฟิกใหม่ที่ช่วยให้ผู้ตรวจสอบชุดข้อมูลสามารถตรวจสอบชุดคำถาม-คำตอบได้อย่างรวดเร็วและเพิ่มคำถามใหม่ตามความจำเป็น นอกจากนี้ยังมีเครื่องมือสำหรับติดตามการเปลี่ยนแปลงของชุดข้อมูลสังเคราะห์ของบริษัทในระยะยาวอีกด้วย

ที่มา: https://siliconangle.com/2024/12/09/databricks-introduces-new-api-generating-synthetic-datasets/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้