Databricks ได้เปิดตัว Application Programming Interface (API) ที่ช่วยให้ลูกค้าสามารถสร้างข้อมูลสังเคราะห์สำหรับโปรเจกต์แมชชีนเลิร์นนิงของตัวเองได้
API ดังกล่าวสามารถใช้งานได้ผ่าน Mosaic AI Agent Evaluation ซึ่งเป็นเครื่องมือที่เป็นส่วนหนึ่งของชุดแพลตฟอร์มข้อมูลแบบเลกเฮาส์ (data lakehouse) โดยเครื่องมือนี้ช่วยให้นักพัฒนาสามารถเปรียบเทียบคุณภาพของผลลัพธ์ ค่าใช้จ่าย และความหน่วง (latency) ของแอปพลิเคชันปัญญาประดิษฐ์ได้ ทั้งนี้ Mosaic AI Agent Evaluation เปิดตัวครั้งแรกในเดือนมิถุนายน พร้อมกับ Mosaic AI Agent Framework ที่ช่วยลดความยุ่งยากในการนำฟีเจอร์การสร้างแบบเสริมการดึงข้อมูล (retrieval-augmented generation) มาใช้
ข้อมูลสังเคราะห์ (synthetic data) คือข้อมูลที่สร้างขึ้นด้วยปัญญาประดิษฐ์โดยมีจุดประสงค์เฉพาะสำหรับการพัฒนาเครือข่ายประสาทเทียม การสร้างชุดข้อมูลฝึกสอนด้วยวิธีนี้เร็วกว่ามากและประหยัดต้นทุนมากกว่าการรวบรวมข้อมูลเอง และ API ใหม่ของ Databricks นี้ก็ได้รับการออกแบบมาเพื่อสร้างชุดคำถามและคำตอบ ซึ่งมีประโยชน์อย่างมากในการพัฒนาแอปพลิเคชันที่ขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่
กระบวนการสร้างชุดข้อมูลด้วย API มี 3 ขั้นตอน ได้แก่
- นักพัฒนาต้องอัปโหลด “เฟรม” หรือชุดไฟล์ที่มีข้อมูลธุรกิจซึ่งเกี่ยวข้องกับงานที่แอปพลิเคชัน AI จะดำเนินการ เฟรมเหล่านี้ต้องอยู่ในรูปแบบที่รองรับโดย Apache Spark หรือ Pandas
- หลังจากอัปโหลดข้อมูลตัวอย่างแล้ว นักพัฒนาต้องระบุจำนวนคำถามและคำตอบที่ API ควรสร้างขึ้น พร้อมทั้งสามารถให้คำแนะนำเพิ่มเติมเพื่อปรับแต่งผลลัพธ์ได้ เช่น สไตล์ของคำถาม งานที่คำถามจะถูกนำไปใช้ และผู้ใช้งานเป้าหมายของแอปพลิเคชัน
- ข้อมูลฝึกสอนที่ไม่ถูกต้องแม่นยำอาจลดคุณภาพของผลลัพธ์ AI ได้ บริษัทต่าง ๆ จึงมักให้ผู้เชี่ยวชาญเฉพาะด้านตรวจสอบชุดข้อมูลสังเคราะห์เพื่อแก้ไขข้อผิดพลาดก่อนที่จะป้อนเข้าสู่เครือข่ายประสาทเทียม ซึ่ง Databricks ระบุว่าได้พัฒนา API ดังกล่าวมาเพื่อช่วยลดความยุ่งยากในส่วนนี้
Databricks ยังมีแผนที่จะปล่อยฟีเจอร์เพิ่มเติมสำหรับ API นี้ในต้นปีหน้า รวมถึงอินเทอร์เฟซแบบกราฟิกใหม่ที่ช่วยให้ผู้ตรวจสอบชุดข้อมูลสามารถตรวจสอบชุดคำถาม-คำตอบได้อย่างรวดเร็วและเพิ่มคำถามใหม่ตามความจำเป็น นอกจากนี้ยังมีเครื่องมือสำหรับติดตามการเปลี่ยนแปลงของชุดข้อมูลสังเคราะห์ของบริษัทในระยะยาวอีกด้วย
ที่มา: https://siliconangle.com/2024/12/09/databricks-introduces-new-api-generating-synthetic-datasets/