Databricks เปิดตัว API สร้างข้อมูลสังเคราะห์สำหรับ AI

Databricks ได้เปิดตัว Application Programming Interface (API) ที่ช่วยให้ลูกค้าสามารถสร้างข้อมูลสังเคราะห์สำหรับโปรเจกต์แมชชีนเลิร์นนิงของตัวเองได้

Credit: Databricks

API ดังกล่าวสามารถใช้งานได้ผ่าน Mosaic AI Agent Evaluation ซึ่งเป็นเครื่องมือที่เป็นส่วนหนึ่งของชุดแพลตฟอร์มข้อมูลแบบเลกเฮาส์ (data lakehouse) โดยเครื่องมือนี้ช่วยให้นักพัฒนาสามารถเปรียบเทียบคุณภาพของผลลัพธ์ ค่าใช้จ่าย และความหน่วง (latency) ของแอปพลิเคชันปัญญาประดิษฐ์ได้ ทั้งนี้ Mosaic AI Agent Evaluation เปิดตัวครั้งแรกในเดือนมิถุนายน พร้อมกับ Mosaic AI Agent Framework ที่ช่วยลดความยุ่งยากในการนำฟีเจอร์การสร้างแบบเสริมการดึงข้อมูล (retrieval-augmented generation) มาใช้

ข้อมูลสังเคราะห์ (synthetic data) คือข้อมูลที่สร้างขึ้นด้วยปัญญาประดิษฐ์โดยมีจุดประสงค์เฉพาะสำหรับการพัฒนาเครือข่ายประสาทเทียม การสร้างชุดข้อมูลฝึกสอนด้วยวิธีนี้เร็วกว่ามากและประหยัดต้นทุนมากกว่าการรวบรวมข้อมูลเอง และ API ใหม่ของ Databricks นี้ก็ได้รับการออกแบบมาเพื่อสร้างชุดคำถามและคำตอบ ซึ่งมีประโยชน์อย่างมากในการพัฒนาแอปพลิเคชันที่ขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่

กระบวนการสร้างชุดข้อมูลด้วย API มี 3 ขั้นตอน ได้แก่

  1. นักพัฒนาต้องอัปโหลด “เฟรม” หรือชุดไฟล์ที่มีข้อมูลธุรกิจซึ่งเกี่ยวข้องกับงานที่แอปพลิเคชัน AI จะดำเนินการ เฟรมเหล่านี้ต้องอยู่ในรูปแบบที่รองรับโดย Apache Spark หรือ Pandas
  2. หลังจากอัปโหลดข้อมูลตัวอย่างแล้ว นักพัฒนาต้องระบุจำนวนคำถามและคำตอบที่ API ควรสร้างขึ้น พร้อมทั้งสามารถให้คำแนะนำเพิ่มเติมเพื่อปรับแต่งผลลัพธ์ได้ เช่น สไตล์ของคำถาม งานที่คำถามจะถูกนำไปใช้ และผู้ใช้งานเป้าหมายของแอปพลิเคชัน
  3. ข้อมูลฝึกสอนที่ไม่ถูกต้องแม่นยำอาจลดคุณภาพของผลลัพธ์ AI ได้ บริษัทต่าง ๆ จึงมักให้ผู้เชี่ยวชาญเฉพาะด้านตรวจสอบชุดข้อมูลสังเคราะห์เพื่อแก้ไขข้อผิดพลาดก่อนที่จะป้อนเข้าสู่เครือข่ายประสาทเทียม ซึ่ง Databricks ระบุว่าได้พัฒนา API ดังกล่าวมาเพื่อช่วยลดความยุ่งยากในส่วนนี้

Databricks ยังมีแผนที่จะปล่อยฟีเจอร์เพิ่มเติมสำหรับ API นี้ในต้นปีหน้า รวมถึงอินเทอร์เฟซแบบกราฟิกใหม่ที่ช่วยให้ผู้ตรวจสอบชุดข้อมูลสามารถตรวจสอบชุดคำถาม-คำตอบได้อย่างรวดเร็วและเพิ่มคำถามใหม่ตามความจำเป็น นอกจากนี้ยังมีเครื่องมือสำหรับติดตามการเปลี่ยนแปลงของชุดข้อมูลสังเคราะห์ของบริษัทในระยะยาวอีกด้วย

ที่มา: https://siliconangle.com/2024/12/09/databricks-introduces-new-api-generating-synthetic-datasets/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

[Video Webinar] พลิกโฉมการตรวจจับ ป้องกัน และตอบโต้ภัยคุกคามอย่างครบวงจรด้วย Splunk และ Cisco

สำหรับผู้ที่ไม่ได้เข้าฟังการบรรยาย Splunk & Cisco Webinar เรื่อง “พลิกโฉมการตรวจจับ ป้องกัน และตอบโต้ภัยคุกคามอย่างครบวงจรด้วย Splunk และ Cisco” ที่เพิ่งจัดไปเมื่อสัปดาห์ที่ผ่านมา หรือต้องการรับชมการบรรยายซ้ำอีกครั้ง สามารถเข้าชมวิดีโอบันทึกย้อนหลังได้ที่บทความนี้ครับ

Citrix ซื้อ Unicon เสริมความมั่นคงปลอดภัยและการจัดการอุปกรณ์ปลายทาง

Citrix Systems ซึ่งเป็นหน่วยธุรกิจของ Cloud Software Group ประกาศว่าได้เข้าซื้อกิจการ Unicon ผู้ให้บริการโซลูชัน Thin Client โดยไม่เปิดเผยมูลค่า นับเป็นการซื้อกิจการครั้งที่สามของ Citrix ในช่วงไม่นานมานี้ …