Databricks เปิดตัว API สร้างข้อมูลสังเคราะห์สำหรับ AI

Databricks ได้เปิดตัว Application Programming Interface (API) ที่ช่วยให้ลูกค้าสามารถสร้างข้อมูลสังเคราะห์สำหรับโปรเจกต์แมชชีนเลิร์นนิงของตัวเองได้

Credit: Databricks

API ดังกล่าวสามารถใช้งานได้ผ่าน Mosaic AI Agent Evaluation ซึ่งเป็นเครื่องมือที่เป็นส่วนหนึ่งของชุดแพลตฟอร์มข้อมูลแบบเลกเฮาส์ (data lakehouse) โดยเครื่องมือนี้ช่วยให้นักพัฒนาสามารถเปรียบเทียบคุณภาพของผลลัพธ์ ค่าใช้จ่าย และความหน่วง (latency) ของแอปพลิเคชันปัญญาประดิษฐ์ได้ ทั้งนี้ Mosaic AI Agent Evaluation เปิดตัวครั้งแรกในเดือนมิถุนายน พร้อมกับ Mosaic AI Agent Framework ที่ช่วยลดความยุ่งยากในการนำฟีเจอร์การสร้างแบบเสริมการดึงข้อมูล (retrieval-augmented generation) มาใช้

ข้อมูลสังเคราะห์ (synthetic data) คือข้อมูลที่สร้างขึ้นด้วยปัญญาประดิษฐ์โดยมีจุดประสงค์เฉพาะสำหรับการพัฒนาเครือข่ายประสาทเทียม การสร้างชุดข้อมูลฝึกสอนด้วยวิธีนี้เร็วกว่ามากและประหยัดต้นทุนมากกว่าการรวบรวมข้อมูลเอง และ API ใหม่ของ Databricks นี้ก็ได้รับการออกแบบมาเพื่อสร้างชุดคำถามและคำตอบ ซึ่งมีประโยชน์อย่างมากในการพัฒนาแอปพลิเคชันที่ขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่

กระบวนการสร้างชุดข้อมูลด้วย API มี 3 ขั้นตอน ได้แก่

  1. นักพัฒนาต้องอัปโหลด “เฟรม” หรือชุดไฟล์ที่มีข้อมูลธุรกิจซึ่งเกี่ยวข้องกับงานที่แอปพลิเคชัน AI จะดำเนินการ เฟรมเหล่านี้ต้องอยู่ในรูปแบบที่รองรับโดย Apache Spark หรือ Pandas
  2. หลังจากอัปโหลดข้อมูลตัวอย่างแล้ว นักพัฒนาต้องระบุจำนวนคำถามและคำตอบที่ API ควรสร้างขึ้น พร้อมทั้งสามารถให้คำแนะนำเพิ่มเติมเพื่อปรับแต่งผลลัพธ์ได้ เช่น สไตล์ของคำถาม งานที่คำถามจะถูกนำไปใช้ และผู้ใช้งานเป้าหมายของแอปพลิเคชัน
  3. ข้อมูลฝึกสอนที่ไม่ถูกต้องแม่นยำอาจลดคุณภาพของผลลัพธ์ AI ได้ บริษัทต่าง ๆ จึงมักให้ผู้เชี่ยวชาญเฉพาะด้านตรวจสอบชุดข้อมูลสังเคราะห์เพื่อแก้ไขข้อผิดพลาดก่อนที่จะป้อนเข้าสู่เครือข่ายประสาทเทียม ซึ่ง Databricks ระบุว่าได้พัฒนา API ดังกล่าวมาเพื่อช่วยลดความยุ่งยากในส่วนนี้

Databricks ยังมีแผนที่จะปล่อยฟีเจอร์เพิ่มเติมสำหรับ API นี้ในต้นปีหน้า รวมถึงอินเทอร์เฟซแบบกราฟิกใหม่ที่ช่วยให้ผู้ตรวจสอบชุดข้อมูลสามารถตรวจสอบชุดคำถาม-คำตอบได้อย่างรวดเร็วและเพิ่มคำถามใหม่ตามความจำเป็น นอกจากนี้ยังมีเครื่องมือสำหรับติดตามการเปลี่ยนแปลงของชุดข้อมูลสังเคราะห์ของบริษัทในระยะยาวอีกด้วย

ที่มา: https://siliconangle.com/2024/12/09/databricks-introduces-new-api-generating-synthetic-datasets/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Salesforce เข้าซื้อกิจการ Fin มูลค่าราว 3,600 ล้านดอลลาร์ เสริมแกร่ง AI Agent งานบริการลูกค้า

Salesforce ประกาศลงนามข้อตกลงขั้นสุดท้ายเข้าซื้อกิจการ Fin ผู้ให้บริการแพลตฟอร์ม customer agent ในมูลค่าราว 3,600 ล้านดอลลาร์สหรัฐ เพื่อนำเทคโนโลยี AI Agent สำหรับงานบริการลูกค้ามาเสริมความสามารถให้กับ Agentforce

Cisco ออกแพตช์แก้ช่องโหว่ Zero-day บน Catalyst SD-WAN Manager ที่ถูกใช้โจมตียกระดับสิทธิ์เป็น root

Cisco ปล่อยอัปเดตด้านความปลอดภัยแก้ช่องโหว่บน Catalyst SD-WAN Manager (เดิมคือ SD-WAN vManage) หลังพบว่าถูกใช้โจมตีจริงในลักษณะ Zero-day เพื่อยกระดับสิทธิ์เป็น root บนระบบที่ได้รับผลกระทบ