เตรียมพร้อมฐานข้อมูลต้อนรับยุคแห่ง AI ด้วย Oracle Database 23ai และ MySQL 9.0

เมื่อพูดถึงยุคแห่ง AI ในระดับองค์กร มักต้องประกอบไปด้วยหลายแง่มุม ตั้งแต่โครงสร้างพื้นฐานไอทีที่มีพลังการประมวลผลเพียงพอ ผู้เชี่ยวชาญในการตีความปัญหาทางธุรกิจและพัฒนาโมเดลให้แต่ละปัญหา แต่ท้ายที่สุดแล้วการจัดเก็บข้อมูลอย่างมีประสิทธิภาพและไม่สร้างภาระเพิ่มเติมในการดูแลก็เป็นหน้าที่หนึ่งที่ผู้นำองค์กรพึงกระทำ

โดยทั่วไปแล้วในอดีตเรารู้จักกับ Relational Database กันเป็นอย่างดี แน่นอนว่าฐานข้อมูลประเภทนี้ยังคงเป็นแกนหลักสำคัญในแอปพลิเคชันต่างๆ แต่ในยุคแห่ง AI กลับต้องการประมวลผลในรูปแบบของ Vector มากกว่า ดังนั้นจะทำอย่างไรองค์กรจึงจะปรับตัวให้สอดคล้องกับโลกที่กำลังเดินหน้าได้

ในบทความนี้เราจะมาชวนทุกท่านไปเรียนรู้ว่า Vector มีความสำคัญอย่างไรต่องาน AI และ Oracle ได้จัดเตรียมความพร้อมอะไรไว้ให้องค์กรบ้างเพื่อรับมือกับยุคแห่ง AI ที่กำลังเข้มข้นขึ้น

Relational Database เป็นฐานข้อมูลที่เก็บข้อมูลแบบ แถว x คอลัมน์ ซึ่งแสดงผลแบบตารางที่ผู้อ่านคงคุ้นเคยดีอยู่แล้ว ตั้งแต่อดีตถึงปัจจุบันฐานข้อมูลประเภทนี้ยังคงเป็นที่พึ่งพาได้เสมอมา เหมาะอย่างยิ่งกับการเก็บข้อมูลที่มี format ตายตัว มีโครงสร้าง แต่นั่นย้อนแย้งกับยุคแห่ง AI ที่ข้อมูลที่มีจำนวนมากและพุ่งทะยานเพิ่มขึ้นอย่างไม่หยุดยั้ง โดยเฉพาะข้อมูลแบบไร้โครงสร้าง (Unstructured) นั่นคือเรื่องแรกที่ Relational Database อาจไม่เหมาะสมนัก

เจาะลึกลงมาเกึ่ยวกับงานที่เกิดขึ้นจริงในสายงานของ AI ต้องเรียนให้ทราบไว้ว่า ทุกอย่างเริ่มต้นที่สมการทางคณิตศาสตร์ ซึ่งเราไม่ได้มองภาพข้อมูลเป็น ตัวอักษร รูปภาพ หรือสิ่งที่เราคุ้นชินและจับต้องได้ แต่เราได้อาศัยให้เครื่องคอมพิวเตอร์ (Machine) เรียนรู้สิ่งเหล่านั้น (Learning) เพื่อช่วยแก้ปัญหา และสิ่งที่คอมพิวเตอร์เข้าใจได้ก็คือตัวเลขนั่นเอง ซึ่งต่างกับการเก็บข้อมูลโดยทั่วไปในฐานข้อมูลแบบเดิม เช่น ข้อมูลล็อกอิน ข้อมูลบัญชีธนาคาร ข้อมูลเนื้อหาต่างๆ ที่เน้นการนำไปแสดงผล

ก่อนจะเข้าสู่เนื้อหา เราต้องตั้งต้นกันก่อนว่า “AI คือการประมวลผลจากชุดข้อมูลตัวเลข” ลบภาพข้อมูลที่เราเคยเห็นมาออกไปเสียก่อน นอกจากนี้ AI ยังเป็นหัวข้อที่กว้างขวาง มากกว่าแค่ Generative AI ซึ่งจุดที่ดีที่สุดในการเริ่มต้นเรียนรู้ก็คือการเก็บข้อมูลที่ประเภท เวกเตอร์(Vector)

เพื่อไม่สร้างความกังวลกับผู้อ่านถึงเรื่องคณิตศาสตร์ไปมากกว่านี้ ยกตัวอย่างหน้าตาของข้อมูลที่เรียกว่า Vector กันให้เห็นภาพกันเลยดีกว่า 

สมมติว่าเราต้องการเก็บข้อมูลพื้นที่ในโฉนดเราจะสามารถแทนข้อมูลใน Vector ได้ว่า [41.40338, 2.17403, 20, 35] ซึ่งมาจากไอเดียที่ว่า [พิกัดละติจูด, พิกัดลองติจูด, ความกว้าง, ความยาว] มาถึงตรงนี้แม้แต่คนที่ไม่เชี่ยวชาญด้านคณิตศาสตร์คงพอมองหาได้ไม่ยากกว่า Vector คือชุดตัวเลขที่จัดเรียงกันไปอย่างไม่จำกัด เป็นการแทนค่าคุณสมบัติที่เราสนใจ

อย่างไรก็ดีในชีวิตจริงข้อมูลส่วนใหญ่ไม่ได้อยู่ในรูปของตัวเลข ดังนั้นจึงต้องมีกระบวนการแปลงค่าข้อมูลเสียก่อนที่เรียกว่า Vector Embedding โดยไม่จำกัดว่าข้อมูลจะเป็น คำศัพท์ เสียง ภาพ ยกตัวอย่างเช่น cat = [0.2, -0.4, 0.7] และ dog = [0.6, 0.1, 0.5] ทั้งหมดนี้ก็เพื่อเตรียมการให้ข้อมูลนั้นพร้อมสำหรับคอมพิวเตอร์เรียนรู้ 

เมื่อเราแทนชุดข้อมูลด้วยการพล็อตกราฟเราจะมองเห็นความสัมพันธ์ของข้อมูลได้ชัดเจนมากขึ้น สมมติว่าเราต้องการให้คอมพิวเตอร์แบ่งแยกข้อมูลของผู้ชายและผู้หญิงจากน้ำหนักและส่วนสูง เราต้องคำนวณหาสมการคณิตศาสตร์ (เส้นสีแดง) ที่สามารถจำแนกข้อมูลออกจากกันได้ ซึ่งในกรณีที่การแบ่งแยกมีความซับซ้อนสมการก็จะซับซ้อนมากขึ้น

โดยหน้าที่ของผู้เชี่ยวชาญคือการสอนให้คอมพิวเตอร์สร้างโมเดลที่สามารถให้คำตอบของปัญหาที่สนใจได้ ซึ่งเป็นสาขาย่อยในหมวด AI ที่ลึกลงไป อย่าง Machine Learning, Regression, Neural Network, Deep Learning เป็นต้น 

นอกจากนี้การค้นหาข้อมูลในรูปแบบ Vector (Vector Search) ยังสร้างความแตกต่างกับการทำ Keyword Search อย่างมหาศาลเพราะเป็นการวัดผลได้ถึงความสัมพันธ์ อย่างการค้นหาคำว่า ‘dog’ อาจปรากฏคำว่า wolf, puppy, cat, elephant, cat ขึ้นมาร่วมด้วย เนื่องจากเป็นการคำนวณค่าระยะที่ใกล้เคียงกันของข้อมูล (ตามภาพประกอบด้านล่าง)

Credit : Oracle

ไอเดียเหล่านี้คือกลไกเบื้องหลังของงาน AI เช่น การนำไปประยุกต์ใช้กับการตรวจจับความผิดปกติ แบ่งแยกกลุ่มประเภทของข้อมูล แม้กระทั่งเรื่องของ Generative AI ก็อยู่ในหมวดสาขา Natural Language Processing (NLP) เช่นกัน 

ด้วยเหตุนี้เองข้อมูลประเภท Vector จึงถือได้ว่ามีความสำคัญกับงาน AI เป็นอย่างยิ่ง ซึ่งหากฐานข้อมูลของท่านไม่สามารถรองรับข้อมูลประเภทนี้ได้ ก็อาจต้องมองหาฐานข้อมูล Vector Database โดยเฉพาะเข้ามาทำงานร่วมกับ Relational แต่กระบวนการนี้เป็นการเพิ่มภาระให้แก่การดูแลฐานข้อมูลเพราะต้องเก็บข้อมูลไว้แยกกัน เมื่อต้องการนำข้อมูลมาออกรายงานก็ต้องไปถึงข้อมูลมาร่วมกันที่ทำให้งานยุ่งยากมากขึ้น

จะดีกว่าไหมหากฐานข้อมูลของท่านสามารถรองรับข้อมูลทั้งในรูปแบบของ Relational แบบเดิมไปพร้อมๆกับ Vector ในคราเดียว

Oracle Database ผู้นำแห่งฐานข้อมูลระดับองค์กรเวอร์ชันที่ 23ai ได้นำเสนอโอกาสแห่ง AI เข้ามาด้วยการรองรับข้อมูลประเภท Vector เอาไว้ให้ท่านแล้ว ในมุมของการทำงานท่านสามารถค้นหาข้อมูลแบบซับซ้อนร่วมกับ Relational, Text, JSON และข้อมูลประเภทอื่นได้

credit : Oracle

อย่างไรก็ดี Oracle ยังได้ให้ความสามารถในการทำงานกับ Vector ของท่านมากกว่าแค่การรองรับ Vector ด้วยการเปิดให้ท่านสามารถเลือกโมเดล Vector Embedding เข้ามาใช้งานเองได้ 

นอกจากนี้ Oracle ยังมีการทำ Vector Indexing เพื่อเพิ่มประสิทธิภาพในการค้นหาคำตอบจากข้อมูลปริมาณมหาศาลรวมถึงกำหนดความแม่นยำเป้าหมายได้เช่นกัน เพราะในโลกของความเป็นจริงในงาน AI เรามักต้องเผชิญกับข้อมูลที่มาพร้อมกันนับล้านมิติและมีจำนวนมหาศาล ดังนั้น Index จึงเข้ามาช่วยเร่งความเร็วในงานการค้นหาข้อมูลได้

กระบวนการทำงานของงาน AI โดยทั่วไป
กระบวนการทำงานของ Generative AI

การรองรับ Vector Type และความสามารถข้างต้นนี้ยังจำเป็นต่อ Generative AI เช่นกันเพราะอย่างที่กล่าวไปว่าพื้นฐานทั้งหมดของงาน AI นั้นมองข้อมูลในรูปแบบตัวเลขจากการแทนข้อมูลในรูปแบบของ Vector นั่นเอง เพียงแต่ LLM ก็คือโมเดลในภาพใหญ่ที่เรียกได้ว่ารวมความรู้ของโลกเอาไว้ แต่ถ้าอยากให้โมเดลนี้ให้คำตอบได้ตรงกับข้อมูลขององค์กรลงไปอีกก็ต้องเสริมกรรมวิธีที่เรียกว่า Retrieval Augmented Generation(RAG) หรือการปรับโมเดลให้ใช้ข้อมูลที่องค์กรมี

นอกจาก Oracle Database แล้ว MySQL เองก็เป็นโอเพ่นซอร์สที่อยู่ในความดูแลของ Oracle เช่นกัน โดยได้รับความนิยมอย่างมากในกลุ่มธุรกิจทุกอุตสาหกรรม เนื่องจาก MySQL Enterprise มี Version 8.4 ที่มี Long Term Support อย่างน้อย 8 ปี เหมาะสำหรับ Core Application ที่ต้องการความเสถียรของระบบ และเช่นกันในเวอร์ชัน 9.0 MySQL ซึ่งเป็น Innovation version ก็ได้มาพร้อมกับฟีเจอร์ใหม่หลายรายการ แต่ไฮไลต์ที่สำคัญในกลุ่มงาน AI ก็คือการรองรับ Vector Data Type นั่นเอง ซึ่งง่ายต่อการหาความสัมพันธ์ของข้อมูลระหว่าง Relational Table กับ Vector Data Type โดยไม่ต้องมี 3rd party tool ในการทำ integrate data เพื่อหาความสัมพันธ์ของข้อมูลที่ต่างชนิดกัน

SQL Statement กับการใช้งานร่วมกับ vector data type

เป็นที่ทราบดีว่าโมเดล AI มักเผชิญกับข้อมูลมหาศาล ซึ่งนอกจากเทคนิคในด้านซอฟต์แวร์ฐานข้อมูลแล้ว โครงสร้างฮาร์ดแวร์ที่ถูกคิดค้นมาเป็นพิเศษก็คือสิ่งหนึ่งที่สร้างความแตกต่างกันกับโครงการ AI ของท่านได้

ในมุมของ Oracle นอกจาก แพลตฟอร์ม ฮาร์ดแวร์ ที่ให้สมรรถนะในการรันเฉพาะ Oracle Database สูงสุด อย่าง Exadata ที่ได้รับการยอมรับจากธุรกิจทั่วโลก รวมถึงองค์กรในประเทศไทย ออราเคิลยังมีแพลตฟอร์มที่สามารถ run ได้ทั้ง Oracle Database และ MySQL สำหรับกรณีของการใช้งานขนาดไม่ใหญ่นัก เริ่มต้นได้กับ ODA โซลูชั่น ที่ 400,000 บาทต่อปี หรือขยับไปที่แพลตฟอร์ม PCA ที่สามารถทำงานรองรับงาน MySQL, งาน VM และงานแบบ Cloud Native อย่าง K8s, Container ไปพร้อมๆ กัน ในราคาเริ่มต้นที่ 7 ล้านบาทต่อปี ถือว่าเป็นเรื่องที่น่าสนใจ โดยเมื่อผสานประสิทธิภาพระหว่างฮาร์ดแวร์ที่ยอดเยี่ยมเข้ากับ Database ชั้นเลิศ เชื่อแน่ว่าโปรเจ็กต์ด้าน AI ขององค์กรต้องประสบความสำเร็จได้แน่นอน

สนใจติดต่อทีมงาน Oracle ประเทศไทยได้ที่ คุณ ตูแวนูรีซัน ต่วนกูจิ เบอร์โทร 094-864-9719 หรือ Line QR Code ด้านล่างนี้

About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

Microsoft ตั้งทีมวิศวกรรม AI ใหม่ นำโดย Jay Parikh อดีตผู้บริหารจาก Meta

Satya Nadella ประธานเจ้าหน้าที่บริหารของ Microsoft ประกาศในบันทึกถึงพนักงานว่าบริษัทกำลังก่อตั้งกลุ่มวิศวกรรมใหม่ภายใต้ชื่อ CoreAI – Platform and Tools โดยมี Jay Parikh อดีตผู้บริหารระดับสูงจาก Meta …

Amazon RDS for MariaDB พร้อมสนุน Innovation Release 11.7 ในสภาพแวดล้อม Preview

สำหรับใครที่อยากทดสอบ MariaDB ฟีเจอร์ใหม่ ๆ บน AWS ล่าสุด Amazon RDS for MariaDB ได้ประกาศพร้อมสนับสนุน MariaDB Innovation Release …