ในงาน IBM ASEAN Connect 2017 ทางทีมงาน TechTalkThai มีโอกาสได้สัมภาษณ์กับทางคุณ Craig McKenna ผู้ดำรงตำแหน่ง Director ของ Cloud & Cognitive Data Solutions แห่ง IBM Systems ในประเด็นเกี่ยวกับ IT Infrastructure เป็นหลัก ซึ่งครอบคลุมถึงอนาคตของเทคโนโลยี Flash และ Storage สำหรับองค์กร ซึ่งครอบคลุมถึงทั้งสถาปัตยกรรมที่จะมาในอนาคตสำหรับ Flash, อนาคตของ Tape, การรองรับ Big Data Analytics ไปจนถึงการออกแบบระบบ Storage สำหรับ Blockchain ในกรณีที่ต้องการทำ On-premises จึงขอนำมาสรุปเอาไว้ให้ได้อ่านกันดังนี้
ทำไม IBM ถึงเลือกที่จะพัฒนาผลิตภัณฑ์หลาย Line ในกลุ่มของ Storage?
ปัจจุบัน IBM นี้มี Product Portfolio ที่หลากหลายมากสำหรับระบบ Storage เนื่องจาก IBM นั้นมีความเชื่อว่าเทคโนโลยีของ Storage นั้นไม่สามารถออกแบบให้ระบบเดียวสามารถรองรับ Workload ได้ครบทุกแบบอย่างมีประสิทธิภาพ และเทคโนโลยีเดียวกันบน Hardware ที่ต่างกันก็รองรับ Workload ได้ต่างกันแล้ว ทำให้ IBM มีการแบ่งผลิตภัณฑ์ทางด้านระบบ Storage ที่หลากหลายมาก ทั้งการแบ่งตาม Software ของระบบ Storage ที่ใช้ และการแบ่งตาม Hardware Platform รวมถึงแบ่งตามการขายแบบ Software Only หรือ Cloud ด้วย
ระบบ Storage ของ IBM นี้ออกแบบมาเป็น Software-defined Storage (SDS) แทบทั้งหมด เพื่อให้เกิดความยืดหยุ่นในการเลือกใช้ IT Infrastructure ได้ตามความต้องการขององค์กรที่แตกต่างกันไป และด้วยการออกแบบระบบให้เป็น SDS เป็นหลักนี้ก็ทำให้แทบทุกผลิตภัณฑ์ของ IBM สามารถถูกนำเสนอได้ทั้งในฐานะของ Software หรือ Bundle ชุดรวมเป็น Hardware Appliance หรือผูกเข้ากับบริการ Cloud ก็ได้ทั้งนั้น ในขณะที่การเลือก Media ที่ใช้บันทึกข้อมูลก็จะทำให้ IBM สามารถแบ่งผลิตภัณฑ์ออกเป็น All Flash, Hybrid หรือ Disk ได้อีก
อนาคตของ All Flash Array จะเป็นอย่างไร? อะไรจะมาถัดจาก Flash?
IBM เชื่อว่าสุดท้ายแล้ว Flash จะสามารถรองรับ Workload ได้ทุกรูปแบบ แต่เพื่อไปให้ถึงเป้าหมายนั้นสุดท้ายแล้ว Flash เองก็จะถูกแบ่งออกเป็นหลายๆ ประเภท และแต่ละประเภทก็จะมี Workload ในรูปแบบที่เหมาะสมแตกต่างกันไป ซึ่งเมื่อนำ Flash ทุกๆ แบบมารวมกันภายในระบบแล้ว โลกเราก็จะไปถึงปลายทางของ Flash for Any Workload ได้จริง
เมื่อถึงจุดนั้นแล้ว โลกของเราจะมีทั้ง Flash ที่มี Characteristic หรือคุณลักษณะเฉพาะตัวที่แตกต่างกัน เช่น ประสิทธิภาพสูง/ต่ำ, Flash ที่มีความจุสูง/ต่ำ, Flash ที่มีราคาแพง/ถูก รวมถึงเทคโนโลยีที่นำ Flash เหล่านั้นไปใช้ซึ่งจะมีความแตกต่างกัน และเราก็จะกลับไปสู่จุดของการทำ Storage Tiering ระหว่าง All Flash Array ที่มีความแตกต่างหลากหลายเหล่านี้
ส่วนเทคโนโลยีที่จะมาถัดจาก Flash นี้จะถูกเรียกว่า Storage Class Memory ซึ่งจะช่วยลด Latency จากการเข้าถึงข้อมูลภายใน Flash ที่หลัก Microsecond ให้เหลือเพียงหลัก Nanosecond บน Storage Class Memory แทน
Tape ยังเป็นเทคโนโลยีที่มีอนาคตอีกหรือไม่? ในเมื่อ Flash นั้นมีขนาดที่ใหญ้ขึ้นและราคาถูกลงทุกวัน?
ทาง IBM ยืนยันว่า Tape นั้นจะยังคงอยู่คู่กับตลาดองค์กรไปอีกระยะหนึ่งแน่นอน เพราะเทคโนโลยีของ Tape นั้นก็มีการพัฒนาก้าวหน้าไปทุกวัน และคุณลักษณะเฉพาะตัวของ Tape นั้นก็ยังไม่อาจหาอุปกรณ์รูปแบบอื่นๆ มาทดแทนได้ง่ายนัก แต่แน่นอนว่าด้วยความเปลี่ยนแปลงของเทคโนโลยีที่เกิดขึ้นนี้ ก็จะทำให้อุปกรณ์จัดเก็บข้อมูลแต่ละแบบนั้นต้องเปลี่ยนบทบาทกันไป รวมถึง Tape เองด้วยเช่นกัน
Tape นั้นกลายเป็นทางเลือกที่มีความเหมาะสมสำหรับการจัดเก็บข้อมูลแบบ Long Term Archive เช่น การจัดเก็บประวัติผู้ป่วยและข้อมูลทางการแพทย์, การจัดเก็บข้อมูลการดำเนินธุรกิจย้อนหลัง และการจัดเก็บข้อมูลอื่นๆ ที่กฎหมายบังคับเอาไว้ว่าจะต้องเก็บย้อนหลังเป็นระยะเวลานานหลายปี
ในเชิงสถาปัตยกรรมก็เปลี่ยนไปเช่นกัน เดิมที Tape นั้นมักจะถูกออกแบบเป็น Tier สุดท้ายในการเชื่อมต่อ ที่แยกขาดจากระบบ Storage อื่นๆ ค่อนข้างชัดเจน แต่ในอนาคตอันใกล้นี้ แนวคิดของการทำ Storage Pooling ระหว่างระบบ Storage หลากหลายเทคโนโลยีเข้าด้วยกันกำลังจะมาถึง และการเขียนอ่านข้อมูลทั้งหมดจะถูกควบคุมด้วย Policy ว่าข้อมูลประเภทไหน, ขนาดเท่าใด, อายุเท่าไหร่ และนำไปใช้งานอะไรจะถูกบันทึกลงไปที่อุปกรณ์ Storage แบบไหนบ้าง ซึ่ง Tape เองก็จะอยู่ภายใน Pool นี้และถูกเขียนข้อมูลด้วย Policy ของการทำ Archive เป็นหลัก
องค์กรมีทางเลือกอย่างไรในการออกแบบ Storage สำหรับระบบ Big Data บ้าง? และการสำรองข้อมูล Big Data จะทำได้อย่างไร?
โดยทั่วไปสำหรับองค์กรในปัจจุบันที่กำลังจะทำโครงการ Big Data Analytics นั้น มักจะแบ่งเหตุผลทางธุรกิจออกเป็น 2 แนวทาง ได้แก่
- โครงการในกลุ่มของการทำ Optimization ภายในองค์กร ซึ่งสามารถประเมิน ROI หรือความคุ้มค่าได้ง่าย จากการตั้งเป้าหมายเชิงตัวเลขที่อยากไปให้ถึง และคำนวนกลับมาเป็นค่าใช้จ่าย ก็จะทำให้องค์กรรู้แล้วว่าด้วยความคุ้มค่าระดับเท่านี้ องค์กรควรจะใช้งบประมาณในการลงทุนเท่าใดถึงจะยังคุ้มค่าอยู่
- โครงการในกลุ่มของการสร้างนวัตกรรมใหม่ๆ ที่ยังไม่รู้ว่าจะประสบความสำเร็จหรือไม่ ทำให้การประเมิน ROI นั้นทำได้ค่อนข้างยาก การกำหนดงบประมาณในการลงทุนนั้นก็จึงต้องอาศัยจากตัวเลขอื่นๆ แทน เช่น สภาพคล่องของธุรกิจ เป็นต้น
จากข้อมูลตรงส่วนนี้จะนำไปสู่ประเด็นที่ว่า องค์กรนั้นมีทางเลือกในการออกแบบและการลงทุน Storage ด้วยกัน 2 ทาง ได้แก่
- การพัฒนาระบบเสริมต่อยอดขึ้นมาจากระบบเดิม โดยสร้างระบบย่อยสำหรับทำการรวบรวมข้อมูลจากระบบอื่นๆ และนำมาทำการวิเคราะห์โดยเฉพาะแยกต่างหาก ก็จะทำให้องค์กรสามารถเสริมการลงทุนเพิ่มขึ้นได้โดยไม่ต้องเปลี่ยนระบบใหม่ทั้งระบบ
- การพัฒนาระบบใหม่ด้วยการใช้เทคโนโลยีที่รองรับการทำ Big Data Analytics เลย เช่น Apache Hadoop, Apache Spark, MongoDB และอื่นๆ เพื่อลดขั้นตอนของการทำ ETL ลงไป และทำให้ทุกๆ โครงการของการวิเคราะห์ข้อมูลนั้นสามารถเข้าถึงข้อมูลในรูปแบบต่างๆ ได้อย่างยืดหยุ่นและรวดเร็ว
ซึ่งการเก็บข้อมูลในรูปแบบ On-premises หรือ Cloud นั้นก็สามารถทำได้ทั้งคู่ในกรณีนี้ (IBM มี Cleversafe บริการ Cloud Object Storage สำหรับองค์กรพร้อมความปลอดภัยในระดับสูง) ส่วนการสำรองข้อมูลของระบบ Big Data นั้นถือเป็นทั้งงานที่สำคัญและงานที่ท้าทายมากในเวลาเดียวกัน เพราะการสำรองข้อมูลขนาดใหญ่มาก นอกจากจะมีประเด็นทางด้านค่าใช้จ่ายแล้ว ประเด็นทางด้านประสิทธิภาพก็ถือเป็นโจทย์ที่ยากไม่แพ้กัน ซึ่งระบบ Big Data Analytics ส่วนใหญ่นั้นก็มักจะต้องมีการจัดเก็บข้อมูลด้วยเทคโนโลยี Distributed File System หรือ Distributed Database เป็นหลัก และมีการจัดเก็บข้อมูลหลาย Copy อยู่แล้ว จึงควรนำข้อดีตรงนี้มาใช้ให้เป็นประโยชน์ด้วย
จากมุมมองนี้ จะเห็นได้ว่าการทำ Full Backup กับข้อมูลขนาดใหญ่นี้เป็นเรื่องที่แทบจะเป็นจริงไม่ได้เลย ดังนั้นการทำ Incremental Backup อย่างต่อเนื่องนั้นจึงเป็นทางเลือกที่เหมาะสมกว่ามากในระยะยาว แต่โจทย์ของการทำ Full Backup ในครั้งแรกก็ยังคงมีอยู่ ซึ่งแต่ละเทคโนโลยีของระบบจัดเก็บข้อมูลก็จะมีวิธีการที่แตกต่างกันไป รวมถึง IBM GPFS เองก็เช่นกัน และการเลือก Integrate ระบบเข้ากับระบบสำรองข้อมูลรูปแบบต่างๆ นั้นก็ถือเป็นทางเลือกที่ต้องทำการศึกษาและทดสอบให้ดี
แน่นอนว่าการ Archive Cold Data ที่ไม่ได้มีการเข้าถึงบ่อยในสื่อที่มีความจุสูง, มีความทนทานสูง, มีราคาต่ำ และทำการลดขนาดข้อมูลให้เล็กลงด้วยการทำ Compression หรือ Deduplication นั้นก็ถือเป็นเรื่องสำคัญที่ควรทำด้วยเช่นกัน
อนาคตของ IBM Power เป็นอย่างไร?
ในยุคที่พลังประมวลผลมีความสำคัญมากกับทุก Application สมัยใหม่ ไม่ว่าจะเป็น AI, Big Data หรือ Cognitive Computing ก็ตาม ทำให้ IBM Power ที่ออกแบบมาโดยเน้นประสิทธิภาพการประมวลผลเป็นพิเศษนี้มีแนวโน้มที่ดีมาก จากการออกแบบ Memory Bus ขนาดใหญ่ และมี Interconnect ที่หลากหลาย ส่งผลให้ในภาพรวมแล้ว IBM Power นั้นมี Price/Performance ที่ดี อีกทั้งยังมี OpenPower สถาปัตยกรรมแบบ Open Source สำหรับให้ธุรกิจขนาดใหญ่นำไปพัฒนาต่อยอดตอบโจทย์ของ Hyperscale Data Center ด้วย
Data Privacy เป็นประเด็นกับ IBM Cloud หรือไม่? หากมีหน่วยงานรัฐมาขอให้เปิดเผยข้อมูลองค์กรที่เป็นลูกค้าอยู่ IBM จะทำอย่างไร?
IBM นั้นได้เตรียมรับมือกับประเด็นที่มีความละเอียดอ่อนเหล่านี้แล้ว โดยการใช้เทคโนโลยี Encryption เข้ามาช่วย ซึ่งผู้ที่ถือครองกุญแจในการเข้าและถอดรหัสนั้นก็คือองค์กรของลูกค้าเอง ดังนั้นถึงแม้ IBM จะเป็นคนดูแล IT Infrastructure ที่อยู่บน Cloud ของแต่ละองค์กร แต่พนักงานของ IBM เองก็ไม่สามารถเข้าถึงข้อมูลเหล่านั้นหรือถอดรหัสออกมาได้เลย ดังนั้นหากมีการร้องขอข้อมูลเกิดขึ้น ก็ต้องไปร้องขอกับทางองค์กรซึ่งเป็นเจ้าของข้อมูลตัวจริงเองเท่านั้น
สำหรับองค์กรที่สนใจเทคโนโลยี Blockchain จะออกแบบระบบ Storage เพื่อรองรับ Blockchain ได้อย่างไร?
ประเด็นนี้ถือเป็นประเด็นที่น่าสนใจที่คนไม่ค่อยได้พูดถึงกัน เพราะสถาปัตยกรรมการทำงานของ Blockchain เองนั้นมุ่งเน้นไปที่ความถูกต้องของข้อมูลและความปลอดภัยเป็นหลัก ทำให้ต้องมีการออกแบบการกระจายข้อมูลแบบ Distributed และการสอบเทียบข้อมูลระหว่างกัน ซึ่งกระบวนการเหล่านี้เองก็กินเวลาค่อนข้างมาก ทำให้คอขวดส่วนใหญ่ของระบบนั้นไม่ได้อยู่ที่ CPU, RAM, Network หรือ Storage แต่อยู่ในชั้น Software ของระบบ Blockchain เอง ความเร็วของ Storage จึงไม่จำเป็นนัก
และด้วยความที่ระบบเป็นแบบกระจายตัว ดังนั้นการเลือกใช้ Server, Storage Server หรือบริการ Cloud ไปเลยก็จะเป็นหนทางที่เหมาะสมกว่าสำหรับ Blockchain แทนที่จะมาใช้ระบบ Storage เต็มตัว และการเสริมความปลอดภัยด้วยการเข้ารหัสเพิ่มเติมในระดับของ Hardware หรืออื่นๆ ก็เป็นทางเลือกที่อาจพิจารณาเพิ่มเติมได้เช่นกัน