Black Hat Asia 2021

[Guest Post] AIOps คืออะไร สำคัญอย่างไรกับ IT Operations และธุรกิจของคุณ – ตอนที่ 2 AIOps กับการใช้งานจริง

IT Operation Management เป็นสิ่งสำคัญมากที่จะทำให้ Digital Transformation ประสบความสำเร็จหรือล้มเหลว และการที่จะทำให้ IT Operation Management มีประสิทธิภาพสูงสุด ต้องนำ AIOps Platform เข้ามาใช้งาน

จากตอนที่ 1 ได้กล่าวถึง AIOps คืออะไร ความสำคัญของ  AIOps  ฟังก์ชั่นและประโยชน์ของ AIOps คืออะไร ไปแล้วนั้น ในตอนนี้จะกล่าวถึง AIOps ในด้านที่เกี่ยวกับ Monitoring, AIOps สำหรับ IT service management และ AIOps สำหรับ automation เพิ่มเติม รวมถึง N-AIOps คืออะไร และบทสรุปจบท้ายของบทความ

 

AIOps สำหรับ IT Monitoring

ปัจจุบันการ Monitoring ระบบเทคโนโลยีสารสนเทศมีขอบเขตการบริหารจัดการที่กว้างกว่าในอดีต โดยครอบคลุมการบริหารจัดการในด้านต่างๆ ได้แก่ IT Infrastructure Management (ITIM), Network Performance Monitoring and Diagnostics (NPMD), Application Performance Monitoring (APM), Digital Experience Monitoring (DEM) ซึ่ง monitoring tool สำหรับ ITIM, NPMD, APM, DEM จะให้ข้อมูลภายใน domain ของตัวเองเป็นหลัก แต่ไม่สามารถให้ข้อมูลแบบองค์รวมซึ่ง digital service หนึ่งๆ จะเกี่ยวข้องกับหลาย domain เช่น การใช้งาน mobile application ที่ต้องเข้าถึง server ที่อยู่บน cloud จะเกี่ยวข้องกับทั้ง ITIM, NPMD, APM, DEM ฉนั้นเพื่อให้เห็นภาพรวม (holistic view) จึงจำเป็นที่จะต้องใช้ AIOps Platform ทำการวิเคราะห์แบบองค์รวม (cross-domain analysis) เพื่อหาสาเหตุที่ Digital Experience ไม่ดี ซึ่งอาจจะเกิดจาก network, server หรือ application เป็นต้น

จากการสำรวจลูกค้าของ Gartner พบว่าการมี monitoring tool ที่หลากหลายจะทำให้ความสามารถในการตอบสนองต่อปัญหาช้าลง และเวลาที่ใช้ในการแก้ปัญหานานขึ้น คำถามคือ I&O Leader จะทำอย่างไรที่จะปรับปรุงให้การปฏิบัติการด้าน IT มีประสิทธิภาพและลดระยะเวลาที่เกิดปัญหาให้สั้นลงจากการที่มี monitoring tool ที่หลากหลายแบบนี้ คำตอบคือการใช้ AIOps เพื่อดำเนินการต่างๆ ดังนี้

 

(1) ปรับปรุงให้เกิดการทำงานร่วมกันโดยใช้ AIOps platform เพื่อรวบรวมข้อมูลที่มาจาก monitoring tools ต่างๆ ไม่ว่าจะเป็น telemetry data, logs และแสดงผลบน dashboard กลางซึ่งตรงกับสิ่งที่ operation team ต้องการจะ monitor

 

การรวบรวมข้อมูลจะลดความเสี่ยงของการมี monitoring tool ที่หลากหลาย โดย

  1. สร้าง centralized visibility สำหรับ event จากระบบ IT ต่างๆที่ส่งผลกระทบกับธุรกิจ
  2. ทำการเชื่อมโยงหาความสัมพันธ์ของข้อมูลที่มาจากระบบต่างๆ ลดความคลุมเคลือ ซ้ำซ้อนของข้อมูล
  3. ปรับปรุงการทำงานระหว่างทีมโดยใช้ชุดข้อมูลกลางในการตัดสินใจแก้ปัญหา

นอกจากนั้นแล้วการรวบรวมข้อมูลยังช่วยลดเวลาที่เราเคยใช้ในการรวบรวมข้อมูลแบบ manual ช่วยเพิ่มความสามารถในการวิเคราะห์ตัดสินใจ รวมถึงการต่อยอดไปสู่การทำงานแบบอัตโนมัติ (automation)

 

(2) ส่งมอบข้อมูลเชิงลึกที่ได้จากการวิเคราะห์ไปยังผู้เกี่ยวข้อง โดยการบูรณาการข้อมูลดิบที่ได้จากเครื่องมือต่างๆ และทำให้แน่ใจว่าข้อมูลหรือผลลัพธ์ที่ได้ออกมามีคุณค่าเพิ่มขึ้นจากข้อมูลดิบๆ โดยใช้เทคนิคการจัดการต่างๆ ดังนี้

  1. การจัดการข้อมูล active events โดยใช้ event correlation analysis (ECA) ซึ่งความท้าทายของเทคนิคนี้ก็คือการที่เราจะต้องปรับแต่ง rule แบบ manual เป็นระยะ
  2. การจัดการข้อมูล active และ archived events โดยใช้ pattern recognition และ machine learning เพื่อที่จะเพิ่มประสิทธิภาพการทำ event correlation ลดการ update rule แบบ manual
  3. การจัดการข้อมูล events และ metrics โดยขึงข้อมูลบนแกนเวลาเดียวกัน ซึ่งจะช่วยให้เราสามารถหา root cause ของปัญหาได้ง่ายขึ้น
  4. การจัดการข้อมูล metrics โดยขึงข้อมูลบนแกนเวลาเดียวกันเพื่อหา anomaly

 

(3) กำหนดความคาดหวังที่ทำได้จริงจากเทคนิคการรวบรวมวิเคราะห์ข้อมูล สำหรับตัวชี้วัดซึ่งส่งผลต่อการปฏิบัติการด้าน IT เช่น Mean time to repair (MTTR) หรือระยะเวลาที่ใช้ในการแก้ไขปัญหา ซึ่งเทคนิค pattern recognition จำเป็นต้องใช้ข้อมูลในอดีตเยอะๆ จึงจะมีประสิทธิภาพ ส่วน machine learning ก็จำเป็นต้องใช้ข้อมูลเยอะๆ บวกกับการทำงานของมนุษย์ที่จะต้องระบุอัลกอริธิมเพื่อสร้าง models ที่ให้ผลลัพธ์แม่นยำ

 

AIOps สำหรับ IT Service Management

ในวงการ IT เรามักจะใช้ ITIL framework ซึ่งเป็น IT best practice สำหรับงานบริการทางด้าน IT โดยมี process หรือ practice ที่สำคัญ เช่น Incident Management, Service Request Management, Change Management, Knowledge Management, IT Asset Management, Service Configuration Management เป็นต้น โดยสามารถนำ  AIOps platform มาใช้ประโยชน์ในด้าน Incident, Change และ IT Asset Management และ Service Configuration Management ดังนี้

ในด้าน Incident Management และ Service Request Management เราสามารถนำเทคโนโลยี AIOps มาช่วยงานต่างๆ ได้ ดังนี้

  • ช่วยกำหนดข้อมูลของ incident เช่น category, urgency, impact, priority เป็นต้น
  • การแนะนำเจ้าหน้าที่หรือทีมที่เหมาะสมกับ incident นั้นๆ
  • ช่วยวิเคราะห์ข้อมูล incident ในอดีต เพื่อสนับสนุนและเพิ่มประสิทธิภาพการทำงานของผู้ให้บริการ
  • ช่วยคาดการณ์ว่า incident ไหนที่ไม่น่าจะแก้ไขไม่ทัน SLA ที่กำหนด
  • ช่วยแก้ไขปัญหาระดับง่ายถึงปานกลางที่มักจะเกิดซ้ำแบบอัตโนมัติ
  • ช่วยทำงานพื้นฐานที่มีการขอรับบริการเป็นประจำแบบอัตโนมัติ เช่น การติดตั้งซอฟต์แวร์ การ reset รหัสผ่าน หรือการตรวจสอบข้อมูลใน email เพื่อเปิด request
  • การใช้ natural language processing (NLP) เพื่อช่วยการทำงานของ chatbots และ virtual support agents (VSAs) เพื่อที่จะลดงานพื้นฐานที่เจ้าหน้าที่ผู้ให้บริการต้องทำเป็นประจำ เพื่อเอาเวลาไปทำงานที่ซับซ้อนขึ้น
  • การตรวจสอบ response หรือ activity ต่างๆ ใน incident และ escalate หรือทำงานอัตโนมัติตาม work flow

 

ในด้าน Change Management เราสามารถนำเทคโนโลยี AIOps มาช่วยงานต่างๆ ได้ ดังนี้

  • การเพิ่มอัตราความสำเร็จในการทำ Change โดยการวิเคราะห์หา pattern ข้อมูล RFC ในอดีตที่เหมือนหรือใกล้เคียงกันว่าไม่สำเร็จเพราะอะไร มีความเสี่ยงตรงไหน มีผลกระทบอย่างไร
  • ประเมินระดับความเสี่ยงของ Change ให้อัตโนมัติ จากการวิเคราะห์ข้อมูลต่างๆใน RFC รวมถึง RFC ในอดีต
  • การคาดการณ์ว่า RFC จะสำเร็จหรือไม่
  • การหาเวลาที่เหมาะสมที่สุดสำหรับการทำ Change

 

ในด้าน IT Asset Management และ Service Configuration Management ที่เกี่ยวข้องกับ Configuration Item (CI) ใน CMDB เราสามารถนำเทคโนโลยี AIOps มาช่วยงานต่างๆ ได้ ดังนี้

  • การจัดกลุ่มหาสาเหตุที่ Change ไม่สำเร็จว่าเกิดจาก misconfiguration หรือการระบุผลกระทบกับ CI ไม่ครบถ้วน เป็นต้น
  • การหา dependency หรือความสัมพันธ์ระหว่าง CI สำหรับ Incident และ Change
  • การบูรณาการ configuration change หรือ infrastructure change จาก event ที่ส่งมาจาก monitoring tools หรือ orchestration tool เพื่อแจ้งให้ผู้ให้บริการทราบ
  • การเข้าถึง CI เพื่อดำเนินการแก้ไข incident ระดับพื้นฐานถึงปานกลางแบบอัตโนมัติ

 

 

 

AIOps สำหรับ IT Automation

Gartner ได้พูดถึงการทำงานของ AIOps Platform ว่ามี 3 ด้าน ได้แก่ Observe (Monitoring), Engage (ITSM) และ Act (Automation) ซึ่งการทำงานแบบอัตโนมัตินี้เป็นสิ่งที่ผู้เกี่ยวข้องกับงาน IT ทุกคนล้วนต้องการ ด้วย AIOps Platform จะทำให้เรามี digital workforce ที่มีดีกรีเป็นช่างเทคนิคหรือวิศวกรซึ่งพร้อมทำงานแทนเราเพื่อตรวจสอบ (Self-Diagnostic) แก้ไขปัญหา (Self-Healing) กู้คืน (Self-Recovery) และป้องกันปัญหา (Self-Prevention) ระบบ IT แบบอัตโนมัติ โดยเฉพาะงานที่เกิดซ้ำ (recurring task) ทั้งนี้เพื่อลด incident ลด down time ลด error เพิ่ม SLA

ขั้นตอนการสร้าง AI-Assisted Automation นั้นมี 4 ขั้นตอน กล่าวคือ

  1. เริ่มกับสิ่งที่เรารู้ ด้วยการสร้างฐานข้อมูลองค์ความรู้โดยจัดเก็บรวบรวมวิธีการแก้ปัญหาที่เคยทำสำเร็จซึ่งมักไม่มีการจัดเก็บในระบบแต่มักจะอยู่กับบุคคลใดบุคคลหนึ่งหรือที่เรียกว่า tribal knowledge รวมถึงการจำแนกปัญหาต่างๆให้เป็นหมวดหมู่
  2. ค้นหาเทียบเคียงปัญหาที่เกิดกับองค์ความรู้ที่เรามีภายใน และองค์ความรู้ภายนอก (Crowdsource)
  3. แนะนำวิธีการหรือแนวทางแก้ไขปัญหา
  4. ดำเนินการแก้ไขปัญหาแบบอัตโนมัติโดยเข้าถึงอุปกรณ์ หรือแอพพลิเคชั่น และส่งคำสั่งเพื่อแก้ไขปัญหา หรือป้องกันตามที่แนะนำ ตรวจสอบประเมินผลการดำเนินการว่าสามารถแก้ไขได้จริงหรือไม่ เพื่อปรับปรุงวิธีการแก้ไขปัญหาให้มีประสิทธิภาพมากขึ้น

 

นอกจากการขับเคลื่อนการทำงานแบบอัตโนมัติ AIOps Platform ยังสามารถช่วยเราวิเคราะห์ข้อมูลโดยใช้เทคโนโลยี Machine Learning มาจัดการข้อมูลมหาศาล (big data) ที่ถูกสร้างมาจากระบบ IT ได้แก่

  • การค้นหารูปแบบและทำนาย โดยหารูปแบบข้อมูลที่เกิดขึ้นในอดีต เพื่อทำนายสิ่งที่จะเกิดในอนาคต
  • การค้นหาสิ่งผิดปกติ โดยหารูปแบบข้อมูลที่เป็นปกติและรูปแบบที่ผิดปกติ เช่น หน่วยงานหนึ่งปกติมีการใช้งานเฉลี่ย 50% และสูงสุดไม่เกิน 70% แต่ช่วงเวลาหนึ่งกลับมีการใช้งานเกินค่าดังกล่าว ซึ่งแพลฟอร์มควรจะรองรับการวิเคราะห์แบบฤดูกาลหรือวันหยุดหรือวันสิ้นเดือน เพราะพฤติกรรมในช่วงเวลาดังกล่าวอาจะมากหรือน้อยจากค่าเฉลี่ยแต่ถือว่าเป็นปกติ
  • การค้นหาสาเหตุ โดยตรวจจับรูปแบบและการเชื่อมโยงกันของข้อมูลที่บอกเหตุและผล
  • การวิเคราะห์ผังการเชื่อมโยง หรือ topological analysis ซึ่งใช้แผนผังการเชื่อมโยงในการสืบค้นหาสาเหตุซึ่งจะให้ผลลัพธ์ที่แม่นยำและมีประสิทธิภาพ เช่นการตรวจจับจุดที่เกิด event และหา upstream และ downstream จากจุดที่เกิดเหตุ

 

The ultimate AIOps Solution

Netka AIOps Director หรือ N-AIOps เป็น AIOps Platform ซึ่งสามารถทำ Data Ingestion, Data Analytics โดยใช้เทคโนโลยี AI และสามารถทำงานแบบอัตโนมัติ (Automation) โดยมี Workflow Designer ที่สามารถสร้างกำหนดขั้นตอนการทำงานเพื่อขับเคลื่อนการทำงานแบบอัตโนมัติให้ไหลไปตามขั้นตอนหรือเงื่อนไขต่างๆ N-AIOps เป็นแพลตฟอร์มที่ต้องการข้อมูลจากระบบบริหารจัดการ IT อื่นๆ เช่น ITIM, ITSM, NPMD, SIEM, APM, DEM เพื่อมาวิเคราะห์แบบ cross-domain analysis และขับเคลื่อนการทำงานแบบอัตโนมัติ โดย N-AIOps สามารถรองรับข้อมูลที่มาประมวลผล ดังนี้

  1. Log data ได้แก่ Syslog, SNMP Trap, Windows event
  2. Telemetry data ได้แก่ metrics, traces
  3. Network data ได้แก่ packet analysis data, flow analysis data, topology, inventory
  4. ITSM data ได้แก่ incidents, changes, problems, Cis
  5. IoT data ได้แก่ค่า sensor ต่างๆ เช่น อุณหภูมิ ความชื้น ค่าแรงดันไฟฟ้า ค่ากระแสไฟฟ้า ค่ากำลังไฟฟ้า สถานะรีเลย์คอนแทค สถานะปิดเปิดประตู

N-AIOps สามารถทำงานร่วมกับผลิตภัณฑ์ต่างๆ ที่สามารถส่งข้อมูลเหล่านี้มาในรูปแบบ Syslog, SNMP Trap และ JSON และสามารถทำงานร่วมกับผลิตภัณฑ์ต่างๆ ของ Netka ได้แก่  NetkaView Network Manager หรือ NNM, NetkaQuartz Service Desk หรือ NSD,  NetkaView Logger หรือ NLG, NetkaView IoT หรือ NIoT   โดยท่านสามารถ เข้าดูรายละเอียดได้โดยคลิ๊กที่นี่   

          เมื่อ N-AIOps ทำงานร่วมกับ NNM, NSD, NLG, NIoT ก็จะเป็น “The ultimate AIOps Solution” ที่ครอบคลุมการทำ cross-domain analysis ทั้งด้าน IT Infrastructure Management, IT Service Management, Network Performance Monitoring and Diagnostics, Security Information and Event Management, Application Performance Monitoring และ Digital Experience Monitoring โดยวงจรการทำงานของ Netka AIOps Solution ประกอบด้วย 5A  คือ Acquire, Aggregate, Analyze, Advise และ Act

 

บทสรุป

การนำเทคโนโลยี AIOps มาใช้สำหรับ IT Operations ในด้าน IT Monitoring และ IT Service Management สามารถสร้างประโยชน์และคุณค่าให้กับฝ่าย IT รวมทั้งผู้ใช้งาน ลูกค้า และธุรกิจ โดยทำให้การปฏิบัติการด้าน IT มีประสิทธิภาพ เกิดการบูรณาการของข้อมูล ลดความซ้ำซ้อนของข้อมูล ให้ข้อมูลที่มีคุณค่า ช่วยในการวิเคราะห์ปัญหา ช่วยหาสาเหตุ ลดระยะเวลาแก้ไขปัญหา เพิ่ม uptime และ SLA ให้ดีขึ้นอย่างมีนัย ซึ่งส่งผลให้เกิด digital experience ที่ดีของผู้ใช้งานและลูกค้า ลด churn เพิ่มรายได้ และด้วยเทคโนโลยี AIOps ปัจจุบัน การปฏิบัติการด้าน IT แบบอัตโนมัติ หรือ IT Automation สามารถทำได้อย่างมีประสิทธิภาพ ช่วยบริหารและใช้ทรัพยากรให้มีประโยชน์สูงสุดทั้งการลดคน ลดเวลา ลดรายจ่าย และลด human error ซึ่งมักจะเกิดขึ้นและก่อให้เกิดความเสียหายตามมา นอกจากนั้นแล้ว AIOps Platform ยังสามารถวิเคราะห์ข้อมูลมหาศาลที่อุปกรณ์ แอพลิเคชั่นสร้างขึ้นทำให้เราทราบข้อมูลเชิงลึก สิ่งผิดปกติ รวมถึงสาเหตุของปัญหาได้รวดเร็วขึ้นซึ่งเป็นเป้าหมายที่สำคัญของธุรกิจทุกวันนี้

หากท่านสนใจข้อมูลเพิ่มเติมเกี่ยวกับ AIOps และ N-AIOps ท่านสามารถคลิ๊กที่ 

https://netkasystem.com/n-aiops/#solution หรือติดต่อที่  info@netkasystem.com  

ติดตามได้ที่ https://www.facebook.com/netkasystem และ http://line.me/ti/p/~@netkasystem  [เพียงกดติดตามข่าวสารผ่าน Line และ FB ลุ้นรับ code เติมเงินบัตร Starbuck ทันที วันละ 10 ใบ]

หรือติดต่อ Distributor ของเรา

  1. DataOne Asia (Thailand) โทร 02 686 3000
  1. NextWave (Thailand) คุณไหมแพร โทร 090 972 3842  

ผู้เขียน

คุณชาญชัย เจียมโชติพัฒนกุล  Founder & CEO  บริษัท เน็ตก้า ซิสเต็ม จำกัด  

 

อ้างอิง

  1. Gartner research’s Market Guide for AIOps Platforms published: 7 November 2019
  2. Gartner research’s DevOps Teams Must Use Site Reliability Engineering to Maximize Customer Value published 10 January 2020
  3. Gartner research’s Use AIOps for a Data-Driven Approach to Improve Insights From IT Operations Monitoring Tools published 11 May 2020
  4. Gartner research’s Deliver Cross-Domain Analysis and Visibility With AIOps and Digital Experience Monitoring published 5 Jul 2018
  5. Gartner research’s Innovation Insight for AI in IT Transformation published 13 Oct 2020
  6. Gartner research’s Avoid the Unexpected Consequences of IT Change Management With AIOps and CMDB published 10 Oct 2019

 

About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

Intel เปิดตัวชิป 11th Gen ‘Tiger Lake-H’

Tiger Lake-H เป็นชิปในรุ่น 10nm ของ Intel ที่ถูกออกแบบมาสำหรับเครื่องคอมพิวเตอร์ที่ต้องการศักยภาพสูง

Google พัฒนา Machine Learning ทำนายโอกาสเสียของฮาร์ดดิส ความแม่นยำ 98%

Google พัฒนา Machine Learning Model ทำนายการเสียของฮาร์ดดิสบน Google Cloud ให้ผลความแม่นยำ 98%