Big Data Analytics เป็นคำที่ทุกคนในวงการได้ยินกันมานาน หลายๆ คนก็คงอยากสัมผัสกับเทคโนโลยีเหล่านี้แต่ไม่รู้จะเริ่มต้นยังไง วันนี้ทาง TechTalkThai เลยขอออกมาแชร์ประสบการณ์ในการลองเล่น Apache Hadoop แบบง่ายๆ ใช้เวลาไม่ถึง 2 ชั่วโมง แต่ได้เห็นภาพรวมคร่าวๆ ของเทคโนโลยี Big Data Analytics ต่างๆ มาให้ทุกคนได้ลองเล่นตามกันด้วย Cloudera CDH 5.8 QuickStart VM ที่สามารถลองเล่นได้ทุกคนไม่ว่าจะเป็น IT Manager, Programmer, Network Engineer, System Engineer หรือ Security Expert ดังนี้ครับ
รู้จักกับ Cloudera กันก่อน
Cloudera http://www.cloudera.com/ เป็นบริษัทชั้นนำทางด้าน Big Data Platform ที่ดังที่สุดในตลาดรายหนึ่ง โดย Cloudera นี้จะนำ Apache Hadoop และ Open Source Component ต่างๆ ที่เกี่ยวข้องมาแพ็ครวมกันเป็น Distribution ให้ พร้อมมีระบบบริหารจัดการให้เสร็จสรรพ เรียกง่ายคือ Cloudera ทำให้การใช้งาน Apache Hadoop เพื่อทำ Big Data Analytics นั้นง่ายขึ้นนั่นเอง
ลองเล่น Apache Hadoop กันเลย
Cloudera นั้นได้พัฒนา QuickStart VM ขึ้นมาเพื่อให้ทุกคนในสาย IT ได้ลองเข้าถึงเทคโนโลยีและแนวคิดของ Big Data Analytics กันง่ายๆ ผ่านระบบ Lab ที่สามารถทำเองเล่นเองได้เลย ทำให้เราได้ลองใช้เครื่องไม้เครื่องมือต่างๆ ในการวิเคราะห์ข้อมูล, แสดงผล และบริหารจัดการ Infrastructure กันพอเป็นไอเดีย
ก่อนอื่นนั้นทุกคนต้องเลือกก่อนครับว่าจะทดลองใช้ Cloudera QuickStart VM ทางไหน ดังนี้
- โหลดมาลองในเครื่องตัวเองได้ที่ https://www.cloudera.com/downloads/quickstart_vms/5-8.html โดยรองรับ VMware (รองรับเฉพาะ CPU Intel), VirtualBox และก็ KVM ครับ ใช้แรมประมาณ 4GB (ทางทีมงานลองใช้ทางนี้แหละ)
- เล่นบน Cloudera Live ได้ด้วยการลงทะเบียนที่ http://www.cloudera.com/developers/get-started-with-hadoop-tutorial.html ใครลองแล้วเวิร์คหรือไม่เวิร์คยังไงก็มาบอกกันหน่อยนะครับ พอดีลองเข้าๆ ดูหน้าแรกๆ มันก็เข้าได้บ้างไม่ได้บ้างแล้วเลยไม่ได้ลองต่อ 55
หลังจากเลือก โหลด ติดตั้งอะไรเสร็จเรียบร้อยหมดแล้ว ก็เริ่มเล่นได้ทันทีเลยครับ โดยบน Desktop จะมี Icon Cloudera Home อยู่ ก็ให้เปิด Browser บน VM ได้เลยครับ เราจะถูกส่งไปยังหน้า http://quickstart.cloudera/#/ ซึ่งอยู่ในเครื่องของเราเอง คราวนี้ก็คลิกต่อที่ Start Tutorial เพื่อเริ่มต้นทำ Lab ได้เลย โดยเนื้อหาใน Lab จะมีดังนี้
- เตรียม Environment ต่างๆ ได้แก่ HDFS, Hive, Hue, Impala และ YARN (MR2) ซึ่งตรงนี้ Cloudera ทำมาให้หมดแทบจะเสร็จอยู่แล้วครับ
- ใช้ Apache Sqoop แปลงข้อมูลจาก MySQL ลงไปใน HDFS และแปลงไฟล์ให้อยู่ใน Format ของ Apache Avro
- ใช้ Hive และ Impala ทำการ Query ข้อมูลออกมาจากไฟล์ใน HDFS ด้วยคำสั่งที่คล้ายกับ Statement ปกติใน Relational Database
- วิเคราะห์ข้อมูล Structured Data ร่วมกับ Unstructured Data ด้วยการวิเคราะห์ Real-time Log จากการใช้ Flume
- ใช้ Apache Spark เพื่อวิเคราะห์ความสัมพันธ์ระหว่างข้อมูลได้อย่างรวดเร็ว
- สร้าง Search Index ด้วย Apache Solr
- ทำ Extract-Transform-Load (ETL) กับข้อมูล Log ที่ถูกสร้างขึ้นแบบ Real-time ด้วย Flume และ morphline
- สร้าง Dashboard ด้วย Interface ของ Hue
จะเห็นได้ว่าระหว่างการทำ Lab นี้เราจะได้รู้จัก Component ใหม่ๆ เพิ่มขึ้นเรื่อยๆ และเห็นความแตกต่างหรือความสัมพันธ์ของ Component เหล่านี้ในการทำ Big Data Analytics แบบพื้นฐานไปด้วย ดังนั้นหลังจากเล่นเสร็จทีมงาน TechTalkThai เลยรู้สึกว่าคุ้มกับเวลาที่เสียไปดี (เสียเวลาไปน้อยมาก แถมถ้าทำบน VMware กด Suspend VM มาเล่นต่อวันหลังได้) และง่ายพอที่ทุกคนในสายงาน IT จะลองเล่นด้วยตัวเองได้ (คือถึงขั้นมีคำสั่งให้ก๊อปแปะลงไปที่ Terminal ได้เลย) เป็นการเริ่มต้นที่ง่ายและกว้างดี เลยเอามาฝากกันเผื่อเป็นประโยชน์ในการเห็นภาพรวมได้กว้างขึ้นครับผม
รอบหน้าถ้าหา Tutorial แบบ Advance ขึ้นกว่านี้ (และฟรี) ได้ก็จะเอามาฝากกันอีกทีนะครับ หรือใครมีตัวไหนแนะนำยังไงแล้วอยากแบ่งปันกัน ก็ส่งข้อมูลเข้ามาได้เลยที่ info@techtalkthai.com นะครับผม