ทดลองเล่น Hadoop และ Big Data Analytics กันง่ายๆ ฟรีๆ ใน 2 ชั่วโมงด้วย Cloudera QuickStart VM

Big Data Analytics เป็นคำที่ทุกคนในวงการได้ยินกันมานาน หลายๆ คนก็คงอยากสัมผัสกับเทคโนโลยีเหล่านี้แต่ไม่รู้จะเริ่มต้นยังไง วันนี้ทาง TechTalkThai เลยขอออกมาแชร์ประสบการณ์ในการลองเล่น Apache Hadoop แบบง่ายๆ ใช้เวลาไม่ถึง 2 ชั่วโมง แต่ได้เห็นภาพรวมคร่าวๆ ของเทคโนโลยี Big Data Analytics ต่างๆ มาให้ทุกคนได้ลองเล่นตามกันด้วย Cloudera CDH 5.8 QuickStart VM ที่สามารถลองเล่นได้ทุกคนไม่ว่าจะเป็น IT Manager, Programmer, Network Engineer, System Engineer หรือ Security Expert ดังนี้ครับ

 

รู้จักกับ Cloudera กันก่อน

Cloudera http://www.cloudera.com/ เป็นบริษัทชั้นนำทางด้าน Big Data Platform  ที่ดังที่สุดในตลาดรายหนึ่ง โดย Cloudera นี้จะนำ Apache Hadoop และ Open Source Component ต่างๆ ที่เกี่ยวข้องมาแพ็ครวมกันเป็น Distribution ให้ พร้อมมีระบบบริหารจัดการให้เสร็จสรรพ เรียกง่ายคือ Cloudera ทำให้การใช้งาน Apache Hadoop เพื่อทำ Big Data Analytics นั้นง่ายขึ้นนั่นเอง

techtalkthai_cdh_testing_01

ลองเล่น Apache Hadoop กันเลย

Cloudera นั้นได้พัฒนา QuickStart VM ขึ้นมาเพื่อให้ทุกคนในสาย IT ได้ลองเข้าถึงเทคโนโลยีและแนวคิดของ Big Data Analytics กันง่ายๆ ผ่านระบบ Lab ที่สามารถทำเองเล่นเองได้เลย ทำให้เราได้ลองใช้เครื่องไม้เครื่องมือต่างๆ ในการวิเคราะห์ข้อมูล, แสดงผล และบริหารจัดการ Infrastructure กันพอเป็นไอเดีย

ก่อนอื่นนั้นทุกคนต้องเลือกก่อนครับว่าจะทดลองใช้ Cloudera QuickStart VM ทางไหน ดังนี้

  • โหลดมาลองในเครื่องตัวเองได้ที่ https://www.cloudera.com/downloads/quickstart_vms/5-8.html โดยรองรับ VMware (รองรับเฉพาะ CPU Intel), VirtualBox และก็ KVM ครับ ใช้แรมประมาณ 4GB (ทางทีมงานลองใช้ทางนี้แหละ)
  • เล่นบน Cloudera Live ได้ด้วยการลงทะเบียนที่ http://www.cloudera.com/developers/get-started-with-hadoop-tutorial.html ใครลองแล้วเวิร์คหรือไม่เวิร์คยังไงก็มาบอกกันหน่อยนะครับ พอดีลองเข้าๆ ดูหน้าแรกๆ มันก็เข้าได้บ้างไม่ได้บ้างแล้วเลยไม่ได้ลองต่อ 55

หลังจากเลือก โหลด ติดตั้งอะไรเสร็จเรียบร้อยหมดแล้ว ก็เริ่มเล่นได้ทันทีเลยครับ โดยบน Desktop จะมี Icon Cloudera Home อยู่ ก็ให้เปิด Browser บน VM ได้เลยครับ เราจะถูกส่งไปยังหน้า http://quickstart.cloudera/#/ ซึ่งอยู่ในเครื่องของเราเอง คราวนี้ก็คลิกต่อที่ Start Tutorial เพื่อเริ่มต้นทำ Lab ได้เลย โดยเนื้อหาใน Lab จะมีดังนี้

techtalkthai_cdh_testing_02

  • เตรียม Environment ต่างๆ ได้แก่ HDFS, Hive, Hue, Impala และ YARN (MR2) ซึ่งตรงนี้ Cloudera ทำมาให้หมดแทบจะเสร็จอยู่แล้วครับ
  • ใช้ Apache Sqoop แปลงข้อมูลจาก MySQL ลงไปใน HDFS และแปลงไฟล์ให้อยู่ใน Format ของ Apache Avro
  • ใช้ Hive และ Impala ทำการ Query ข้อมูลออกมาจากไฟล์ใน HDFS ด้วยคำสั่งที่คล้ายกับ Statement ปกติใน Relational Database
  • วิเคราะห์ข้อมูล Structured Data ร่วมกับ Unstructured Data ด้วยการวิเคราะห์ Real-time Log จากการใช้ Flume
  • ใช้ Apache Spark เพื่อวิเคราะห์ความสัมพันธ์ระหว่างข้อมูลได้อย่างรวดเร็ว
  • สร้าง Search Index ด้วย Apache Solr
  • ทำ Extract-Transform-Load (ETL) กับข้อมูล Log ที่ถูกสร้างขึ้นแบบ Real-time ด้วย Flume และ morphline
  • สร้าง Dashboard ด้วย Interface ของ Hue

จะเห็นได้ว่าระหว่างการทำ Lab นี้เราจะได้รู้จัก Component ใหม่ๆ เพิ่มขึ้นเรื่อยๆ และเห็นความแตกต่างหรือความสัมพันธ์ของ Component เหล่านี้ในการทำ Big Data Analytics แบบพื้นฐานไปด้วย ดังนั้นหลังจากเล่นเสร็จทีมงาน TechTalkThai เลยรู้สึกว่าคุ้มกับเวลาที่เสียไปดี (เสียเวลาไปน้อยมาก แถมถ้าทำบน VMware กด Suspend VM มาเล่นต่อวันหลังได้) และง่ายพอที่ทุกคนในสายงาน IT จะลองเล่นด้วยตัวเองได้ (คือถึงขั้นมีคำสั่งให้ก๊อปแปะลงไปที่ Terminal ได้เลย) เป็นการเริ่มต้นที่ง่ายและกว้างดี เลยเอามาฝากกันเผื่อเป็นประโยชน์ในการเห็นภาพรวมได้กว้างขึ้นครับผม

รอบหน้าถ้าหา Tutorial แบบ Advance ขึ้นกว่านี้ (และฟรี) ได้ก็จะเอามาฝากกันอีกทีนะครับ หรือใครมีตัวไหนแนะนำยังไงแล้วอยากแบ่งปันกัน ก็ส่งข้อมูลเข้ามาได้เลยที่ info@techtalkthai.com นะครับผม

About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

ผู้เชี่ยวชาญเตือนพบช่องโหว่ Zero-day กระทบผู้ใช้ Zyxel หลายรุ่น เสี่ยงต่อการถูกโจมตี

มีการค้นพบช่องโหว่ Zero-day ในผลิตภัณฑ์ Zyxel หลายรุ่น ซึ่งพบการโจมตีจริงแล้ว แแต่ที่ผู้เชี่ยวชาญแสดงความเป็นห่วงงเพราะทาง Vendor ยืนยันว่าผลิตภัณฑ์เหล่านั้นหมดอายุไปแล้วและจะไม่มีการแพตช์ ทำให้ผู้ใช้งานอาจเป็นเป้านิ่งสำหรับ Botnet หรือ การโจมตีทางไซเบอร์

Dynatrace เปิดตัว ‘Observability for Developer’

Observability for Developer เป็นโซลูชันใหม่ล่าสุดที่ Dynatrace นำเสนอเพื่อช่วยงานนักพัฒนาให้แก้ไขปัญหาได้อย่างรวดเร็วมากขึ้น