ทดลองเล่น Hadoop และ Big Data Analytics กันง่ายๆ ฟรีๆ ใน 2 ชั่วโมงด้วย Cloudera QuickStart VM

Big Data Analytics เป็นคำที่ทุกคนในวงการได้ยินกันมานาน หลายๆ คนก็คงอยากสัมผัสกับเทคโนโลยีเหล่านี้แต่ไม่รู้จะเริ่มต้นยังไง วันนี้ทาง TechTalkThai เลยขอออกมาแชร์ประสบการณ์ในการลองเล่น Apache Hadoop แบบง่ายๆ ใช้เวลาไม่ถึง 2 ชั่วโมง แต่ได้เห็นภาพรวมคร่าวๆ ของเทคโนโลยี Big Data Analytics ต่างๆ มาให้ทุกคนได้ลองเล่นตามกันด้วย Cloudera CDH 5.8 QuickStart VM ที่สามารถลองเล่นได้ทุกคนไม่ว่าจะเป็น IT Manager, Programmer, Network Engineer, System Engineer หรือ Security Expert ดังนี้ครับ

 

รู้จักกับ Cloudera กันก่อน

Cloudera http://www.cloudera.com/ เป็นบริษัทชั้นนำทางด้าน Big Data Platform  ที่ดังที่สุดในตลาดรายหนึ่ง โดย Cloudera นี้จะนำ Apache Hadoop และ Open Source Component ต่างๆ ที่เกี่ยวข้องมาแพ็ครวมกันเป็น Distribution ให้ พร้อมมีระบบบริหารจัดการให้เสร็จสรรพ เรียกง่ายคือ Cloudera ทำให้การใช้งาน Apache Hadoop เพื่อทำ Big Data Analytics นั้นง่ายขึ้นนั่นเอง

techtalkthai_cdh_testing_01

ลองเล่น Apache Hadoop กันเลย

Cloudera นั้นได้พัฒนา QuickStart VM ขึ้นมาเพื่อให้ทุกคนในสาย IT ได้ลองเข้าถึงเทคโนโลยีและแนวคิดของ Big Data Analytics กันง่ายๆ ผ่านระบบ Lab ที่สามารถทำเองเล่นเองได้เลย ทำให้เราได้ลองใช้เครื่องไม้เครื่องมือต่างๆ ในการวิเคราะห์ข้อมูล, แสดงผล และบริหารจัดการ Infrastructure กันพอเป็นไอเดีย

ก่อนอื่นนั้นทุกคนต้องเลือกก่อนครับว่าจะทดลองใช้ Cloudera QuickStart VM ทางไหน ดังนี้

  • โหลดมาลองในเครื่องตัวเองได้ที่ https://www.cloudera.com/downloads/quickstart_vms/5-8.html โดยรองรับ VMware (รองรับเฉพาะ CPU Intel), VirtualBox และก็ KVM ครับ ใช้แรมประมาณ 4GB (ทางทีมงานลองใช้ทางนี้แหละ)
  • เล่นบน Cloudera Live ได้ด้วยการลงทะเบียนที่ http://www.cloudera.com/developers/get-started-with-hadoop-tutorial.html ใครลองแล้วเวิร์คหรือไม่เวิร์คยังไงก็มาบอกกันหน่อยนะครับ พอดีลองเข้าๆ ดูหน้าแรกๆ มันก็เข้าได้บ้างไม่ได้บ้างแล้วเลยไม่ได้ลองต่อ 55

หลังจากเลือก โหลด ติดตั้งอะไรเสร็จเรียบร้อยหมดแล้ว ก็เริ่มเล่นได้ทันทีเลยครับ โดยบน Desktop จะมี Icon Cloudera Home อยู่ ก็ให้เปิด Browser บน VM ได้เลยครับ เราจะถูกส่งไปยังหน้า http://quickstart.cloudera/#/ ซึ่งอยู่ในเครื่องของเราเอง คราวนี้ก็คลิกต่อที่ Start Tutorial เพื่อเริ่มต้นทำ Lab ได้เลย โดยเนื้อหาใน Lab จะมีดังนี้

techtalkthai_cdh_testing_02

  • เตรียม Environment ต่างๆ ได้แก่ HDFS, Hive, Hue, Impala และ YARN (MR2) ซึ่งตรงนี้ Cloudera ทำมาให้หมดแทบจะเสร็จอยู่แล้วครับ
  • ใช้ Apache Sqoop แปลงข้อมูลจาก MySQL ลงไปใน HDFS และแปลงไฟล์ให้อยู่ใน Format ของ Apache Avro
  • ใช้ Hive และ Impala ทำการ Query ข้อมูลออกมาจากไฟล์ใน HDFS ด้วยคำสั่งที่คล้ายกับ Statement ปกติใน Relational Database
  • วิเคราะห์ข้อมูล Structured Data ร่วมกับ Unstructured Data ด้วยการวิเคราะห์ Real-time Log จากการใช้ Flume
  • ใช้ Apache Spark เพื่อวิเคราะห์ความสัมพันธ์ระหว่างข้อมูลได้อย่างรวดเร็ว
  • สร้าง Search Index ด้วย Apache Solr
  • ทำ Extract-Transform-Load (ETL) กับข้อมูล Log ที่ถูกสร้างขึ้นแบบ Real-time ด้วย Flume และ morphline
  • สร้าง Dashboard ด้วย Interface ของ Hue

จะเห็นได้ว่าระหว่างการทำ Lab นี้เราจะได้รู้จัก Component ใหม่ๆ เพิ่มขึ้นเรื่อยๆ และเห็นความแตกต่างหรือความสัมพันธ์ของ Component เหล่านี้ในการทำ Big Data Analytics แบบพื้นฐานไปด้วย ดังนั้นหลังจากเล่นเสร็จทีมงาน TechTalkThai เลยรู้สึกว่าคุ้มกับเวลาที่เสียไปดี (เสียเวลาไปน้อยมาก แถมถ้าทำบน VMware กด Suspend VM มาเล่นต่อวันหลังได้) และง่ายพอที่ทุกคนในสายงาน IT จะลองเล่นด้วยตัวเองได้ (คือถึงขั้นมีคำสั่งให้ก๊อปแปะลงไปที่ Terminal ได้เลย) เป็นการเริ่มต้นที่ง่ายและกว้างดี เลยเอามาฝากกันเผื่อเป็นประโยชน์ในการเห็นภาพรวมได้กว้างขึ้นครับผม

รอบหน้าถ้าหา Tutorial แบบ Advance ขึ้นกว่านี้ (และฟรี) ได้ก็จะเอามาฝากกันอีกทีนะครับ หรือใครมีตัวไหนแนะนำยังไงแล้วอยากแบ่งปันกัน ก็ส่งข้อมูลเข้ามาได้เลยที่ info@techtalkthai.com นะครับผม



About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

รู้จัก Zero-Touch และ One-Touch Provisioning สองสิ่งที่ทำให้ Aruba SD-Branch ติดตั้งใช้งานได้ง่าย

จุดเด่นหนึ่งของโซลูชัน SD-WAN ที่เป็นสากลนั้นก็คือความง่ายดายในการติดตั้งใช้งาน เพื่อให้การขึ้นระบบ SD-WAN ที่มักกระจายอยู่หลายสาขาในพื้นที่ที่ห่างไกลกันและกันนั้นเป็นไปได้อย่างรวดเร็ว และไม่ต้องอาศัยผู้ที่มีความรู้เชิงเทคนิคในการติดตั้งอุปกรณ์ที่แต่ละสาขา ซึ่ง Aruba SD-Branch ที่ครอบคลุมความสามารถ SD-WAN เองก็สามารถตอบโจทย์เรื่องความง่ายดายนี้ได้ด้วยสองเทคนิคที่มีชื่อว่า Zero-Touch Provisioning (ZTP) และ One-Touch Provisioning (OTP) นั่นเอง

Facebook เผยเริ่มใช้ QUIC และ HTTP/3 กับผู้ใช้งานทั่วโลกกว่า 75% แล้ว

Facebook ได้ออกมาเขียน Technical Blog ถึงการเปลี่ยนการเชื่อมต่อจากผู้ใช้งาน Facebook ให้กลายเป็น QUIC และ HTTP/3 สำเร็จไปแล้วกว่า 75% ของทราฟฟิกที่เชื่อมต่อเข้ามายัง Facebook ทั้งหมดในเวลานี้ และพบว่า QUIC สามารถช่วยให้ประสบการณ์ของผู้ใช้งานดีขึ้นได้เป็นอย่างมาก