แนวทางการวิเคราะห์ข้อมูลขนาด 2,200PB ของ CERN ในโครงการ LHC

CERN หน่วยงานวิจัยทางด้านฟิสิกส์นิวเคลียร์ได้ออกมาเปิดเผยถึงการวิเคราะห์ข้อมูลจากการทดลองด้วยเครื่อง Large Hadron Collider (LHC) ที่เกิดขึ้น ซึ่งมีขนาดใหญ่ถึง 2,200PB (2,200,000TB) และเล่าถึงเทคโนโลยีที่กำลังพิจารณาเพื่อนำมาใช้ในอนาคต

Credit: CERN

 

ข้อมูลที่ CERN ได้รับจากอุปกรณ์ตรวจจับภายใน LHC นี้มีขนาดรวมกันทั้งสิ้นถึง 2,200PB หรือราวๆ 2,200,000TB ซึ่ง CERN นั้นได้คัดกรองข้อมูลที่ไม่มีประโยชน์ออกไปถึง 99% จนเหลือข้อมูลที่ต้องจัดเก็บและวิเคราะห์จริงๆ ด้วยกัน 22PB หรือราวๆ 22,000TB และด้วยข้อมูลขนาดใหญ่ระดับนี้ที่เหล่านักฟิสิกส์ทั่วโลกต้องนำไปวิเคราะห์ต่อภายใน Data Center กว่า 150 แห่งทั่วโลก ทำให้ CERN ไม่สามารถจัดเก็บข้อมูลดิบเหล่านี้ใน Relational Database ได้ ทำให้ CERN ต้องเลือกที่จะเก็บข้อมูลดิบเหล่านี้ใน ROOT Structured File แทน

ในขณะเดียวกัน Relational Database อย่าง Oracle 11gR2 ที่มาพร้อมกับ Real Application Clusters และ Active Data Guard กลับมีบทบาทเป็นอย่างมากในการจัดเก็บและบริหารจัดการข้อมูล Metadata ของข้อมูลดิบทั้งหมดเหล่านั้น

ในแง่ของการประมวลผลข้อมูล ที่ผ่านมา CERN ทำการประมวลผลข้อมูลแบบ Batch ซึ่งปัจจุบันทาง CERN ก็กำลังมองหาวิธีการอื่นๆ ที่จะทำให้เหล่านักวิจัยสามารถทำการวิเคราะห์ข้อมูลขนาดใหญ่มากขึ้นได้โดยใช้เวลาที่น้อยลง ซึ่ง CERN ก็กำลังทดสอบเทคโนโลยีทางด้าน Big Data ร่วมกับ Partner อย่าง HP, Huawei, Intel, Oracle และ Siemens ในขณะเดียวกัน CERN เองก็กำลังมองหาเทคโนโลยีสำหรับการจัดเก็บข้อมูลเพิ่มเติม โดยพิจารณาทั้ง Relational Database และ NoSQL อย่างเช่น Apache Hadoop และ Amazon Dynamo ควบคู่กันไป ในการใช้รับส่งข้อมูลไปกลับร่วมกับระบบของ Oracle ที่มีการใช้งานอยู่ในปัจจุบัน

สิ่งที่ CERN กำลังมองอยู่ในอนาคตคือ คำทำนายที่ว่าภายในอีก 5 ปี Data Center ที่สามารถประมวลผลได้มากกว่า “หนึ่งล้านล้านล้าน” ชุดคำสั่งจะเกิดขึ้นจริง และ CERN ก็กำลังคิดถึงแนวทางที่ CERN ควรจะเลือกใช้ในโลกยุคสมัยนั้นที่พลังประมวลผลเหนือกว่าปัจจุบันอย่างเทียบชั้นกันไม่ได้ แต่แน่นอนว่าความท้าทายเรื่องพลังงานสำหรับใช้ในการประมวลผลระดับนี้ และวิธีการโอนย้ายข้อมูลที่มีประสิทธิภาพเพียงพอนั้นก็ถือเป็นโจทย์ใหญ่ของ CERN

ปัจจุบัน CERN ได้เพิ่มขนาดของระบบจัดเก็บข้อมูลจากเดิมที่มี 65,000 Processor Core และ 30PB Storage ด้วยการสร้าง Data Center ที่มี 20,000 Processor Core และ 5.5PB Storage เพิ่มอยู่ ในขณะที่งานวิเคราะห์ข้อมูลส่วนใหญ่นั้นเกิดจาก Data Center อีก 150 แห่งทั่วโลกที่มีชื่อรวมกันว่า Worldwide LHC Computing Grid (WLCG) ที่มีหน่วยประมวลผลรวมกัน 150,000 ชุด และ CERN ก็กำลังพิจารณาถึงแผนการที่จะเพิ่มขนาดของหน่วยประมวลผลเหล่านี้เป็นอีกเท่าตัวด้วย Cloud Computing

ก็ถือเป็นเรื่องราวที่น่าสนใจดีครับกับการจัดการข้อมูลขนาดใหญ่ระดับนี้ ซึ่งเรามักไม่ได้เห็นกันบ่อยๆ โดยผู้ที่สนใจรายละเอียดเกี่ยวกับโครงการ CERN LHC สามารถเข้าไปศึกษาได้ที่ https://home.cern/topics/large-hadron-collider นะครับ

 

ที่มา: http://www.techrepublic.com/blog/european-technology/cern-where-the-big-bang-meets-big-data/



About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

SysAdmin Day 2017 งานสัมมนาสำหรับ System Engineer เปิดรับลงทะเบียนตอนเที่ยง 21 กรกฎาคม 2017 นี้

SysAdmin Day 2017 งานสัมมนาแลกเปลี่ยนความรู้ฟรีๆ สำหรับชาว System Engineer โดยเฉพาะ ซึ่งจะจัดขึ้นในวันที่ 28 กรกฎาคม 2017 ที่จะถึงนี้ มีกำหนดเปิดรับลงทะเบียนเริ่มต้นตั้งแต่ตอนเที่ยงของวันที่ 21 …

Wireshark 2.4.0 ออกแล้ว กลายเป็น Stable รุ่นล่าสุดแทน 2.2.8

Wireshark ประกาศเปิดตัวรุ่น 2.4.0 ในฐานะรุ่น Stable ล่าสุด พร้อมฟีเจอร์ใหม่ๆ และโปรโตคอลใหม่ๆ ที่สามารถทำการวิเคราะห์ได้เพิ่มเติม ดังนี้