แนวทางการวิเคราะห์ข้อมูลขนาด 2,200PB ของ CERN ในโครงการ LHC

March 12, 2017 Big Data and Data Science, Cloud and Systems, Cloud Services, Data Center, Featured Posts, IT Case Studies, IT Knowledge

CERN หน่วยงานวิจัยทางด้านฟิสิกส์นิวเคลียร์ได้ออกมาเปิดเผยถึงการวิเคราะห์ข้อมูลจากการทดลองด้วยเครื่อง Large Hadron Collider (LHC) ที่เกิดขึ้น ซึ่งมีขนาดใหญ่ถึง 2,200PB (2,200,000TB) และเล่าถึงเทคโนโลยีที่กำลังพิจารณาเพื่อนำมาใช้ในอนาคต

ข้อมูลที่ CERN ได้รับจากอุปกรณ์ตรวจจับภายใน LHC นี้มีขนาดรวมกันทั้งสิ้นถึง 2,200PB หรือราวๆ 2,200,000TB ซึ่ง CERN นั้นได้คัดกรองข้อมูลที่ไม่มีประโยชน์ออกไปถึง 99% จนเหลือข้อมูลที่ต้องจัดเก็บและวิเคราะห์จริงๆ ด้วยกัน 22PB หรือราวๆ 22,000TB และด้วยข้อมูลขนาดใหญ่ระดับนี้ที่เหล่านักฟิสิกส์ทั่วโลกต้องนำไปวิเคราะห์ต่อภายใน Data Center กว่า 150 แห่งทั่วโลก ทำให้ CERN ไม่สามารถจัดเก็บข้อมูลดิบเหล่านี้ใน Relational Database ได้ ทำให้ CERN ต้องเลือกที่จะเก็บข้อมูลดิบเหล่านี้ใน ROOT Structured File แทน

ในขณะเดียวกัน Relational Database อย่าง Oracle 11gR2 ที่มาพร้อมกับ Real Application Clusters และ Active Data Guard กลับมีบทบาทเป็นอย่างมากในการจัดเก็บและบริหารจัดการข้อมูล Metadata ของข้อมูลดิบทั้งหมดเหล่านั้น

ในแง่ของการประมวลผลข้อมูล ที่ผ่านมา CERN ทำการประมวลผลข้อมูลแบบ Batch ซึ่งปัจจุบันทาง CERN ก็กำลังมองหาวิธีการอื่นๆ ที่จะทำให้เหล่านักวิจัยสามารถทำการวิเคราะห์ข้อมูลขนาดใหญ่มากขึ้นได้โดยใช้เวลาที่น้อยลง ซึ่ง CERN ก็กำลังทดสอบเทคโนโลยีทางด้าน Big Data ร่วมกับ Partner อย่าง HP, Huawei, Intel, Oracle และ Siemens ในขณะเดียวกัน CERN เองก็กำลังมองหาเทคโนโลยีสำหรับการจัดเก็บข้อมูลเพิ่มเติม โดยพิจารณาทั้ง Relational Database และ NoSQL อย่างเช่น Apache Hadoop และ Amazon Dynamo ควบคู่กันไป ในการใช้รับส่งข้อมูลไปกลับร่วมกับระบบของ Oracle ที่มีการใช้งานอยู่ในปัจจุบัน

สิ่งที่ CERN กำลังมองอยู่ในอนาคตคือ คำทำนายที่ว่าภายในอีก 5 ปี Data Center ที่สามารถประมวลผลได้มากกว่า “หนึ่งล้านล้านล้าน” ชุดคำสั่งจะเกิดขึ้นจริง และ CERN ก็กำลังคิดถึงแนวทางที่ CERN ควรจะเลือกใช้ในโลกยุคสมัยนั้นที่พลังประมวลผลเหนือกว่าปัจจุบันอย่างเทียบชั้นกันไม่ได้ แต่แน่นอนว่าความท้าทายเรื่องพลังงานสำหรับใช้ในการประมวลผลระดับนี้ และวิธีการโอนย้ายข้อมูลที่มีประสิทธิภาพเพียงพอนั้นก็ถือเป็นโจทย์ใหญ่ของ CERN

ปัจจุบัน CERN ได้เพิ่มขนาดของระบบจัดเก็บข้อมูลจากเดิมที่มี 65,000 Processor Core และ 30PB Storage ด้วยการสร้าง Data Center ที่มี 20,000 Processor Core และ 5.5PB Storage เพิ่มอยู่ ในขณะที่งานวิเคราะห์ข้อมูลส่วนใหญ่นั้นเกิดจาก Data Center อีก 150 แห่งทั่วโลกที่มีชื่อรวมกันว่า Worldwide LHC Computing Grid (WLCG) ที่มีหน่วยประมวลผลรวมกัน 150,000 ชุด และ CERN ก็กำลังพิจารณาถึงแผนการที่จะเพิ่มขนาดของหน่วยประมวลผลเหล่านี้เป็นอีกเท่าตัวด้วย Cloud Computing

ก็ถือเป็นเรื่องราวที่น่าสนใจดีครับกับการจัดการข้อมูลขนาดใหญ่ระดับนี้ ซึ่งเรามักไม่ได้เห็นกันบ่อยๆ โดยผู้ที่สนใจรายละเอียดเกี่ยวกับโครงการ CERN LHC สามารถเข้าไปศึกษาได้ที่ https://home.cern/topics/large-hadron-collider นะครับ

ที่มา: http://www.techrepublic.com/blog/european-technology/cern-where-the-big-bang-meets-big-data/

กลุ่มผู้ผลิตชิปวอนทำเนียบขาวเลี่ยงแทรกแซงกลไกตลาดหน่วยความจำ

สมาคมอุตสาหกรรมชิปได้ออกมาเรียกร้องให้ทำเนียบขาวหลีกเลี่ยงการเปลี่ยนแปลงครั้งใหญ่ในแนวทางการกำกับดูแลตลาดชิปหน่วยความจำ

Tenable จับมือ Anthropic เข้าร่วม “Project Glasswing” ยกระดับการป้องกันไซเบอร์ในยุค AI [Guest Post]

การเข้าร่วม Project Glasswing และการได้ร่วมทำงานกับ Claude Mythos Preview ในครั้งนี้ จะช่วยให้ Tenable สามารถสนับสนุนลูกค้าให้เข้าใจพฤติกรรมของโมเดล AI ระดับแนวหน้า (Frontier AI) …

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

แนวทางการวิเคราะห์ข้อมูลขนาด 2,200PB ของ CERN ในโครงการ LHC

About techtalkthai

Related Articles

Check Also

กลุ่มผู้ผลิตชิปวอนทำเนียบขาวเลี่ยงแทรกแซงกลไกตลาดหน่วยความจำ

Tenable จับมือ Anthropic เข้าร่วม “Project Glasswing” ยกระดับการป้องกันไซเบอร์ในยุค AI [Guest Post]

แนวทางการวิเคราะห์ข้อมูลขนาด 2,200PB ของ CERN ในโครงการ LHC

Share this:

About techtalkthai

Related Articles

Check Also