รู้จักกับ Jupiter: เทคโนโลยี Data Center Networks ของ Google สำหรับเชื่อมต่อ Server หลายหมื่นเครื่องด้วยประสิทธิภาพสูง

สำหรับเหล่า Network Engineer การติดตามสถาปัตยกรรมเครือข่ายใหม่ๆ ถือเป็นหนึ่งในเนื้อหาที่สร้างความรู้และความบันเทิงได้ไม่น้อย และในบทความนี้เราก็จะพาทุกท่านไปรู้จักกับ Jupiter ซึ่งเป็นเทคโนโลยี Data Center Networking ของ Google ที่อยู่เบื้องหลังของบริการ Google Search, YouTube, Gmail, และ Google Cloud Platform อย่าง AI/ML, Compute Engine, BigQuery Analytics, Spanner Database และอื่นๆ กันครับ

*** สำหรับผู้ที่อยากอ่าน Paper งานวิจัยที่เกี่ยวข้องนี้ฉบับเต็ม สามารถอ่านได้ที่ https://research.google/pubs/pub51587/ นะครับ

 

Credit: Google

 

กำเนิด Jupiter: สร้างระบบเครือข่ายเพื่อสนับสนุนการเพิ่มขยายระบบ Server และ Storage ได้แบบ Scale-Out

อย่างที่เราทราบกันดีว่า ทุกวันนี้เทคโนโลยีฝั่ง Server, Storage และ Software Stack ที่ทำงานอยู่บน Hardware เหล่านี้ล้วนมุ่งไปทางการเพิ่มขยายในแบบ Scale-Out กันเป็นหลัก ซึ่งอันที่จริง Google ก็เป็นหนึ่งในบริษัทเทคโนโลยีที่ริเริ่มแนวคิดนี้จากโจทย์ความต้องการที่เฉพาะทางของตนเอง ซึ่งต้องบริหารจัดการ Server จำนวนมหาศาลทั่วโลกมาอย่างยาวนาน

สิ่งที่ Google ต้องการนั้นคือระบบเครือข่ายสำหรับเชื่อมต่อ Server จำนวนหลายหมื่นชุดเข้าด้วยกัน บนความเร็วหลายร้อย Gbps ซึ่งมี Latency ต่ำกว่า 100us นั่นเอง

Google ได้ใช้เวลากว่า 8 ปี ในการผสานรวมระบบเครือข่ายแบบ Optical Circuit Switching (OCS) และ Wave Division Multiplexing (WDM) เข้าไปใน Jupiter ที่เป็นสถาปัตยกรรมเครือข่ายแบบ Software Defined Networking (SDN) ซึ่งถึงแม้แนวทางดังกล่าวมักจะได้รับความเห็นว่าเป็นไปไม่ได้ แต่ Google ก็ทำจนสำเร็จ

ความสำเร็จดังกล่าวทำให้ Jupiter สามารถตอบโจทย์ได้ทั้งการเป็นระบบเครือข่ายที่มีประสิทธิภาพสูงขึ้น, มี Latency ต่ำลง, มีค่าใช้จ่ายที่น้อยลง, ใช้พลังงานน้อยลง, รองรับการทำ Application Priority และ Communication Pattern ได้ในแบบ Real-Time และยังสามารถอัปเกรดระบบเครือข่ายได้โดยไม่มี Downtime

Google ระบุว่า Jupiter สามารถช่วยลด Flow Completion ลงได้ถึง 10%, เพิ่ม Throughput ได้ 30%, ใช้พลังงานน้อยลง 40%, ลดค่าใช้จ่ายลงได้ 30% และที่สำคัญคือสามารถลด Downtime ของระบบลงได้ถึง 50 เท่า

 

วิวัฒนาการของ Jupiter Data Center Networks

เมื่อปี 2015 ทาง Google เคยเผยว่า Jupiter สามารถเป็นระบบเครือข่ายที่รองรับ Server ได้มากกว่า 30,000 เครื่องบนการเชื่อมต่อความเร็ว 40Gbps และรับส่งข้อมูลรวมกันได้ถึง 1Pbps (Petabits per Second) แต่ทุกวันนี้ Jupiter ได้ถูกอัปเกรดขึ้นมาจากเดิมในหลายส่วนแล้ว และเมื่อปี 2022 ก็ได้มีการเผยข้อมูลว่า Jupiter สามารถรับส่งข้อมูลรวมกันได้มากกว่า 6Pbps เลยทีเดียว

แนวคิดหลักที่ Google ใช้ในการออกแบบ Jupiter ในช่วงแรกเริ่ม มีด้วยกัน 3 ส่วน ได้แก่

  1. Software Defined Networking (SDN) ระบบ Control Plane แบบรวมศูนย์ที่สามารถแบ่งชั้นการจัดการได้ เพื่อควบคุมและบริหารจัดการ Switching Chip จำนวนหลายพันชุดภายในระบบเครือข่าย
  2. Clos Topology การวาง Non-Blocking Multistage Switching Tolology ด้วยการใช้ Radix Switch Chip ขนาดที่เล็กลงแต่ะกระจายตัวอยู่ทั่วทั้งเครือข่าย
  3. Merchant Switch Silicon ใช้ส่วนประกอบสำหรับระบบ Ethernet Switching ที่มีความคุ้มค่าและหาได้ทั่วไป เพื่อรองรับการรับส่งข้อมูลทั้งสำหรับส่วนของระบบเครือข่ายทั่วไป และระบบเครือข่ายสำหรับ Storage

การใช้ 3 แนวคิดนี้ก็เป็นไปเพื่อรองรับสถาปัตยกรรมระบบของ Google ที่เป็นแบบ Distributed Systems แต่ทั้งนี้ Google ก็ยังคงเผชิญกับความท้าทาย 2 ประการ

  1. Data Center Network จะต้องถูกติดตั้งใช้งานในระดับอาคาร ซึ่งอาจใช้พลังงาน 40MW หรือมากกว่านั้น อีกทั้ง Server และ Storage ที่ใช้มักมีการเปลี่ยนแปลงทางเทคโนโลยีที่บ่อย และต้องอัปเกรดอยู่เสมอ เช่นการอัปเกรดความเร็วการเชื่อมต่อในระดับ 40/100/200/400Gbps
  2. ระบบเครือข่ายจะต้องรองรับการทำ Multi-Tenant และต้องรองรับการ Maintenance แยกส่วนสำหรับแต่ละ Tenant ได้อย่างต่อเนื่อง

แน่นอนว่าการใช้ Clos Topology ในกรณีนี้ย่อมเกิดปัญไม่น้อย เพราะด้วยการใช้ Switch ที่เชื่อมต่อแบบ Spine/Leaf แบบที่เราคุ้นเคยกันนั้น จะส่งผลกระทบต่อการใช้งาน ทั้งในการอัปเกรดอุปกรณ์ และการจัดการระบบเป็นส่วนๆ ในกรณี Multi-Tenant โดยเฉพาะในการเดินสายเชื่อมต่อเครือข่ายที่ต้องเปลี่ยนย้ายสายกันอยู่ตลอดเวลา

สิ่งที่ Google ทำนั้นก็คือการสร้างเทคโนโลยี Optical Circuit Switching (OCS) ขึ้นมา ซึ่งเทคโนโลยีดังกล่าวจะมีหน้าที่ในการควบคุมการเชื่อมต่อระหว่าง Input Fiber Port ว่าจะมีการส่งข้อมูลออกไปยัง Output Fiber Port ใดได้ผ่าน Software

 

Credit: Google

 

เทคโนโลยี OCS นี้เป็นจริงขึ้นมาได้ด้วยการใช้กระจก Microelectromechanical Systems (MEMS) จำนวน 2 ชุด ที่ควบคุมองศาได้ 2 มิติ เพื่อใช้ในการควบคุมผ่าน Software ได้ว่าข้อมูลที่ถูกส่งมายัง Input Fiber Port ในรูปแสง จะถูกสะท้อนออกไปยัง Output Fiber Port ใด ซึ่งแนวคิดนี้เองที่ทำให้ Google สามารถสร้าง Logical Topology สำหรับ Data Center Network ได้ โดยไม่ต้องเข้าไปจัดการเปลี่ยนสายย้ายสายให้วุ่นวาย

แต่แนวคิดดังกล่าวก็มีความซับซ้อนไม่น้อย ทำให้นอกจาก Google จะต้องสร้าง OCS ขึ้นมาแล้ว ก็ยังต้องพัฒนา WDM Transceiver จำนวนมหาศาล, สามารถผลิตได้จริง, สามารถควบคุมปรับแต่งการทำงานผ่านโปรแกรมได้ และมีความมั่นคงทนทานสูงสำหรับการใช้งานจริง ซึ่งเป็นสิ่งที่ยังไม่เคยมีมาก่อน จนเกิดเป็นงานวิจัย และพัฒนาต่อยอดจนกลายเป็น Apollo OCS ที่ถูกใช้งานจริงจนถึงทุกวันนี้

อีกหนึ่งประเด็นที่น่าสนใจก็คือ การแก้ไขใดๆ ที่เกิดขึ้นกับเครือข่ายด้วย OCS นี้จะไม่จำเป็นต้องมีการเพิ่ม Packet Routing หรือ Header Parsing เข้าไปในระบบเครือข่ายเลย เพราะ OCS ใช้การควบคุมการสะท้อนของแสงเป็นหลัก อีกทั้งแสงก็ยังสามารถใช้ส่งข้อมูลระหว่างหลายอาคารที่มีระยะทางไกลได้อยู่แล้ว ทั้งหมดนี้ทำให้ OCS กลายเป็นส่วนหนึ่งของระบบโครงสร้างพื้นฐานภายในอาคาร Data Center ไป โดยสามารถรองรับการใช้งานได้ไม่ว่าข้อมูลที่รับส่งนั้นจะมี Data Rate เท่าใด, มีความยาวคลื่นเท่าใด อีกทั้งยังใช้พลังงานเท่าเดิมเสมอในทุกระดับความเร็วการรับส่งข้อมูล

 

Credit: Google

 

ด้วยเหตุนี้ การใช้ OCS จึงทำให้ Google สามารถตัดชั้นของ Spine Layer ในระบบเครือข่ายออกได้ และใช้ OCS เป็นตัวเชื่อมระหว่าง Port ของ Leaf Switch ทั้งหมดให้กลายเป็น Direct Mesh แทนได้ และทำให้ประสิทธิภาพของเครือข่ายโดยรวมเหนือกว่า Clos Topology ในแง่ประสิทธิภาพเป็นอย่างมาก เพราะสามารถลดชั้นของ Logic ในการรับส่งข้อมูลลงไปได้อีกชั้นหนึ่ง แต่ก็ต้องมีการบริหารจัดการการตั้งค่าสำหรับ Leaf Switch และ Top-of-Rack (ToR) Switch ให้สอดคล้องกับความเปลี่ยนแปลงที่เกิดขึ้น รวมถึงการทำ Routing ในระบบส่วนที่เหลือด้วย ซึ่ง Google ก็อาศัย Orion Software Defined Networking Control Plane ในการจัดการส่วนนี้

 

Credit: Google

 

นอกจากนี้ การใช้ OCS ก็ทำให้ Google ไม่ต้องพะวงกับการทำ Shortest Path Routing อีกแล้ว อีกทั้ง OCS ยังทำให้ Google สามารถเพิ่มหรือลด Bandwidth สำหรับแต่ละ Path ได้ตามต้องการ ทำให้ต้องมีการจัดการขนาด Bandwidth ให้สอดคล้องกับความต้องการของแต่ละ Workload ในแต่ละเส้นทางแบบ Real-Time แทน ซึ่ง Google ก็ได้ใช้เทคโนโลยี Dynamic Traffic Engineering ที่ประยุกต์มาจาก Google B4 WAN จัดการในส่วนนี้แทน

 

Credit: Google

 

จะเห็นได้ว่าจากโจทย์แรกเริ่ม กับเส้นทางวิวัฒนาการของ Jupiter Data Center Networks นั้นได้ทำให้โจทย์และแนวทางการแก้ไขเปลี่ยนไปค่อนข้างมากเลยทีเดียว

 

บทสรุป: 4 องค์ประกอบสำคัญของ Jupiter Data Center Networks

เมื่อนำเทคโนโลยีและแนวคิดทั้งหมดที่ Google ได้สร้างสรรค์ขึ้นมามารวมกัน ภายใน Jupiter Data Center Networks จึงประกอบไปด้วย 4 ส่วนหลักๆ ได้แก่

  1. Optical Circuit Switch สำหรับเป็นจุดเชื่อมต่อหลักของระบบเครือข่ายระดับอาคาร ด้วยแนวคิดการควบคุมการสะท้อนของแสงระหว่าง Input/Output Fiber Port ได้ผ่าน Software
  2. Direct Mesh-based Network Topology เปลี่ยนแปลงเชื่อมพอร์ตระหว่าง Leaf Switch ได้อย่างยืดหยุ่นอิสระผ่านการควบคุมผ่าน Software จนเครือข่ายกลายเป็น Direct Mesh ทำให้มีประสิทธิภาพสูง, มี Latency ต่ำ, ลดค่าใช้จ่าย และใช้พลังงานน้อยลง
  3. Real-Time Topology & Traffic Engineering ปรับเปลี่ยนการเชื่อมต่อและเส้นทางภายในระบบเครือข่ายโดยอัตโนมัติแบบ Real-Time ให้สอดคล้องกับ Application Priority และ Communication Pattern ที่ต้องการ รวมถึงสอดส่องตรวจหาปัญหาที่เกิดขึ้นเพื่อแก้ไขได้อย่างทันท่วงที
  4. Hitless Network Upgrade with Localized Andd/Remove of Capacity สามารถอัปเกรดระบบเครือข่ายได้โดยไม่ต้องมี Downtime ที่เกิดจากการเปลี่ยนแปลงทาง Physical มากอย่างในอดีต และสามารถเพิ่มลดปริมาณ Bandwidth หรือการเชื่อมต่อได้ตามต้องการ

 

ที่มา: https://cloud.google.com/blog/topics/systems/the-evolution-of-googles-jupiter-data-center-network


About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

Tenable ออกโซลูชันใหม่ Tenable One for OT/IoT

IT ไม่ใช่ช่องทางเดียวที่จะถูกโจมตีได้ แต่ยังมีธุรกิจอีกจำนวนมากที่ต้องพึ่งพาระบบ OT และ IoT ในการปฏิบัติการ ด้วยเหตุนี้เองการรู้จักช่องโหว่ที่เป็นความเสี่ยงจึงเป็นเรื่องสำคัญไม่น้อยไปกว่าระบบ IT ล่าสุด Tenable ผู้เชี่ยวชาญด้านการบริหารจัดการช่องโหว่ได้ขยายความสามารถใหม่ให้แพลตฟอร์ม Tenable One รองรับการบริหารจัดการช่องโหว่สำหรับ …

Google เสริมแกร่ง Gemini ด้วยข้อมูลจาก Stack Overflow

Stack Overflow ถือเป็นแหล่งข้อมูลยอดนิยมของเหล่านักพัฒนาแอปพลิเคชันมานานแสนนาน ซึ่งล่าสุดได้เปิด API ที่ชื่อว่า OverflowAPI ประเดิมด้วยพาร์ทเนอร์รายแรกอย่าง Google Gemini for Google Cloud