Azure ประกาศ Data Lake Storage Gen2 และ Data Explorer เข้าสู่สถานะพร้อมใช้งาน

Azure ได้ออกมาประกาศว่า Data Lake Storage Gen2 และ Data Explorer ได้เข้าสู่สถานะพร้อมใช้งานแล้ว นอกจากนี้ยังได้ออก Data Factory Mapping Data Flow ซึ่งเป็นการสร้างแผนผังการทำงานที่ไม่ต้องเขียนโค้ด

credit : azure.microsoft.com

Azure Data Lake Storage (ADLS)

ADLS ถูกออกแบบมาให้รองรับการทำงานของระบบ Apache ได้ เช่น Hadoop และ Spark เป็นต้น ดังนั้น Azure จึงได้สร้างส่วนประกอบสำคัญ 2 ส่วนดังนี้

  • Azure Blob File System Driver (ABFS) เข้ามาตอบโจทย์ผ่านรูปแบบของ URI เช่น ‘abfs[s]://file_system@account_name.dfs.core.windows.net/<path>/<path>/<filename>’ นอกจากนี้ตัว File System Semantics ยังถูกสร้างไว้ที่ฝั่งเซิร์ฟเวอร์ซึ่งไม่ต้องไปยุ่งเกี่ยวกับทางไคลเอนต์เลยเพื่อการรันตีความถูกต้องของ Transaction 
  • Hierachical namespace (HNS) ถูกสร้างขึ้นเพื่อรองรับ Atomic Operation กับไฟล์และโฟลเดอร์ (ถ้าทำก็ต้องทำทั้งหมดหรือไม่ทำเลย เช่น การย้ายไฟล์ทำแค่บางส่วนไม่ได้ เป็นต้น) โดยสามารถลด Overhead การประมวลผลข้อมูลขนาดใหญ่ใน Blob ลงได้

ในด้านของความมั่นคงปลอดภัย ADLS ก็มีหลายฟีเจอร์ดังนี้

  • เข้ารหัสข้อมูลที่จะส่งและที่วางอยู่ผ่าน TLS 1.2
  • Storage Account Firewall
  • สามารถทำงานร่วมกันกับ Virtual Network
  • สามารถกำหนดการเข้าถึงแบบ Role-based
  • รองรับ POSIX หรือ ACLs Compliant ทำให้สามารถจำกัดการเข้าถึงตามผู้ใช้ กลุ่มผู้ใช้หรือบริการได้

โดย ADLS สามารถทำงานร่วมกับบริการอื่นๆ ของ Azure ได้ เช่น Databricks, HDInsight, Data Factory, SQL Data Warehouse และ Power BI เป็นต้น รวมถึงทำงานการสนับสนุนกับ Cloudera และ Hortonworks ได้ด้วย

Azure Data Explorer (ADX)

credit : azure.microsoft.com

ADX สามารถทำการ Query ข้อมูลกว่า 1 พันล้านรายการภายในเวลาไม่กี่วินาทีโดยที่ไม่ต้องไม่แก้ไขข้อมูลหรือต้องการ Metadata ซึ่ง ADX สามารถเชื่อมต่อกับ Data Lake Storage, Power BI, SQL Data warehouse ได้อย่างลงตัว สำหรับส่วนประกอบสำคัญของ ADX มีดังนี้ (ดูภาพประกอบด้านบน)

  • Data Management (DM) คือตัวจัดการ Raw data และบริหารจัดการความผิดพลาดอื่นๆ ซึ่งมีการทำ indexing และ compression เพื่อเพิ่มประสิทธิภาพด้วย
  • Engine Service คือส่วนประมวลผล Raw data ที่วิ่งเข้ามาเพื่อตอบโจทย์การ Query โดยการผสมผสานระหว่าง Auto Scaling และ Data Sharding ทำให้สามารถตอบสนองผู้ใช้งานได้อย่างมีประสิทธิภาพ 

อย่างไรก็ตาม Query Language ยังถูกออกแบบมาให้เข้าใจได้ง่ายซึ่งเป็นผลดีต้อผู้ใช้งานเพราะไม่ต้องจำอะไรซับซ้อนด้วย โดยปัจจุบัน ADX ให้บริการแล้วบน 41 Regions ของ Azure

Azure Data Factory Mapping Data Flow

credit : azure.microsoft.com

Azure Data Factory (ADF) เป็นบริการสำหรับทำ Orchestration และ Automation โดยมี Built-in ที่รองรับการเชื่อมต่อกับแหล่งข้อมูลแบบ Semi-structure และ Unstructured ได้กว่า 80 แบบ ซึ่งด้วยความสามารถของ Mapping Data Flow ใน ADF ผู้ใช้งานจะสามารถออกแบบ สร้างและจัดการกระบวนการทำงานได้อย่างง่ายดาย (ดูภาพประกอบด้านบน) โดยตอนนี้อยู่ในสถานะทดสอบแล้วใน 21 regions สามารถติดตามเพิ่มเติมได้ที่นี่

ที่มา : https://azure.microsoft.com/en-us/blog/individually-great-collectively-unmatched-announcing-updates-to-3-great-azure-data-services/


About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

Microsoft เปิดตัวภาษา Bosque เขียนโปรแกรมแบบไม่มี Loop ได้แรงบันดาลใจจาก TypeScript

Microsoft ได้ออกมาเปิดตัว Open Source Programming Language ใหม่ที่มีชื่อว่า Bosque โดยมุ่งเน้นไปที่ความง่ายดายในการพัฒนาเป็นหลัก

Salesforce ออกบริการใหม่ช่วยผู้ใช้ให้ปรับแต่ง AI ได้ตามความต้องการของธุรกิจ

Salesforce หนึ่งในผู้นำด้าน CRM ได้ประกาศออกบริการใหม่บน Einstein Platform ที่จะช่วยให้นักพัฒนาใช้ AI ได้ตอบโจทย์กับลักษณะของธุรกิจ