Apache Spark 2.1.0 ออกแล้ว! รองรับการทำ Structured Streaming ได้ในระดับ Production

Apache Spark ประกาศเปิดตัวรุ่น 2.1.0 ซึ่งมุ่งเน้นการรองรับการทำ Structured Streaming ได้ในระดับ Pruduction ด้วยการเสริมการรองรับ Kafka 0.10 เข้าไป โดยสรุปแล้วมีประเด็นต่างๆ ที่น่าสนใจเกี่ยวกับ Apache Spark 2.1.0 ดังนี้

  • Core and Spark SQL: Data Type API ทำงานได้แบบ Stable แล้ว, เพิ่ม from_json และ to_json สำหหรับใช้แปลงระหว่าง JSON และคอลัมน์ของ String, รองรับการใช้ Python Dictionary เป็น StructType ได้ใน DataFrame ของ PySpark, เพิ่มการทำ Scalable Partition Handling โดยให้ Hive Metastore เก็บข้อมูล Metadata ของ Table Partition ทั้งหมดสำหรับ Spark Table ภายใน Hive Storage เพื่อลด Latency ในการใช้งาน และทำให้ใช้คำสั่ง DDL สำหรับจัดการ Partition ต่างๆ ได้ด้วย Spark Native Format, เพิ่มความเร็วในการทำ Aggregation
  • Structured Streaming: รองรับ Kafka 0.10, รองรับ Metrics สำหรับ Structured Streaming, ออก Stable Format สำหรับ Offset Log, รองรับ Event Time Watermarks, รองรับไฟล์ได้ทุก Format ใน Structured Streaming, เสริมความทนทานในการใช้งาน Structured Streaming ให้สามารถทำงานต่อเนื่องได้ยาวนาน
  • MLib: รองรับการทำ Local Sensitive Hashing, เพิ่มการทำ Multiclass Logistic Regression ใน DataFrame-based API, รองรับการใช้โมเดลจาก Spark 1.x ได้, เพิ่มความเร็วในการทำ Linear Regression สำหรับกรณีที่มีน้อยกว่า 4096 Feature, Random Forest ทำงานได้เร็วขึ้น, ยกเลิก Param Setter ที่ไม่จำเป็นในโมเดลแบบ Tree และ Ensemble ออกไป
  • SparkR: รองรับการทำ Machine Learning มากขึ้น โดยรองรับ LDA/Gaussian Mixture Model/ALS/Random Forest/Gradient Boosted Trees/อื่นๆ, รองรัการทำ Multinomial Logistic Regression, ติดตั้ง 3rd Party Package บน Worker ได้ด้วยการใช้ spark.addFile, มีรุ่น Standalone ติดตั้งมาให้กับ Apache Spark เลย
  • GraphX: รองรับการทำ Personalized Pagerank
  • ปรับปรุงพฤติกรรมการทำงานในบางส่วนของระบบ

ผู้ที่สนใจ Apache Spark 2.1.0 สามารถโหลดได้ทันทีที่ https://spark.apache.org/downloads.html ส่วนผู้ที่อยากอ่านรายละเอียดฉบับเต็ม อ่านได้ในที่มาเลยครับ

ที่มา: https://spark.apache.org/releases/spark-release-2-1-0.html

About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Stripe ยกระดับระบบชำระเงินสู่โครงสร้างพื้นฐานสำหรับ Machine-to-Machine รับยุค Agentic AI

Stripe เปิดตัวผลิตภัณฑ์ใหม่ 288 รายการ พร้อมส่งแผนพลิกโฉมระบบชำระเงินจากเดิมที่เป็นโครงสร้างพื้นฐานในการทำธุรกรรมสำหรับมนุษย์ ให้กลายเป็นโครงสร้างพื้นฐานที่สามารถตั้งโปรแกรมได้และทำงานอย่างต่อเนื่องเพื่อรองรับธุรกกรรมแบบ Machine-to-Machine ถือเป็นการปูทางเข้าสู่ระบบเศรษฐกิจแบบ Agentic AI อย่างเต็มรูปแบบ