Apache Spark 2.1.0 ออกแล้ว! รองรับการทำ Structured Streaming ได้ในระดับ Production

Apache Spark ประกาศเปิดตัวรุ่น 2.1.0 ซึ่งมุ่งเน้นการรองรับการทำ Structured Streaming ได้ในระดับ Pruduction ด้วยการเสริมการรองรับ Kafka 0.10 เข้าไป โดยสรุปแล้วมีประเด็นต่างๆ ที่น่าสนใจเกี่ยวกับ Apache Spark 2.1.0 ดังนี้

  • Core and Spark SQL: Data Type API ทำงานได้แบบ Stable แล้ว, เพิ่ม from_json และ to_json สำหหรับใช้แปลงระหว่าง JSON และคอลัมน์ของ String, รองรับการใช้ Python Dictionary เป็น StructType ได้ใน DataFrame ของ PySpark, เพิ่มการทำ Scalable Partition Handling โดยให้ Hive Metastore เก็บข้อมูล Metadata ของ Table Partition ทั้งหมดสำหรับ Spark Table ภายใน Hive Storage เพื่อลด Latency ในการใช้งาน และทำให้ใช้คำสั่ง DDL สำหรับจัดการ Partition ต่างๆ ได้ด้วย Spark Native Format, เพิ่มความเร็วในการทำ Aggregation
  • Structured Streaming: รองรับ Kafka 0.10, รองรับ Metrics สำหรับ Structured Streaming, ออก Stable Format สำหรับ Offset Log, รองรับ Event Time Watermarks, รองรับไฟล์ได้ทุก Format ใน Structured Streaming, เสริมความทนทานในการใช้งาน Structured Streaming ให้สามารถทำงานต่อเนื่องได้ยาวนาน
  • MLib: รองรับการทำ Local Sensitive Hashing, เพิ่มการทำ Multiclass Logistic Regression ใน DataFrame-based API, รองรับการใช้โมเดลจาก Spark 1.x ได้, เพิ่มความเร็วในการทำ Linear Regression สำหรับกรณีที่มีน้อยกว่า 4096 Feature, Random Forest ทำงานได้เร็วขึ้น, ยกเลิก Param Setter ที่ไม่จำเป็นในโมเดลแบบ Tree และ Ensemble ออกไป
  • SparkR: รองรับการทำ Machine Learning มากขึ้น โดยรองรับ LDA/Gaussian Mixture Model/ALS/Random Forest/Gradient Boosted Trees/อื่นๆ, รองรัการทำ Multinomial Logistic Regression, ติดตั้ง 3rd Party Package บน Worker ได้ด้วยการใช้ spark.addFile, มีรุ่น Standalone ติดตั้งมาให้กับ Apache Spark เลย
  • GraphX: รองรับการทำ Personalized Pagerank
  • ปรับปรุงพฤติกรรมการทำงานในบางส่วนของระบบ

ผู้ที่สนใจ Apache Spark 2.1.0 สามารถโหลดได้ทันทีที่ https://spark.apache.org/downloads.html ส่วนผู้ที่อยากอ่านรายละเอียดฉบับเต็ม อ่านได้ในที่มาเลยครับ

ที่มา: https://spark.apache.org/releases/spark-release-2-1-0.html

About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

VMware เปิดตัว VCF 9.1 ยกระดับ Private Cloud เพิ่มความคุ้มค่าและความปลอดภัย ตอบโจทย์ยุค AI

VMware ได้ประกาศเปิดตัว VMware Cloud Foundation หรือ VCF 9.1 อย่างเป็นทางการ หวังยกระดับ Private Cloud ให้เป็นแพลตฟอร์มที่บริหารจัดการได้ง่าย คุ้มค่าต่อการลงทุน และมาพร้อมกับระบบรักษาความปลอดภัยที่แข็งแกร่งตั้งแต่ระดับโครงสร้างพื้นฐาน …