ADPT

Apache Spark 2.1.0 ออกแล้ว! รองรับการทำ Structured Streaming ได้ในระดับ Production

Apache Spark ประกาศเปิดตัวรุ่น 2.1.0 ซึ่งมุ่งเน้นการรองรับการทำ Structured Streaming ได้ในระดับ Pruduction ด้วยการเสริมการรองรับ Kafka 0.10 เข้าไป โดยสรุปแล้วมีประเด็นต่างๆ ที่น่าสนใจเกี่ยวกับ Apache Spark 2.1.0 ดังนี้

  • Core and Spark SQL: Data Type API ทำงานได้แบบ Stable แล้ว, เพิ่ม from_json และ to_json สำหหรับใช้แปลงระหว่าง JSON และคอลัมน์ของ String, รองรับการใช้ Python Dictionary เป็น StructType ได้ใน DataFrame ของ PySpark, เพิ่มการทำ Scalable Partition Handling โดยให้ Hive Metastore เก็บข้อมูล Metadata ของ Table Partition ทั้งหมดสำหรับ Spark Table ภายใน Hive Storage เพื่อลด Latency ในการใช้งาน และทำให้ใช้คำสั่ง DDL สำหรับจัดการ Partition ต่างๆ ได้ด้วย Spark Native Format, เพิ่มความเร็วในการทำ Aggregation
  • Structured Streaming: รองรับ Kafka 0.10, รองรับ Metrics สำหรับ Structured Streaming, ออก Stable Format สำหรับ Offset Log, รองรับ Event Time Watermarks, รองรับไฟล์ได้ทุก Format ใน Structured Streaming, เสริมความทนทานในการใช้งาน Structured Streaming ให้สามารถทำงานต่อเนื่องได้ยาวนาน
  • MLib: รองรับการทำ Local Sensitive Hashing, เพิ่มการทำ Multiclass Logistic Regression ใน DataFrame-based API, รองรับการใช้โมเดลจาก Spark 1.x ได้, เพิ่มความเร็วในการทำ Linear Regression สำหรับกรณีที่มีน้อยกว่า 4096 Feature, Random Forest ทำงานได้เร็วขึ้น, ยกเลิก Param Setter ที่ไม่จำเป็นในโมเดลแบบ Tree และ Ensemble ออกไป
  • SparkR: รองรับการทำ Machine Learning มากขึ้น โดยรองรับ LDA/Gaussian Mixture Model/ALS/Random Forest/Gradient Boosted Trees/อื่นๆ, รองรัการทำ Multinomial Logistic Regression, ติดตั้ง 3rd Party Package บน Worker ได้ด้วยการใช้ spark.addFile, มีรุ่น Standalone ติดตั้งมาให้กับ Apache Spark เลย
  • GraphX: รองรับการทำ Personalized Pagerank
  • ปรับปรุงพฤติกรรมการทำงานในบางส่วนของระบบ

ผู้ที่สนใจ Apache Spark 2.1.0 สามารถโหลดได้ทันทีที่ https://spark.apache.org/downloads.html ส่วนผู้ที่อยากอ่านรายละเอียดฉบับเต็ม อ่านได้ในที่มาเลยครับ

ที่มา: https://spark.apache.org/releases/spark-release-2-1-0.html


About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

2 เทรนด์ที่ต้องรู้จักในการเพิ่มประสิทธิภาพของธุรกิจ: Process Mining และ Data Replication

การนำ Automation มาใช้เพื่อปรับตัวสู่การเป็นองค์กรที่ทำงานได้แบบอัตโนมัติ ถือเป็นกลยุทธ์หลักของหลายธุรกิจองค์กรในการปรับปรุงประสิทธิภาพในการดำเนินงานและกระบวนการต่างๆ ของธุรกิจองค์กรในปี 2021 นี้ และในบทความนี้ TechTalkThai เราก็จะพาทุกท่านไปรู้จักกับ 2 เทรนด์ใหญ่ในการปรับปรุงประสิทธิภาพของธุรกิจ ได้แก่การทำ Process Mining และการทำ Data Replication นั่นเองครับ

เชิญร่วมงานเสวนาออนไลน์ Digital Transformation and Creativity [24 มิ.ย.​ 2021]

TechTalkThai ขอเชิญทุกท่านเข้าร่วมงานเสวนาออนไลน์ ในหัวข้อ Digital Transformation is Driving Thailand’s Unique Competitiveness EP #1 เรื่อง Digital Transformation and …