Apache Spark 2.1.0 ออกแล้ว! รองรับการทำ Structured Streaming ได้ในระดับ Production

Apache Spark ประกาศเปิดตัวรุ่น 2.1.0 ซึ่งมุ่งเน้นการรองรับการทำ Structured Streaming ได้ในระดับ Pruduction ด้วยการเสริมการรองรับ Kafka 0.10 เข้าไป โดยสรุปแล้วมีประเด็นต่างๆ ที่น่าสนใจเกี่ยวกับ Apache Spark 2.1.0 ดังนี้

  • Core and Spark SQL: Data Type API ทำงานได้แบบ Stable แล้ว, เพิ่ม from_json และ to_json สำหหรับใช้แปลงระหว่าง JSON และคอลัมน์ของ String, รองรับการใช้ Python Dictionary เป็น StructType ได้ใน DataFrame ของ PySpark, เพิ่มการทำ Scalable Partition Handling โดยให้ Hive Metastore เก็บข้อมูล Metadata ของ Table Partition ทั้งหมดสำหรับ Spark Table ภายใน Hive Storage เพื่อลด Latency ในการใช้งาน และทำให้ใช้คำสั่ง DDL สำหรับจัดการ Partition ต่างๆ ได้ด้วย Spark Native Format, เพิ่มความเร็วในการทำ Aggregation
  • Structured Streaming: รองรับ Kafka 0.10, รองรับ Metrics สำหรับ Structured Streaming, ออก Stable Format สำหรับ Offset Log, รองรับ Event Time Watermarks, รองรับไฟล์ได้ทุก Format ใน Structured Streaming, เสริมความทนทานในการใช้งาน Structured Streaming ให้สามารถทำงานต่อเนื่องได้ยาวนาน
  • MLib: รองรับการทำ Local Sensitive Hashing, เพิ่มการทำ Multiclass Logistic Regression ใน DataFrame-based API, รองรับการใช้โมเดลจาก Spark 1.x ได้, เพิ่มความเร็วในการทำ Linear Regression สำหรับกรณีที่มีน้อยกว่า 4096 Feature, Random Forest ทำงานได้เร็วขึ้น, ยกเลิก Param Setter ที่ไม่จำเป็นในโมเดลแบบ Tree และ Ensemble ออกไป
  • SparkR: รองรับการทำ Machine Learning มากขึ้น โดยรองรับ LDA/Gaussian Mixture Model/ALS/Random Forest/Gradient Boosted Trees/อื่นๆ, รองรัการทำ Multinomial Logistic Regression, ติดตั้ง 3rd Party Package บน Worker ได้ด้วยการใช้ spark.addFile, มีรุ่น Standalone ติดตั้งมาให้กับ Apache Spark เลย
  • GraphX: รองรับการทำ Personalized Pagerank
  • ปรับปรุงพฤติกรรมการทำงานในบางส่วนของระบบ

ผู้ที่สนใจ Apache Spark 2.1.0 สามารถโหลดได้ทันทีที่ https://spark.apache.org/downloads.html ส่วนผู้ที่อยากอ่านรายละเอียดฉบับเต็ม อ่านได้ในที่มาเลยครับ

ที่มา: https://spark.apache.org/releases/spark-release-2-1-0.html



About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

Google Cloud ออก Secret Manager ช่วยลูกค้าเก็บข้อมูลสำคัญอย่างปลอดภัย

Google Cloud ได้ออกบริการเวอร์ชันเบต้าที่ชื่อ Secret Manager เพื่อช่วยช่วยลูกค้าในการจัดเก็บ API Keys, Passwords, Certificate และข้อมูลอื่นๆ ได้อย่างมั่นใจ

AWS ลดราคา Amazon EKS ลง 50%

AWS ได้ประกาศลดราคาบริการ Amazon Kubernetes Service ลงกว่า 50%