Breaking News

Apache Spark 2.1.0 ออกแล้ว! รองรับการทำ Structured Streaming ได้ในระดับ Production

Apache Spark ประกาศเปิดตัวรุ่น 2.1.0 ซึ่งมุ่งเน้นการรองรับการทำ Structured Streaming ได้ในระดับ Pruduction ด้วยการเสริมการรองรับ Kafka 0.10 เข้าไป โดยสรุปแล้วมีประเด็นต่างๆ ที่น่าสนใจเกี่ยวกับ Apache Spark 2.1.0 ดังนี้

  • Core and Spark SQL: Data Type API ทำงานได้แบบ Stable แล้ว, เพิ่ม from_json และ to_json สำหหรับใช้แปลงระหว่าง JSON และคอลัมน์ของ String, รองรับการใช้ Python Dictionary เป็น StructType ได้ใน DataFrame ของ PySpark, เพิ่มการทำ Scalable Partition Handling โดยให้ Hive Metastore เก็บข้อมูล Metadata ของ Table Partition ทั้งหมดสำหรับ Spark Table ภายใน Hive Storage เพื่อลด Latency ในการใช้งาน และทำให้ใช้คำสั่ง DDL สำหรับจัดการ Partition ต่างๆ ได้ด้วย Spark Native Format, เพิ่มความเร็วในการทำ Aggregation
  • Structured Streaming: รองรับ Kafka 0.10, รองรับ Metrics สำหรับ Structured Streaming, ออก Stable Format สำหรับ Offset Log, รองรับ Event Time Watermarks, รองรับไฟล์ได้ทุก Format ใน Structured Streaming, เสริมความทนทานในการใช้งาน Structured Streaming ให้สามารถทำงานต่อเนื่องได้ยาวนาน
  • MLib: รองรับการทำ Local Sensitive Hashing, เพิ่มการทำ Multiclass Logistic Regression ใน DataFrame-based API, รองรับการใช้โมเดลจาก Spark 1.x ได้, เพิ่มความเร็วในการทำ Linear Regression สำหรับกรณีที่มีน้อยกว่า 4096 Feature, Random Forest ทำงานได้เร็วขึ้น, ยกเลิก Param Setter ที่ไม่จำเป็นในโมเดลแบบ Tree และ Ensemble ออกไป
  • SparkR: รองรับการทำ Machine Learning มากขึ้น โดยรองรับ LDA/Gaussian Mixture Model/ALS/Random Forest/Gradient Boosted Trees/อื่นๆ, รองรัการทำ Multinomial Logistic Regression, ติดตั้ง 3rd Party Package บน Worker ได้ด้วยการใช้ spark.addFile, มีรุ่น Standalone ติดตั้งมาให้กับ Apache Spark เลย
  • GraphX: รองรับการทำ Personalized Pagerank
  • ปรับปรุงพฤติกรรมการทำงานในบางส่วนของระบบ

ผู้ที่สนใจ Apache Spark 2.1.0 สามารถโหลดได้ทันทีที่ https://spark.apache.org/downloads.html ส่วนผู้ที่อยากอ่านรายละเอียดฉบับเต็ม อ่านได้ในที่มาเลยครับ

ที่มา: https://spark.apache.org/releases/spark-release-2-1-0.html



About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

ธุรกิจประกันภัยกับแนวโน้มในการปรับทีมสู่ Digital Workforce ด้วย RPA โดยผู้เชี่ยวชาญจาก DCS

ถึงแม้ว่าการมาของโรคระบาดทั่วโลกในยามนี้จะทำให้หลายธุรกิจต้องหยุดชะงัก แต่สำหรับบางธุรกิจแล้วนี่คือช่วงเวลาสำหรับการทดลองนำเทคโนโลยีใหม่ๆ มาปรับใช้งานและปรับกระบวนการทำงานให้มีประสิทธิภาพมากยิ่งขึ้นเพื่อเตรียมรับมือกับอนาคต และ บริษัทประกันภัยชั้นนำก็ได้ใช้จังหวะนี้ ในการเปลี่ยนกระบวนการทำงานให้เป็นอัตโนมัติมากขึ้นด้วย Robotic Process Automation หรือ RPA สร้างทีม Digital Workforce มารองรับต่ออนาคตการทำงานในยุค …

เปิดตัว Nutanix Clusters on AWS ใช้งาน Nutanix ได้บน AWS ด้วยประสบการณ์แบบเดียวกับระบบ On-Premises

Nutanix ได้ออกมาประกาศเปิดตัวโซลูชันล่าสุด Nutanix Clusters on AWS โดยนำระบบ HCI และเทคโนโลยีอื่นๆ ของ Nutanix ไปติดตั้งเพื่อให้บริการบนระบบ Amazon Elastic Compute Cloud หรือ Amazon EC2 แบบ Bare Metal เพื่อให้ธุรกิจองค์กรที่กำลังต้องการขยายการใช้งาน Nutanix ไปสู่รูปแบบของ Hybrid Cloud อย่างเต็มตัวนั้น มีทางเลือกที่ง่ายดายเพิ่มเข้ามาอีกทางหนึ่ง