Yahoo เปิดโอเพ่นซอร์สโปรเจค TensorFlowOnSpark ให้นักพัฒนารัน TensorFlow บน Hadoop และ Spark อย่างง่ายๆ

Yahoo เปิดโอเพ่นซอร์ส library ที่เชื่อม TensorFlow เข้ากับ Apache Hadoop และ Spark เพื่อมให้นักพัฒนาสร้างโมเดล deep learning ที่ใช้ความสามารถของ Spark ในการเพิ่มขยายระบบและรันแบบ distributed ผ่าน CPU และ GPU ของ server cluster

Credit: http://yahoohadoop.tumblr.com

หลังจากได้ทดลองเครื่องมือที่มีอยู่แล้วอย่าง SparkNet และ TensorFrame เพื่อเชื่อมต่อ TensorFlow เข้ากับ Spark แต่ผลไม่เป็นที่น่าพอใจนัก นักพัฒนาของ Yahoo จึงเริ่มพัฒนาโปรเจค TensorFlowOnSpark ซึ่งทำให้สามารถรัน TensorFlow ร่วมกับ Spark ได้

จุดเด่นของ TensorFlowOnSpark มีดังนี้

  • แปลงโค้ดจากโปรแกรม TensorFlow ที่มีอยู่แล้วได้ง่ายๆ
  • รองรับฟังก์ชั่นของ TensorFlow ทั้งหมด: การเทรนแบบ synchronous/asynchronous, โมเดลและข้อมูลแบบ parallel, inferencing and TensorBoard
  • การสื่อสารระหว่างเซิฟเวอร์โดยตรงทำให้โมเดลสามารถเรียนรู้ได้เร็วขึ้น
  • สามารถนำชุดข้อมูลเข้ามายัง HDFS ผ่าน Spark หรือดึงออกผ่าน TensorFlow
  • นำมาใช้งานร่วมกับ data processing pipeline และ library เช่น MLlib หรือ CaffeOnSpark ได้โดยง่าย
  • มีการติดตั้งที่ง่ายทั้งบน cloud หรือ on-premise: CPU & GPU, ethernet และ Infiniband

Yahoo นับว่าเป็นผู้ใช้รายใหญ่รายหนึ่งของ Apache Spark เลยก็ว่าได้ โดยก่อนหน้านี้ Yahoo ได้เปิดโอเพ่นซอร์ส CaffeOnSpark ที่ช่วยให้นักพัฒนาสร้างโมเดล deep learning จาก Caffe ที่สามารถทำงานแบบ parallel ได้

 

ที่มา:

About PRY

Check Also

Google Cloud เพิ่ม BigQuery datasets บน Marketplace แล้ว

Google Cloud ประกาศเปิดให้ผู้ใช้งานสามารถเข้าถึงชุดข้อมูล BigQuery datasets ผ่าน Google Cloud Marketplace ด้วยการผสานการทำงานร่วมกับ BigQuery Analytics Hub เพื่อเพิ่มช่องทางการเข้าถึงข้อมูลสำหรับองค์กร

Goldman Sachs คาดการณ์การใช้พลังงานของศูนย์ข้อมูลจะเพิ่มขึ้นกว่า 2 เท่าภายในปี 2030 เหตุจาก AI

การแข่งขันด้าน AI ส่งผลให้ความต้องการใช้พลังงานในศูนย์ข้อมูลทั่วโลกพุ่งสูงขึ้นอย่างมาก โดย Goldman Sachs คาดว่าจะเพิ่มขึ้นจาก 55 GW เป็น 122 GW ภายในปี 2030