Amazon AWS ได้ทำการเปิดเผย Public Data Set ซึ่งเป็นข้อมูลของ Genome ข้าว 3,024 สายพันธุ์ ซึ่งมีจำนวนตัวอย่างข้อมูลมากกว่า 30 ล้านชุด ที่รวบรวมมาจาก 89 ประเทศทั่วโลก เพื่อให้ Data Scientist ทั่วโลกสามารถค้นหาวิธีการและปัจจัยในการเพาะปลูกข้าวที่มีประสิทธิภาพมากกว่าเดิมได้
ทั้งนี้ ข้าว เป็นอาหารของประชากรทั่วโลกกว่าครึ่งโลก และเป็นแหล่งพลังงานในการบริโภคถึง 20% แต่เพื่อให้การผลิตข้าวนั้นเพียงพอต่อการเพิ่มขึ้นของประชากรโลก เราจะต้องหาวิธีการในการเพาะปลูกข้าวให้ได้ผลมากขึ้นถึง 25% ภายในปี 2030 ซึ่งเมื่อเปรียบเทียบจากสถิติที่ผ่านมานั้น หากเราไม่ทำอะไรเลย ข้าวก็จะไม่เพียงพอต่อการบริโภค ดังนั้นการค้นหาวิธีการที่ดีขึ้นด้วยกระบวนการวิทยาศาสตร์ และการวิเคราะห์ข้อมูลจึงเป็นสิ่งจำเป็น
การรวบรวมข้อมูลสายพันธุ์ข้าวครั้งนี้เกิดขึ้นโดยความร่วมมือของ Chinese Academy of Agriculture Sciences, BGI Shenzhen และ International Rice Research Institute ร่วมกับ DNAnexus ในการวิเคราะห์ข้อมูลของสายพันธุ์ข้าวที่ได้รับมาบน Compute Cores ของ AWS กว่า 37,000 Cores จนแล้วเสร็จในระยะเวลาเพียงสองวัน ซึ่งถือว่าเร็วกว่าการวิเคราะห์ข้อมูลด้วยระบบ Local Infrastructure ถึง 200 เท่าเลยทีเดียว
สำหรับผู้ที่สนใจและอยากนำข้อมูลของข้าวเหล่านี้ไปวิเคราะห์ สามารถตรวจสอบวิธีการเข้าถึง Amazon AWS Pubic Data Set ชุดนี้บน Amazon AWS S3 ได้ทันทีที่ https://aws.amazon.com/public-data-sets/3000-rice-genome/
ที่มา: https://aws.amazon.com/about-aws/whats-new/2015/09/new-aws-public-data-set-3000-rice-genome-on-aws/