Dr.Graham Williams ผู้อำนวยการฝ่ายวิทยาศาสตร์ข้อมูลแห่ง Microsoft ได้มาแบ่งปันในประเด็นของ Machine Learning and Data Science ไว้อย่างสรุปย่นย่อในงาน Microsoft Thailand Developer Day ครับ ทางทีมงาน TechTalkThai ก็ขอนำเสนอเรื่องราวเอาไว้ดังนี้ครับ
Data Scientist คือผู้ที่ทำหน้าที่เปลี่ยนข้อมูล ให้กลายเป็นความรู้ที่จะชี้นไปสู่การกระทำที่มีความชาญฉลาดขึ้นได้ ซึ่งใน Microsoft เองก็มีโครงการเกี่ยวกับ Data Science อยู่ค่อนข้างเยอะ และเครื่องมือที่ใช้นั้นก็เป็น Open Source และเครื่องมือต่างๆ จำนวนมากที่เราคุ้นหูกัน ไม่ว่าจะเป็น Hadoop, R, Java, Python และอื่นๆ
การทำ Machine Learning นั้นนิยามก็คือการเปลี่ยน Data ให้กลายเป็น Knowledge ให้ได้ โดยการนำข้อมูลที่รวบรวมทั้งหมดมาใช้เป็น Training Set เพื่อหาความสัมพันธ์ในรูปแบบที่ต้องการ เช่น การจัดหมวดหมู่, การทำนาย และอื่นๆ เพื่อให้เรามีความเข้าใจเกี่ยวกับสิ่งที่เกิดได้มากขึ้นจากข้อมูลที่เรามี (ฟังแล้วได้กลิ่นอายของคณิตศาสตร์และสถิติเข้ามาเต็มๆ ครับ) โดยตัวอย่างการประยุกต์นำ Machine Learning ไปใช้งานนั้นได้แก่
- Classification
- Regression
- Recommenders
- Anomaly Detection
สำหรับความสามารถที่จำเป็นต่อการเป็น Data Scientist นั้นก็ได้แก่ คณิตศาสตร์, สถิติ, การวิเคราะห์เชิงธุรกิจ, วิทยาศาสตร์คอมพิวเตอร์, Data Mining และ Business Intelligence โดยการที่เป็นคนที่มีความรู้ด้านปรัชญาและการมองภาพรวมก็จะช่วยให้การวิเคราะห์ภาพใหญ่ของข้อมูลนั้นสามารถทำได้ดียิ่งขึ้นไปอีก
Dr.Graham ได้อ้างถึง Forbes ที่กล่าวถึงว่า Data Scientist นั้นคืออาชีพที่ดีที่สุดของปี 2016 นี้ ทั้งในแง่ของรายรับต่อปีและตำแหน่งงานที่เปิดรับในสหรัฐอเมริกา และต่อไปข้อมูลก็จะเป็นพื้นฐานของทุกๆ ธุรกิจในอนาคตอีกด้วย
นอกจากนี้ Dr.Graham ยังได้แนะนำภาษา R สำหรับใช้ในการเข้าถึงและประมวลผลข้อมูลต่างๆ ซึ่งรองรับการใช้งานได้ทั้งบน Unix, Windows, Linux และ Mac OS X ซึ่งสามารถใช้งานได้ฟรีๆ โดยที่ออสเตรเลียมีการนำภาษา R ไปใช้สร้างโมเดลเพื่อแนะนำผู้เสียภาษีแต่ละคนในการจ่ายภาษีให้มีประสิทธิภาพมากยิ่งขึ้นได้
สิ่งที่ Microsoft ต้องการจะทำก็คือระบบ Data Science Platform ที่รองรับการเปลี่ยนจาก Data ไปเป็น Intelligent Action ได้แบบครบวงจร โดยรองรับข้อมูลได้ทุกรูปแบบ, รองรับการวิเคราะห์ข้อมูลทุกรูปแบบ, รองรับข้อมูลหรือการประมวลผลได้ทุกขนาด, รองรับได้ทุกความเร็วในการรับและประมวลผลข้อมูลทั้งแบบ Batch, Stremaing, Interactive, รองรับการใช้งานได้บนทุกที่ทุก Platform ทั้งจาก On-premises/Cloud และรองรับได้จากทุกระบบ Software ทั้ง Open Source และ Enterprise Software
ใน Microsoft ตอนนี้มีโครงการเกี่ยวกับ Data and Analytics ด้วยกัน 3 กลุ่มใหญ่ๆ ได้แก่
- Cortana Intelligence Suite ประกอบจากบริการ Azure Big Data and Analytics, Hadoop, Data Lake, Machine Learning, PowerBI, Data Factory, Streaming, Perceptual Intelligence
- Microsoft SQL 2016 ประกอบไปด้วย Server, Azure DB, Azure DW, SQL Server R Series
- Microsoft R Server ประกอบไปด้วย Analytics, Hadoop, Teradata
ทั้งนี้ทั้ง 3 กลุ่มต่างก็ตอบโจทย์ความต้องการที่แตกต่างกันในการทำ Data Science ทั้งในแง่ของการประมวลผล, Platform ในการทำงาน, รูปแบบของข้อมูลที่รองรับ, การเชื่อมต่อกับระบบอื่นๆ และการนำข้อมูลไปใช้งานต่อยอด
จากนั้นทางทีมงาน Microsoft Thailand ก็มาทำการ Demo การใช้ภาษา R สำหรับการทำ Data Analytics บน Platform ของ Microsoft ให้ได้ชมกันด้วยครับ
เอาเป็นว่าจบ Session แล้วพอจะเข้าใจเลยว่าทำไมในปีที่ผ่านมา Microsoft ถึงสนับสนุนการศึกษาภาษา R และปล่อย Platform เกี่ยวกับภาษา R ออกมาค่อนข้างเยอะทีเดียวครับ Microsoft น่าจะตั้งใจให้ R เป็นภาษาแบบ Write Once, Run Anywhere สำหรับการวิเคราะห์ข้อมูลในระบบของ Microsoft นั่นเอง