Breaking News

Computer Vision with AWS

Credit: ShutterStock.com

ประวัติศาสตร์ของ Computer Vision

สำหรับธุรกิจองค์กรทั่วโลกนั้น เทคโนโลยีนี้สร้างโอกาสอย่างมหาศาลในการสร้างสรรค์นวัตกรรมเพื่อเสริมให้กับธุรกิจเดิมที่มีอยู่หรือเกิดเป็นธุรกิจใหม่ขึ้นมา เพื่อที่จะเข้าใจว่าทำไมเราถึงมาอยู่กลางช่วงเวลาที่ Computer Vision กำลังเป็นที่แพร่หลายได้ในตอนนี้ ความเข้าใจประวัติศาสตร์การพัฒนาเทคโนโลยีนี้ตั้งแต่อดีตถือเป็นสิ่งสำคัญ

ประวัติศาสตร์ของ CV ดำเนินมาอย่างยาวนาน ย้อนไปถึงเมื่อช่วงต้นทศวรรษที่ 1970 ซึ่งนักวิจัยได้เริ่มทำการทดลองแนวทางต่างๆ ในการสร้างโมเดลสำหรับระบบคอมพิวเตอร์เพื่อแปลความหมายรูปภาพ ก่อนที่จะทำความเข้าใจองค์ประกอบพื้นฐานของระบบ CV การทำความเข้าใจว่างานวิจัยในแต่ละส่วนถูกพัฒนาขึ้นมาได้อย่างไรนั้นจะเป็นประโยชน์อย่างมากต่อการเข้าถึงที่มาในการพัฒนาอย่างก้าวกระโดดของเทคโนโลยีในช่วงไม่กี่ปีที่ผ่านมานี้

ในช่วงกลางทศวรรษที่ 1970 นักวิจัยด้าน Computer Science ทำการทดลองโมเดลประเภทต่างๆ ในการแปลความหมายของรูปภาพ ด้วยความหวังว่าจะสามารถสร้างเทคโนโลยีที่ระบุองค์ประกอบในรูปภาพได้โดยอัตโนมัติ ถึงแม้ในปัจจุบันงานดังกล่าวจะเป็นเรื่องง่าย แต่ในช่วงทศวรรษที่ 1970 ซึ่งยังคงมีพลังการประมวลผลที่จำกัด (น้อยกว่าเครื่องคิดเลขขนาดเล็กในปัจจุบัน) งานนี้ก็ถือเป็นสิ่งที่ยากมากในการที่จะบรรลุได้ และด้วยแนวทางนี้ งานพื้นฐานอย่างเช่นการทำ Edge Detection ก็เป็นจริงขึ้นมาได้ แต่การขาดแคลนพลังประมวลผลนั้นก็ยังเป็นข้อจำกัดในการสร้างความเป็นไปได้ใหม่ๆ ในยุคนั้น

ในทศวรรษถัดมา Neural Networks (NN) ถูกทดลองใช้งานในศาสตร์หลากหลายสาขาอย่างเช่น Neuroscience, Linguistics และ Computer Science (ในเวลานั้น Computer Science ยังไม่ถือกำเนิดขึ้นมาเลยด้วยซ้ำ!) แนวคิดดั้งเดิมของ Neural Network คือการสร้างแบบจำลองสโตแคสติกที่สามารถเลียนแบบโครงสร้างของระบบประสาท (ไซแนปส์) ในสมองของมนุษย์

อย่างไรก็ดี แม้ว่าระบบ NN ในยุคแรกนั้นจะมีผลลัพธ์ที่น่าสนใจ แต่อัตราการทำงานและการเรียนรู้สิ่งต่างๆ พลังประมวลผลที่ต้องการ และข้อมูลปริมาณมหาศาลที่จำเป็นต่อการฝึกโมเดลนั้นก็ยังคงห่างไกลจากความเป็นจริงที่ต้องการ ทั้งหมดนี้ส่งผลให้การใช้งาน Neural Networks ไม่ได้รับความนิยมเป็นเวลายาวนานกว่า 20 ปี ในขณะที่โมเดลที่ต้องใช้ทรัพยากรน้อยกว่า (เช่น SVM) กลับได้รับความสนใจจากเหล่านักวิจัยด้าน Machine Learning แทน

อย่างไรก็ดี ในช่วงปลายทศวรรษ 2000 ซึ่งพลังประมวลผลนั้นสูงขึ้นเป็นอย่างมาก และราคาของฮาร์ดแวร์ก็ถูกลง นักวิจัยจึงได้เริ่มกลับมาสนใจ Neural Networks กันอีกครั้ง นักวิจัยกลุ่มหนึ่งจาก University of Toronto ได้ตีพิมพ์งานวิจัยด้าน Neural Network Architecture ของพวกเขาซึ่งเป็นที่รู้จักกันในนาม AlexNet (https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf) แนวทางของพวกเขาซึ่งได้กลายเป็นเทคนิคที่ถูกใช้กันอย่างแพร่หลายในงานทางด้าน Computer Vision นั้นก็คือการใช้ Convolutional Layers ที่เป็นแนวทางที่เข้าใจได้ง่ายโดยการตรวจสอบพื้นที่ส่วนเล็กๆ ของภาพ และทำความเข้าใจภาพในแต่ละส่วนเป็นชั้นๆ ภายใน Network หากจะอธิบายโดยไม่ลงลึกถึงประเด็นทางด้านเทคนิคแล้ว ความสามารถในการสร้างสถาปัตยกรรมที่มีหลายชั้นนี้เกิดขึ้นได้จากพลังประมวลผลมหาศาลที่มีให้พร้อมใช้งานในยามนั้น ร่วมกับความสามารถในการบันทึกและทำความเข้าใจข้อมูลหลายพันล้านรายการ

ทั้งหมดนี้ส่งผลให้นักวิจัยเหล่านี้สามารถสร้างโมเดลด้าน Computer Vision ที่สามารถทำนายเนื้อหาของภาพได้ด้วยความผิดพลาดเพียง15% ในขณะที่โมเดลที่ดีรองลงไปนั้นสามารถทำงานได้ด้วยความผิดพลาดที่ 26.2% เท่านั้น ประเด็นนี้ถือเป็นความสำเร็จอย่างก้าวกระโดดในงานวิจัยสายนี้ และผลสืบเนื่องถัดมาก็คือมีโมเดลใหม่ๆ ที่ต่อยอดจากแนวคิดนี้มากมาย จนในที่สุดความแม่นยำของโมเดล Computer Vision ล่าสุดนี้ก็เหนือกว่ามนุษย์แล้ว (มีความผิดพลาดน้อยกว่า 2%) (https://paperswithcode.com/sota/image-classification-on-imagenet)

เนื่องจากในปี 2012 การพัฒนาและการประยุกต์ใช้งาน CV ได้เติบโตอย่างที่ไม่เคยเป็นมาก่อน ไม่เพียงแต่การเพิ่มความแม่นยำในการทำนายเท่านั้น แต่ยังมีการปรับปรุงประเภทของงานที่สามารถบรรลุได้ด้วยเทคโนโลยีนี้ด้วย เช่น การรู้จำวัตถุ (เช่น มีรถกี่คันในภาพ), การแบ่งส่วนพื้นที่ในภาพ (เช่น พื้นที่ส่วนใดคือท้องฟ้า, กำแพง หรือทางเดิน) และสิ่งหนึ่งที่น่าจะเป็นสิ่งที่น่าตื่นเต้นที่สุดก็คือ การที่เทคนิคเหล่านี้สามารถนำไปประยุกต์ใช้กับวิดีโอได้

Computer Vision ที่ AWS

AWS ทำการแบ่ง Machine Learning ออกเป็น 3 ระดับด้วยกัน ได้แก่ ระดับล่าง, กลาง และบน โดยในระดับล่างนั้นคือเป็นระบบโครงสร้างพื้นฐานและ Framework หลักสำหรับการทำ Machine Learning (อย่างเช่น TensorFlow และ MxNet) ระดับกลางคือ ชุดของบริการ Fully Managed Service ที่ทำให้ลูกค้าสามารถสร้างโมเดลของตนเองได้โดยไม่ต้องจัดการฮาร์ดแวร์ด้วยตนเอง และระดับบนคือชุดของ Fully Managed Service ที่สนับสนุนงานเฉพาะทางด้านการทำ Machine Learning อย่างเช่นการทำ Speech Recognition (Amazon Transcribe) หรือ Image Recognition (Amazon Rekognition) แต่ละชั้นเหล่านี้นำเสนอในสิ่งที่แตกต่างกันออกไป อย่างไรก็ดี มาดูกันว่าความสามารถเหล่านี้จะถูกนำไปใช้สร้างระบบ Application ทางด้าน Computer Vision ที่น่าตื่นเต้นและทรงพลังได้อย่างไรบ้าง

Credit: AWS

ถ้าเราดูที่ระดับล่างจะเห็นว่า AWS นั้นมี Instance สำหรับการประมวลผล (CPU และ GPU) ให้เลือกใช้งานมากที่สุดสำหรับใช้ในการสร้าง, ฝึก, ทดสอบ และใช้งานโมเดล Deep Learning ตัวอย่างเช่น EC2 P3dn Instance ที่มี NVIDIA Tesla V100 GPU ให้ใช้งานมากถึง 8 ชุด พร้อมประสิทธิภาพในการประมวลผลที่สูงถึง 1 PetaFLOP ทำให้เป็น GPU ที่ทรงพลังที่สุดบน Cloud และที่สำคัญที่สุด AWS ยังได้ทำการปรับแต่งความสามารถในการประมวลผลสำหรับ Deep Learning Framework หลากหลายระบบ ซึ่งนี่เองก็เป็นสาเหตุที่โค้ดของระบบ TensorFlow กว่า 90% นั้นทำงานอยู่บน AWS ในทุกวันนี้ ประเด็นเหล่านี้ได้ส่งผลให้การฝึกโมเดลนั้นมีความเร็วสูงยิ่งขึ้น และช่วยประหยัดค่าใช้จ่ายในภาพรวมของ Workload ทางด้าน Machine Learning ลงได้

เทคโนโลยีนี้สร้างระบบที่เยี่ยมยอดสำหรับเหล่านักวิทยาศาสตร์ข้อมูลและผู้ที่มีความเชี่ยวชาญด้าน Machine Learning ในเชิงลึก เนื่องจากระบบนี้เปิดให้ผู้เชี่ยวชาญเหล่านี้สามารถสร้างระบบโครงสร้างพื้นฐานและ Workload ทางด้าน Machine Learning ได้ตามต้องการ บริษัทอย่างเช่น Aidoc ซึ่งเป็นธุรกิจ Startup ด้านการวินิจฉัยทางการแพทย์จาก Tel Aviv และ Wix บริการ Platform สำหรับการพัฒนาเว็บไซต์บน Cloud ต่างก็ใช้พลังประมวลผลจาก EC2 P2 และ P3 GPU ร่วมกับ AWS Deep Learning Container เพื่อทำการฝึกและใช้งานโมเดลขนาดใหญ่ ทำให้นักวิทยาศาสตร์ข้อมูลภายในธุรกิจทั้งสองนี้สามารถสร้างและใช้งานโมเดลจาก Sandbox ไปจนถึง Production ได้ในช่วงเวลาที่สั้นลงกว่าในอดีตเป็นอย่างมาก

ถ้าเราหันมาพิจารณาที่ระดับกลาง AWS ได้นำเสนอกลุ่มของบริการ Fully Managed Service อย่างเช่น Amazon SageMaker ซึ่งเป็นระบบ Machine Learning แบบครบวงจรที่ไม่ต้องทำการบริหารจัดการระบบโครงสร้างพื้นฐานหรือ Virtual Machine ด้วยตนเอง หัวใจสำคัญของ Amazon SageMaker นี้ก็คือ Notebooks และ SageMaker Studio ซึ่งเป็นบริการที่จะช่วยให้ลูกค้าสามารถพัฒนาโมเดลทางด้าน Machine Learning ด้วยตนเองได้จากโมเดลที่สร้างขึ้นมาให้เป็นแนวทางหรือโมเดลที่ปรับแต่งเองทั้งหมด ในมุมมองภาพรวม หนึ่งในความสามารถสำคัญของ SageMaker นี้ก็คือความสามารถในการฝึกโมเดลได้แบบกระจายตัว ซึ่งหมายถึงการทำการฝึกโมเดลบนหลายๆ เครื่องพร้อมกัน ส่งผลให้สามารถลดเวลาที่ต้องใช้ในการฝึกลงได้เป็นอย่างมาก และที่สำคัญก็คือสามารถลดค่าใช้จ่ายลงได้ (สามารถลดค่าใช้จ่ายได้ถึง 90% ด้วยการทำ Spot Training)

ด้วยการทำงานบน SageMaker Notebook เป็นหลัก การพัฒนาโซลูชันแบบครบวงจรสำหรับแก้ปัญหาเฉพาะทางด้าน Machine Learning นั้นก็สามารถเป็นจริงขึ้นมาได้ภายในระบบเดียว หนึ่งในข้อได้เปรียบของ Notebook ภายใน SageMaker นี้ก็คือความสามารถในการเข้าถึงโมเดล Machine Learning ที่สร้างเอาไว้ให้พร้อมใช้งานได้แล้วอย่างหลากหลาย หรือหากใช้ AWS Marketplace ก็จะสามารถค้นหาโมเดลที่ถูกฝึกล่วงหน้าเอาไว้แล้วได้หลายพันรายการที่ถูกสร้างขึ้นโดยชุมชนของเหล่านักพัฒนา

สำหรับนักพัฒนาที่คุ้นเคยหรือมีประสบการณ์กับ Machine Learning อยู่แล้ว ก็สามารถพัฒนาโมเดลของตนเองขึ้นมาได้ด้วย Framework อย่างเช่น TensorFlow หรือ PyTorch หรือแม้แต่ไลบรารี่ทางด้าน Machine Learning อย่าง scikit-learn ได้ ทั้งนี้สำหรับโซลูชันทางด้าน Computer Vision นั้น SageMaker ก็มีโมเดลที่ฝึกล่วงหน้าให้พร้อมใช้งานอยู่แล้วมากมาย และมีตัวอย่างของ Notebook สำหรับรองรับงานทางด้าน Computer Vision หลากหลายรูปแบบอย่างเช่นการทำ Image Classification, Object Recognition และ Segmentation ซึ่งสามารถนำไปใช้เป็นจุดเริ่มต้นในการพัฒนาโมเดลเฉพาะสำหรับตอบโจทย์งานที่ต้องการได้ (เช่นการทำ Object Detection สำหรับงานเฉพาะทางบางอย่าง)

AWS ทราบดีว่าไม่ใช่ทุกคนที่ต้องการจะใช้งาน Machine Learning นั้นที่จะเขียนโปรแกรมได้ ดังนั้น SageMaker Studio ซึ่งเป็นระบบ Integrated Development Environment (IDE) ที่มีความสามารถหลากหลายและใช้งานได้อย่างง่ายดายนั้นจึงถูกสร้างขึ้นให้สามารถทำการพัฒนา ML Workflow ได้โดยไม่ต้องเขียนโปรแกรม ในขณะที่อีกแง่มุมหนึ่งที่สำคัญสำหรับทุกโครงการด้าน ML นั้นก็คือการนำโมเดลไปใช้งานจริงเพื่อให้สามารถทำการทำนาย (หรือประมวลผลตามโมเดล) ซึ่งอาจมีค่าใช้จ่ายสูงและต้องใช้พลังประมวลผลที่มีราคาสูง ซึ่ง SageMaker ก็สามารถทำการเรียกใช้งานและติดตั้งโมเดลที่ได้รับการฝึกมาได้ โดยการใช้ Amazon Elastic Inference ซึ่งสามารถประหยัดค่าใช้จ่ายในการเรียกใช้งานโมเดลลงได้มากถึง 75% เลยทีเดียว

บริษัทอย่างเช่น Bayer ได้ใช้งาน SageMaker เพื่อช่วยปรับปรุงประสิทธิภาพในการผลิตอาหาร และลดการสูญเสียในกระบวนการผลิตลงไปพร้อมกัน ด้วยการพัฒนาโมเดลทางด้าน Image Recognition ด้วย SageMaker นี้ก็ทำให้ Bayer สามารถนำเสนอเทคโนโลยีให้เกษตรกรของตนเองเพื่อวิเคราะห์สาเหตุของประเด็นปัญหาที่เกิดขึ้นในการเก็บเกี่ยวผลผลิต ซึ่งเดิมทีนั้นเป็นงานที่ต้องใช้แรงงานอย่างมหาศาลและใช้เวลานานหลายชั่วโมงในการค้นหาและวิเคราะห์ปัญหา โดยการใช้ Computer Vision ภาพของผลผลิตนั้นก็สามารถถูกบันทึกเอาไว้ได้ และด้วยการใช้โมเดลที่ถูกฝึกมา เกษตรกรก็สามารถระบุตำแหน่งของผลผลิตที่เป็นต้นตอของปัญหาได้ด้วยความแม่นยำในระดับที่ยอมรับได้ (https://aws.amazon.com/blogs/machine-learning/harvesting-success-using-amazon-sagemaker-to-power-bayers-digital-farming-unit/?cs=1)

สุดท้าย ที่ระดับบน AWS ได้พัฒนาบริการ Artificial Intelligence (AI) ซึ่งสามารถทำงานเฉพาะทางอย่างเช่นการทำ Speech Recognition, Text Analysis, Search และ Vision เอาไว้ โดยบริการเหล่านี้ อย่างเช่น Amazon Rekognition จะนำเสนอ Fully-Managed End-Point ที่สามารถผสานรวมเข้ากับโซลูชันที่มีอยู่ได้โดยตรงจากการเรียกใช้งานผ่าน API ส่วนงานที่มีความซับซ้อนอย่างเช่น Object Detection, Labelling และ Path Analysis นั้นก็เป็นเพียงความสามารถส่วนหนึ่งที่พร้อมใช้งานได้ของ AWS Rekognition ที่รองรับได้ทั้งการวิเคราะห์ข้อมูลวิดีโอและภาพนิ่ง

บริการเหล่านี้สามารถสร้างคุณค่าให้กับธุรกิจองค์กรได้ทันที โดยจากตัวอย่างกรณีของ NFL ซึ่งเป็นผู้ที่รับผิดชอบกิจกรรมทั้งหมดที่เกี่ยวข้องกับ US National American Football League ซึ่งได้ใช้งาน Rekognition เพื่อปรับปรุงการเข้าถึงข้อมูลภายใน สามารถเพิ่มความเร็วในการค้นหาข้อมูลและ Metadata จากวิดีโอย้อนหลังที่บันทึกเอาไว้เป็นความยาวหลายร้อยชั่วโมงต่อเดือนได้เป็นอย่างมาก โดยถ้าหากไม่มีการใช้งานเทคโนโลยี Computer Vision นี้ NFL ก็ต้องใช้ทีมงานมาจัดการทำ Labeling ให้กับเนื้อหาภายในวิดีโอแทน

อีกหนึ่งตัวอย่างที่น่าสนใจของการใช้ Computer Vision ในธุรกิจองค์กรก็คือการที่ CBS Corporation ซึ่งเป็นธุรกิจสื่อขนาดใหญ่ ได้ใช้ Rekognition เพื่อเปลี่ยนงานที่เคยต้องมีพนักงานทำให้กลายเป็นงานแบบอัตโนมัติแทน เช่น การระบุข้อมูลที่ไม่เหมาะสม หรือเนื้อหาที่มีคำหยาบคายในสื่อ ความสามารถในการระบุประเด็นต่างๆ ในเนื้อหาได้ด้วยความเร็วระดับที่เกือบจะทันท่วงทีนี้ทำให้ประสบการณ์ของลูกค้าของ CBS ดีขึ้นเป็นอย่างมาก

ทั้ง NFL และ CBS นี้ต่างก็เป็นตัวอย่างที่ดีถึงการที่ธุรกิจองค์กรขนาดใหญ่ได้นำ AWS AI Services ไปใช้งานอย่างรวดเร็วโดยไม่ต้องมีทีมผู้เชี่ยวชาญจำนวนมากอยู่ภายใน และไม่ต้องใช้เวลาในการเปลี่ยนแปลงธุรกิจของตนอย่างยาวนาน (https://aws.amazon.com/nfl/)

วิธีการหนึ่งที่จะได้ทดลองใช้งาน AWS ก็คือการเข้าร่วม AI/ML Workshop แบบ On Demand ที่จัดขึ้นโดย AWS Technical Professionals โดย Online Workshop นี้จะประกอบไปด้วยเนื้อหาส่วนที่เป็นการบรรยายและการเรียนรู้ด้วยการทดลองทำจริง ซึ่งจะช่วยให้สามารถทำความเข้าใจในเทคโนโลยี Computer Vision ได้ชัดเจนยิ่งขึ้น และทำให้คุณมีโอกาสได้ทดลองใช้งานเทคโนโลยีนี้เพื่อสร้างโซลูชันที่ใช้งานได้จริงขึ้นมาด้วยตนเอง

ถ้าหากคุณสนใจที่จะติดตามข่าวสารเกี่ยวกับ Computer Vision Workshop กรุณาติดตามข้อมูลได้ที่ https://go.aws/2QMU7aP

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ AI/ML กรุณาเยี่ยมชมเว็บไซต์ที่ https://go.aws/3alaW4o



About techtalkthai

ทีมงาน TechTalkThai เป็นกลุ่มบุคคลที่ทำงานในสาย Enterprise IT ที่มีความเชี่ยวชาญทางด้าน Network, Security, Server, Storage, Operating System และ Virtualization มารวมตัวกันเพื่ออัพเดตข่าวสารทางด้าน Enterprise IT ให้แก่ชาว IT ในไทยโดยเฉพาะ

Check Also

Microsoft แพตช์อุดช่องโหว่เดือนสิงหาคม มี Zero-day 2 รายการถูกใช้แล้ว แนะเร่งอัปเดต

สำหรับแพตช์ประจำเดือนสิงหาคมในส่วนผลิตภัณฑ์จาก Microsoft นั้น มีจำนวน 120 รายการ โดยกว่า 17 รายการเป็นช่องโหว่ร้ายแรง ซึ่ง 2 รายการนั้นพบการใช้โจมตีจริงแล้ว ด้วยเหตุนี้จึงเตือนให้ผู้ใช้งานกรุณาอัปเดตครับ

Oracle Webinar: ลดการลงทุนด้านเทคโนโลยีอย่างสูญเปล่าด้วย Oracle Cloud Infrastructure (Gen 2)

Oracle ขอเชิญเหล่าผู้บริหารและผู้ปฏิบัติงานด้าน IT เข้าฟังบรรยาย Oracle Webinar เรื่อง “ลดการลงทุนด้านเทคโนโลยีอย่างสูญเปล่าด้วย Oracle Cloud Infrastructure” พร้อมแนะนำการทำ Application Modernization เพื่อพลิกโฉมธุรกิจในยุค New Normal ในวันอังคารที่ 18 สิงหาคม 2020 เวลา 14:00 น. ผ่าน Live Webinar ฟรี