แนะนำ 10 โมเดลของ Deep Learning สำหรับงานด้าน Computer Vision

คงเป็นเรื่องยากที่เราจะสร้างโมเดลของ Deep Learning ด้วยตัวเองตั้งแต่เริ่มต้นในเวลาอันจำกัด วันนี้เราได้พบกับเว็บไซต์ที่นำเสนอโมเดลด้าน Computer Vision ที่ถูกเทรนมาแล้วให้ผู้สนใจสามารถนำไปต่อยอดได้ โดยจะแบ่งเป็น 4 หมวด คือ Object Detection, Facial Recognition และ Regeneration, Segmentation และสุดท้าย Miscellaneous

Object Detection

1.Mask R-CNN เป็น Framework ที่ออกแบบมาสำหรับการตรวจจับวัตถุได้อย่างยืดหยุ่น โดยสร้างจาก Python และ Keras (Neural Network API) ซึ่งในโปรเจ็คนี้จะสร้างขอบของแต่ละวัตถุในภาพ (ดูภาพตัวอย่างด้านบน) สามารถติดตามได้ที่นี่ https://github.com/matterport/Mask_RCNN

2.YOLOv2 เป็นที่นิยมในการทำ Deep Learning อีกตัวหนึ่ง โดยสร้างได้จาก Keras เช่นกัน และมีการทดลองนำไปใช้กับงาน เช่น ตรวจเซลล์เม็ดเลือดแดง รถยนต์ขับเคลื่อนอัตโนมัติ แต่โมเดลที่ถูกเทรนไว้แล้วจะอยู่ในส่วนของการตรวจหาภาพของแรคคูน (สามารถดาวน์โหลดชุดข้อมูลภาพแรคคูนได้ ที่นี่ ) ผู้สนใจสามารถติดตามค่า Weight ของโมเดลได้ ที่นี่ เนื้อหาของโปรเจ็คบน GitHub อยู่ที่ https://github.com/experiencor/keras-yolo2

credit : .analyticsvidhya.com

3.MobileNet เป็นโมเดลที่ถูกออกแบบมาสำหรับมือถือโดย Google นั่นเองโดยมาพร้อมกับ Weight ของโมเดลด้วยข้อมูลจากฐานข้อมูล ImageNet ที่ภายในรวบรวมภาพจำนวนหลายล้าน ซึ่งโมเดลนี้รองรับงานได้หลากหลาย (ดูจากภาพตัวอย่างด้านล่าง) สามารถติดตามได้ที่ https://keras.io/applications/#mobilenet

credit : .analyticsvidhya.com

4.Ripe/Unripe Tomato Classification โปรเจ็คนี้ใช้ Deep Learning เพื่อหาว่ามะเขือเทศสุกหรือยัง โดยโมเดลนี้ถูกเทรนข้อมูลด้วยรูปภาพของมะเขือเทศที่กว่า 390 ภาพ ลองหาทดสอบได้ที่ https://github.com/fyrestorm-sdb/tomatoes

credit : .analyticsvidhya.com

5.Car Classification หลายคนต้องสนใจโปรเจ็คนี้อยู่แน่ๆ คือการจำแนกรถโดยอาศัยภาพจาก Standford กว่า 16,185 ภาพจาก 196 ประเภท ติดตามได้ที่ https://github.com/michalgdak/car-recognition

credit : .analyticsvidhya.com

Facial Recognition และ Regeneration

เราคงคุ้นเคยกับคำว่า Facial Recognition เพราะมันคือการจดจำใบหน้านั่นเองแต่เมื่อพูดถึง Regeneration ในส่วนนี้ทางผู้เขียนบทความต้นฉบับหมายถึงการสร้างโมเดล 3 มิติของหน้าจากรูปหน้าขึ้นมาใหม่ซึ่งเป็นความท้าทายอย่างยิ่ง เช่น อุตสาหกรรมภาพยนต์ หรือ เกม เป็นต้น

credit : .analyticsvidhya.com

1.VGG-Face Model โมเดลนี้ถูกเทรนข้อมูลจาก VGG-Face ที่มีตัวตนหน้าอย่างมีลักษณะเฉพาะกว่า 2 ล้านรูป โดยการเทรนโมเดลถูกออกแบบตาม 2 ขั้นตอนคือ vgg-face-keras (การแปลงโมเดล vgg-face ไปยัง keras โมเดล) และ vgg-face-keras-fc (แปลงโมเดล  vgg-face Caffe ไปยังโมเดล mxnet และแปลงไปยังโมเดล keras อีกทีหนึ่ง) ผู้สนใจสามารถติดตามได้ที่ https://gist.github.com/EncodeTS/6bbe8cb8bebad7a672f0d872561782d9

2.3D Face Reconstruction from a Single Image โมเดลนี้เริ่มแรกพัฒนาด้วย Torch (ดาวน์โหลดโปรเจ็คต้นฉบับ) และแปลงเป็น Keras อีกทีหนึ่งเพื่อสร้างหน้า 3 มิติจากรูปภาพ ติดตามได้ที่ https://github.com/dezmoanded/vrn-torch-to-keras

credit : .analyticsvidhya.com

Segmentation

credit : .analyticsvidhya.com

1.Semantic Image Segmentation – Deeplabv3+ ทางด้านเจ้าของบทความได้ให้ความหมายของคำว่า Semantic Image Segmentation หมายถึงการให้ความหมายของทุกพิเซลในภาพเพื่อแบ่งประเภทว่าเป็นวัตถุใด เช่น ท้องฟ้า รถยนต์ หรืออื่นๆ ในส่วนของ Deeplabv3+ คือโมเดลจาก Google ซึ่งต้นฉบับเป็น TensorFlow ที่ถูกสร้างเป็น Keras อีกทีหนึ่ง โดยบน GitHub มีวิธีการและขั้นตอนนำไปใช้อย่างละเอียด ติดตามได้ที่ https://github.com/bonlime/keras-deeplab-v3-plus

2.Robot Surgery Segmentation โมเดลนี้พยายามแก้ปัญหาการผ่าตัดโดยใช้หุ่นยนต์เข้ามาช่วย ซึ่งปัญหาแบ่งเป็น 2 ส่วนคือ ต้องแยกแยะระหว่างเครื่องมือและพื้นหลัง อีกส่วนหนึ่งคือการแยกแยะเครื่องมือหลายส่วน ตัวโมเดลนี้ถูกเทรนด้วยเฟรมความละเอียดสูงของระบบภาพ 3 มิติ สามารถติดตามได้ที่ https://github.com/ternaus/robot-surgery-segmentation

credit : .analyticsvidhya.com

Miscellaneous

Image Captioning เป็นการผสานระหว่าง NLP และ Computer Vision ซึ่งความยากคือต้องการชุดข้อมูลขนาดใหญ่ที่ต้องไม่เอนเอียงไปทางใดทางหนึ่งด้วย ดังนั้นโซลูชันนี้จึงใช้การป้อนรูปภาพและคำอธิบายที่มีความหมายสั้นๆ โดยส่วนของ Encoder ที่ใช้คือ CNN นั่นเอง ส่วนฝั่ง Decoder คือการใช้ long Short-term memory network (LSTM) เพื่อทำนายคำอธิบายของรูปสามารถติดตามได้ที่ https://github.com/boluoyu/ImageCaption

credit : .analyticsvidhya.com

ที่มาและเครดิตรูปภาพ : https://www.analyticsvidhya.com/blog/2018/07/top-10-pretrained-models-get-started-deep-learning-part-1-computer-vision/

About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

Nexos.ai ระดมทุน 8 ล้านดอลลาร์ ช่วยให้โปรเจกต์ AI ขององค์กรง่ายยิ่งขึ้น

Nexos.ai สตาร์ทอัพหน้าใหม่ที่ช่วยองค์กรต่าง ๆ ในการรันโมเดลภาษาใหญ่ (Large Language Models: LLM) ระดมทุนได้ 8 ล้านดอลลาร์จากกลุ่มนักลงทุนที่นำโดย Index Ventures มีแผนจะเปิดตัวแพลตฟอร์มอย่างเป็นทางการภายในไตรมาสนี้ และในขณะนี้กำลังทดสอบซอฟต์แวร์กับองค์กรหลายแห่งที่นำไปใช้ในกรณีต่าง …

Amazon Redshift ประกาศหนุน 2 ฟังก์ชัน H3 ใหม่สำหรับ Spatial Query

AWS ยักษ์ใหญ่ Cloud Provider ได้ประกาศสนับสนุน 2 ฟังก์ชัน Hexagonal Hierarchical Geospatial Indexing System ใหม่บน Amazon Redshift …