ปัจจุบันนี้ มีเว็บไซต์เปิดเผยสู่สาธารณะ (สามารถค้นหาเจอโดยใช้ Search Engine) เพียง 4% เท่านั้น ที่เหลืออีก 96% เป็นเว็บไซต์ที่ซ่อนตัวอยู่ ไม่สามารถเข้าถึงได้ด้วยวิธีปกติ หรือที่เรียกว่า Deep Web เช่น เว็บไซต์ทางการศึกษา บันทึกการแพทย์ ข้อมูลรัฐบาล รายงานวิทยาศาสต์ และอื่นๆ ซึ่งส่วนหนึ่งในนั้นคือ Dark Web ที่รวมแหล่งข้อมูลผิดกฏหมาย และเว็บไซต์ที่ต้องเข้าผ่าน Tor เป็นต้น
สองนักวิจัยจาก King’s College London ได้พยายามค้นหาว่า Dark Web ที่ต้องเข้าถึงผ่านเครือข่าย Tor มีสิ่งที่ผิดกฏหมายอยู่มากน้อยแค่ไหน ผลลัพธ์คือ เกินครึ่ง !!
เครือข่าย TOR คืออะไร
TOR ย่อมาจาก The Onion Router เป็นเครือข่ายที่ประกอบด้วยการเข้า-ถอดรหัส และส่งต่อข้อมูลเป็นทอดๆ แต่ละ Node ที่ส่งต่อกันจะทราบเพียงแค่ว่าได้รับข้อมูลมาจาก Node ไหนและส่งต่อไปไหนเท่านั้น ทำให้เครื่องปลายทางไม่สามารถทราบแหล่งที่มาของข้อมูล ผู้คนส่วนใหญ่มักใช้ Tor เพื่อปกปิดตัวตนในการใข้งานอินเทอร์เน็ต แต่ก็มีบางเว็บไซต์ที่มีตัวตนเฉพาะบนเครือข่าย Tor เรียกว่าเป็นเซอร์วิสลับ (Hidden Service) เช่น Silk Road เว็บตลาดมืดสำหรับค้าของผิดกฏหมาย เป็นต้น
เขียน Bot เพื่อจัดทำ Index ของ Dark Web
เป็นเรื่องยากที่จะทำการค้นหา Hidden Service ทั้งหมดในเครือข่าย TOR เนื่องจาก Service เหล่านั้นเปลี่ยนแปลง Address และ Server Location ไปเรื่อยๆ เพื่อที่จะเก็บข้อมูล Hidden Service เหล่านั้น นักวิจัยทั้งสองจึงได้เขียน Bot สคริปต์ Python เพื่อ Crawl Dark Web ผ่าน Search Engine ยอดนิยมของ TOR นั่นคือ Onion City และ Ahmia
Bot จะทำการดึงเนื้อหาของแต่ละ Page และอัพโหลดเนื้อหาเหล่านั้นขึ้นไปเพื่อทำการวิเคราะห์ เมื่อพบลิงค์ที่นำไปสู่อีก Hidden Service หนึ่ง Bot ก็จะกระโดดตามลิงค์นั้นไป แล้วดึงเนื้อหาอัพโหลดขึ้นไปเช่นกัน ทำอย่างนี้ต่อไปเรื่อยๆ ข้อมูลเนื้อหาที่ได้มาจะถูกเข้าอัลกอริธึมเพื่อทำการจัดหมวดหมู่ เช่น Drugs, Social, Pornography, Financial เป็นต้น
ทำ Index ไปกว่า 5,205 Pages พบ 57% ผิดกฏหมาย
หลังจากทำการสำรวจเว็บไซต์ไปกว่า 5,205 Pages พบว่า 2,723 Pages ถูกจัดเข้าหมวดหมู่เป็นที่เรียบร้อย ส่วน Page ที่เหลือมีเนื้อหาน้อยกว่า 50 คำหรือไม่มีเนื้อหาเลยจึงไม่ถูกจัดเข้าหมวดหมู่ใดๆ ซึ่งจากการวิเคราะห์ พบว่า 57% ของเว็บไซต์ทั้งหมดมีเนื้อหาผิดกฏหมาย เช่น ยาเสพติด และอนาจารเด็ก
Tor Project ระบุว่า ปัจจุบันนี้มี Hidden Service ที่พร้อมให้บริการประมาณ 35,000 Pages ถึงแม้ว่าการสำรวจของนักวิจัยทั้งสองจะไม่ครอบคลุม Service ทั้งหมด แต่ก็ถือว่านำมาใช้เป็นตัวแทนเชิงสถิติได้
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย









