Deep Web và Dark Web - Phần 1

Deepweb và darkweb. Phần 1.

Deepweb và darkweb là phần lớn nhất của web mà cacc đéo bâu giờ biết đến. Các nội dung không được lập chỉ mục của các công cụ tìm kiếm web chuẩn với bất kỳ lý do gì. Thuật ngữ deepweb và darkweb ít người biết và người ta đéo quan tâm đến bởi nó không có trong chỉ mục tiềm kiếm nầu trong công cụ google của cacc. Nội dung của trang deepweb ẩn sau các hình thức HTML, và bao gồm nhiều ứng dụng rất phổ biến như web mail, ngân hàng trực tuyến và dịch vụ mà người dùng phải trả tiền và được bảo vệ bởi một paywall. Chẳng hạn như video theo yêu cầu, một số tạp chí và báo chí trực tuyến và nhiều hơn nữa. Các trang deepweb có thể được định vị và truy cập bằng URL aka địa chỉ trực tiếp hoặc địa chỉ IP và có thể yêu cầu mật khẩu hoặc quyền truy cập bảo mật khác qua trang web của trang web công khai.

Dark web là gì?
Sự kết hợp đầu tiên của thuật ngữ "deepweb" và "darkweb" được đưa ra trong năm 2009 khi thuật ngữ tìm kiếm deepweb đã được thảo luận cùng với các hoạt động bất hợp pháp đang diễn ra. Darkweb là một phần nhỏ của trang deepweb đã được cố tình ẩn và không thể truy cập thông qua các trình duyệt và phương pháp chuẩn thông thường. Trong năm 2001, Michael K. Bergman đã cho biết cách tìm kiếm trên Internet có thể được so sánh với việc kéo một mạng lưới trên bề mặt đại dương: Zất nhiều thông tin có thể khai thác trong mạng, nhưng cũng có zất nhiều thông tin khác khó có thể tìm tới. Hầu hết các thông tin mà các công cụ tìm kiếm chuẩn không tìm thấy nó. Các công cụ tìm kiếm truyền thống không thể xem hoặc truy xuất nội dung trong deepweb. Không thể đo được và khó ước lượng kích thước của deepweb bởi vì phần lớn thông tin bị ẩn hoặc bị khóa bên trong các cơ sở dữ liệu. Ước tính ban đầu cho thấy rằng dung lượng của deepweb lớn hơn 400-500 lần so với mạng chúng ta đang dùng. Tuy nhiên, vì nhiều thông tin và trang web luôn được thêm vào, có thể giả thiết rằng deepweb đang phát triển theo cấp số nhân với tỷ lệ không thể định lượng được.
Nói về deepweb và darkweb thì đó là một tập hợp các trang web có thể được thiết kế hợp lý, nhưng chủ nhân đã không bận tâm để đăng ký nó với bất kỳ công cụ tìm kiếm. Vì vậy, không ai có thể tìm thấy chúng! Chúng đang ẩn. Nó là Web vô hình.

Phương pháp lập chỉ mục. Các phương pháp ngăn các trang web bị lập chỉ mục bởi các công cụ tìm kiếm truyền thống có thể được phân loại là một hoặc nhiều thứ sau đây: Mạng theo ngữ cảnh: các trang có nội dung thay đổi cho các ngữ cảnh truy cập khác nhau (ví dụ: phạm vi địa chỉ IP của khách hàng hoặc trình tự chuyển hướng trước đó).

Nội dung động: các trang động được trả về để trả lời truy vấn đã gửi hoặc chỉ truy cập qua một biểu mẫu.
Mạng riêng: các trang web yêu cầu đăng ký và đăng nhập (tài nguyên được bảo vệ bằng mật khẩu). Nội dung được Scripted: Các trang chỉ có thể truy cập qua các liên kết được tạo ra bởi JavaScript cũng như nội dung được tải về tự động từ các máy chủ Web thông qua các giải pháp Flash hoặc Ajax.
Phần mềm: Một số nội dung nhất định được giấu kín từ Internet thông thường, chỉ có thể truy cập được bằng phần mềm đặc biệt, như Tor, I2P, hoặc các phần mềm hóng hớt khác. Ví dụ: Tor cho phép người dùng truy cập các trang web bằng cách sử dụng địa chỉ IP .onon ẩn danh, ẩn địa chỉ IP của họ. Nội dung không liên kết: Các trang không liên kết đến bởi các trang khác, có thể ngăn các chương trình thu thập thông tin web truy cập vào nội dung. Nội dung này được gọi là trang không có các liên kết ngược aka inlinks. Đcm. Ngoài ra, công cụ tìm kiếm không luôn luôn phát hiện tất cả các backlinks từ các trang web tìm kiếm.
Lưu trữ web: Các dịch vụ lưu trữ web như máy Wayback cho phép người dùng xem các phiên bản lưu trữ các trang web theo thời gian, bao gồm các trang web đã trở nên không thể truy cập được và không được lập chỉ mục bởi các công cụ tìm kiếm như Google.
Các loại nội dung: Mặc dù không phải lúc nào cũng có thể trực tiếp phát hiện nội dung của một máy chủ web cụ thể để nó có thể được lập chỉ mục, một trang web có thể được truy cập gián tiếp (do lỗ hổng máy tính). Để khám phá nội dung trên web, các công cụ tìm kiếm sử dụng trình thu thập thông tin web theo các siêu liên kết thông qua các số cổng ảo đã biết. Kỹ thuật này lý tưởng cho việc khám phá nội dung trên bề mặt của trang web nhưng thường không có hiệu quả khi tìm kiếm nội dung trang deepweb. Chả dụ, các trình thu thập thông tin này không tìm cách tìm các trang động là kết quả của các truy vấn cơ sở dữ liệu do số lượng truy vấn không xác định được có thể. Cần lưu ý rằng điều này có thể được (một phần) khắc phục bằng cách cung cấp liên kết đến kết quả truy vấn, nhưng nó có thể vô tình làm tăng sự phổ biến cho một thành viên của deepweb.
DeepPeep, Intute, Deep Web Technologies, Scirus và Ahmia.fi là một vài công cụ tìm kiếm truy cập deepweb. Intute đã hết tiền và bây giờ là một kho lưu trữ tĩnh tạm thời vào tháng 7 năm 2011. Scirus đã nghỉ hưu vào cuối tháng 1 năm 2013. Chào tạm biệt các bạn. DGLN.
Các nhà nghiên cứu đã khám phá cách thức có thể thu thập thông tin sâu vào một cách tự động, bao gồm nội dung chỉ có thể được truy cập bằng phần mềm đặc biệt như Tor. Năm 2001, Sriram Raghavan và Hector Garcia-Molina (Phòng Khoa học Máy tính Stanford, Đại học Stanford) đã trình bày mô hình kiến trúc cho trình thu thập thông tin Web ẩn, sử dụng các thuật ngữ chính được cung cấp bởi người dùng hoặc được thu thập từ các giao diện truy vấn tới truy vấn một biểu mẫu Web và thu thập thông tin về nội dung Deep Web. Alexandros Ntoulas, Petros Zerfos và Junghoo Cho của UCLA đã tạo ra trình thu thập thông tin Web ẩn, tự động tạo ra các truy vấn có ý nghĩa để phát hành các mẫu tìm kiếm. Một số ngôn ngữ truy vấn dạng (ví dụ: DEQUEL) đã được đề xuất rằng, ngoài việc phát hành truy vấn, cũng cho phép trích xuất dữ liệu có cấu trúc từ các trang kết quả. Một nỗ lực nữa là DeepPeep, một dự án của Đại học Utah được tài trợ bởi Quỹ khoa học quốc gia, thu thập các nguồn web ẩn (các mẫu web) trong các lĩnh vực khác nhau dựa trên các kỹ thuật thu thập thông tin mới.
Các công cụ tìm kiếm thương mại đã bắt đầu khám phá các phương pháp thay thế để thu thập thông tin từ deepweb. Giao thức sơ đồ trang web (được phát triển và giới thiệu lần đầu tiên bởi Google năm 2005) và mod oai là những cơ chế cho phép các công cụ tìm kiếm và các bên quan tâm khác khám phá tài nguyên deepweb trên các máy chủ web cụ thể. Cả hai cơ chế cho phép các máy chủ web quảng cáo các URL có thể truy cập vào chúng, do đó cho phép tự động phát hiện các tài nguyên không liên quan trực tiếp tới web bề mặt. Hệ thống tính toán trang deepweb của Google tính các bản đệ trình cho mỗi biểu mẫu HTML và thêm các trang HTML kết quả vào chỉ mục của công cụ tìm kiếm Google. Các kết quả bề mặt tính cho một nghìn truy vấn mỗi giây đến nội dung deepweb. Trong hệ thống này, họ dùng 3 thuật toán:
a. Chọn các giá trị đầu vào cho đầu vào tìm kiếm văn bản chấp nhận từ khoá,
b. Xác định đầu vào chỉ chấp nhận các giá trị của một loại cụ thể. Chả dụ: Ngài tháng etc.
c: Chọn một số kết hợp đầu vào nhỏ tạo ra các URL thích hợp để đưa vào chỉ mục tìm kiếm Web.
Trong năm 2008, để tạo thuận lợi cho người sử dụng các dịch vụ ẩn của Tor trong việc truy cập và tìm kiếm hậu tố ẩn. Aaron Swartz đã thiết kế Tor2web - một ứng dụng proxy có thể cung cấp truy cập bằng các trình duyệt web thông thường. Sử dụng ứng dụng này, các liên kết deepweb xuất hiện dưới dạng một chuỗi các chữ cái ngẫu nhiên theo sau là *.onion TLD.

PS: Còn tí nữa. Bài biên tổng hợp từ nhiều nguồn.

Xem tiếp: Deep Web và Dark Web - Phần 2

Nguồn: https://www.facebook.com/Lao.Bua.9/posts/2000998286847953

Blogs Tin Tức

Nổi Bật

Deep Web và Dark Web - Phần 1

0 nhận xét:

THỊT BÒ NHẬP KHẨU

Bài đăng phổ biến

Video

Category

Theo dõi trên fanpage

Lưu trữ Blog