Bagaimana menemukan halaman tersembunyi di situs web

Pada 2016, Google menangani lebih dari 3200 miliar kueri penelusuran, namun, hasil yang disediakan oleh mesin telusur hanya mewakili sebagian kecil dari konten yang tersedia secara online. Sebagian besar informasi yang tersedia secara online tidak dapat diakses melalui mesin pencari, jadi perlu menggunakan alat khusus, atau mencari situs web untuk menemukan halaman tersembunyi ini. Dikenal sebagai web yang dalam, informasi tersembunyi ini mewakili hingga 5.000 kali lebih banyak dari apa yang tersedia menggunakan teknik penelusuran yang khas.

Jenis konten yang tersembunyi

Halaman-halaman situs web yang tersembunyi dibagi ke dalam kategori yang menjelaskan mengapa mereka tetap tidak terlihat oleh mesin pencari.

Beberapa merupakan konten dinamis, yang disajikan hanya ketika pengunjung mengeluarkan permintaan khusus di situs web yang menggunakan kode berdasarkan database untuk menyajikan hasil tertentu. Sebagai contoh, halaman ini dapat mencakup hasil pembelian berdasarkan kombinasi spesifik kriteria produk. Mesin pencari tidak dirancang untuk melacak dan menyimpan informasi dalam basis data ini. Untuk menemukan halaman-halaman ini, Anda harus pergi ke situs web dan mencari informasi spesifik yang Anda cari, atau menggunakan layanan pencarian yang berorientasi basis data seperti Bright Planet .

Beberapa halaman tidak memiliki tautan yang menghubungkannya ke sumber pencarian. Sumber daya sementara, seperti berbagai versi situs web terbelakang, dapat dimasukkan dalam kategori ini, seperti situs web yang dirancang dengan buruk. Misalnya, jika seseorang membuat laman web dan mengunggahnya ke server situs web tetapi tidak menambahkan tautan ke laman situs web saat ini, tidak ada yang tahu ada di sana, termasuk mesin telusur.

Masih banyak halaman yang memerlukan kredensial masuk untuk dilihat atau diakses, seperti situs berlangganan. Desainer web menetapkan halaman dan bagian dari situs seperti berada di luar batas mesin pencari, secara efektif menghilangkan lokasi mereka dengan cara konvensional. Untuk mengakses halaman ini, Anda biasanya perlu membuat akun sebelum Anda diberi izin untuk mengaksesnya.

Menggunakan file robots.txt

Mesin telusur merayapi laman situs web dan mengindeks konten mereka sehingga dapat muncul sebagai respons terhadap kueri. Ketika pemilik situs web ingin mengecualikan beberapa bagian dari domainnya dari prosedur pengindeksan ini, ia menambahkan alamat dari direktori atau halaman ini ke file teks khusus yang disebut robots.txt, yang disimpan di root situsnya. Karena sebagian besar situs web menyertakan file robot terlepas dari apakah mereka menambahkan pengecualian atau tidak, Anda dapat menggunakan nama dokumen yang dapat diprediksi untuk menampilkan kontennya.

Jika Anda mengetik "[nama domain] /robots.txt" tanpa tanda kutip di bilah alamat browser Anda menggantikan "[nama domain]" untuk alamat situs, konten file robot akan sering muncul di jendela browser setelah menekan tombol "Enter". Entri yang didahului oleh "disallow" atau "nofollow" merupakan bagian dari situs yang tetap tidak dapat diakses melalui mesin pencari.

Lakukan sendiri: meretas situs web

Selain file robot.txt, Anda sering dapat menemukan konten tersembunyi dengan mengetikkan alamat web untuk halaman dan folder tertentu di browser web Anda. Misalnya, jika Anda melihat situs web artis dan memperhatikan bahwa setiap halaman menggunakan konvensi penamaan yang sama - seperti gallery1.html, gallery2.html, gallery4.html - maka Anda dapat menemukan galeri tersembunyi dengan mengetik halaman "gallery3.html "di browser web Anda.

Demikian pula, jika Anda melihat bahwa situs web menggunakan folder untuk mengatur halaman - seperti example.com/content/page1.html, dengan "/ konten" sebagai foldernya - maka Anda mungkin dapat melihat folder itu sendiri dengan mengetik di situs web dan folder, tanpa halaman, seperti "example.com/content/" di browser web Anda. Jika akses ke folder belum dinonaktifkan, Anda mungkin dapat menavigasi halaman yang dikandungnya, serta melalui halaman-halaman subfolder mana pun untuk menemukan konten tersembunyi.

Artikel ini dibuat dengan bantuan itstillworks.com