Robots.txt, Contoh Serta Cara Membuatnya Agar SEO Friendly

Tahukah kamu bahwa robots.txt merupakan satu dari sekian banyak cara untuk meningkatkan SEO website/blog namun jarang dibicarakan oleh pakar-pakar SEO. Mungkin dikarenakan file robots.txt tergolong tidak sulit diterapkan di situs web atau blog, meskipun demikian penerapan file robots.txt yang tidak tepat dapat berakibat fatal untuk SEO blog anda.

Terlepas dari manfaat dan konsekuensi yang bisa ditimbulkan oleh file robots.txt seperti yang telah saya jelaskan, jangan takut untuk menerapkan robots.txt tapi sebelumnya tentu saja kamu harus mempelajari tentang robots.txt sepenuhnya.

Di blogger, kamu mungkin sudah melihat pengaturan robots.txt khusus (custom robots.txt) tetapi untuk menerapkan robots.txt kamu harus tau apa dan bagaimana membuat file robots.txt yang benar untuk blog anda dan SEO blog itu sendiri.

Untuk itu izinkan saya menjelaskan tentang robots.txt, mulai dari pengenalan robots.txt hingga cara keraja dan kaitannya (robots.txt) dengan pengomtimalan mesin telusur atau SEO.
Robots TXT

Mengenal Apa Itu Robots.txt

Robots.txt adalah protokol pengecualian standar robot web yang dirancang untuk bekerja sama dengan crawler (robot perayap dan pengindeks) mesin pencari. Tujuannya (robots.txt) adalah untuk memilah halaman di situs web yang diizinkan untuk dirayapi dan diindeks oleh crawler mesin pencari dan mana yang tidak.

Anda mungkin bertanya jika fungsi utama robots.txt adalah untuk memilah perayapan dan pengindeksan halaman di situs web, untuk apa memasang di situs web/blog? Bukankah perayapan dan pengindeksan justru baik untuk SEO website atau blog...!

Sepintas apa yang kamu pikirkan itu terlihat benar tetapi sebenarnya tidak karena setiap situs web/blog memiliki banyak halaman yang tidak penting untuk dirayapi dan diindeks oleh crawler mesin pencari.
[ads id="ads1"] Dan jika anda memilih untuk mengizinkan semua halaman untuk dirayapi dan diindeks oleh crawler atau bot mesin pencari, itu akan berdampak negatif pada SEO situs web anda karena bot mesin pencari akan membutuhkan waktu lebih lama untuk menjelajahi semua halaman di situs web.

Fungsi Robots.txt

Secara umum fungsi Robots.txt adalah untuk mengatur crawler mesin pencari mengenai halaman mana yang boleh di-indeks dan halaman yang tidak boleh di-indeks oleh crawler mesin pencari.

Selain itu robots.txt juga berfungsi untuk mengurangi beban situs web/blog dari dampak perayap mesin pencari terutama bot google, menghemat anggaran perayapan untuk halaman yang tidak penting di situs web.

Seberapa Penting Robots.txt Untuk SEO?

Secara umum, file robots.txt sangat penting untuk SEO (Search Engine Optimization) terutama situs web yang lebih besar (memiliki banyak halaman). Robots.txt perperan untuk memberikan petunjuk yang jelas kepada bot mesin telusur tentang konten apa yang tidak dan boleh diakses.

Dengan demikian proses perayapan dan pengindeksan halaman atau konten yang ada di situs web/blog menjadi lebih cepat karena robot perayap dan robot pengindeks mesin pencari akan fokus pada konten dengan adanya robots.txt dan penerapan yang benar.

Itulah sebabnya robots.txt digolongkan salah satu teknik pengoptimalan mesin telusur atau SEO (Search Engine Optimization). Untuk mendapatkan pemahaman yang spesifik tentang kaitan robots.txt dan seo silahkan lihat data statistik perayapan (crawling) situs web di bawah ini.

Statistik Perayapan (Crawling)

Berikut ini saya akan menunjukkan logika untuk pendapat yang saya kemukakan berdasarkan analisa data perayapan situs web oleh googlebot melalui statistik data perayapan situs web di search console google.
Data statistik perayapan situs web di google search console
Statistik perayapan oleh bot mesin pencari pada gambar di atas menunjukkan total jumlah permintaan perayapan ke situs web dan dihitung juga permintaan duplikat pada url yang sama.

Kemudian diikuti dengan total jumlah byte (total bobot file dan sumber daya) yang di unduh selama perayapan termasuk css, html, script, gambar dan sebaginya yang belum di-cache oleh robot perayap dan robot pengindex.

Dari statistik di atas bisa kita lihat seberapa baik prosses perayapan dan pengindeksan oleh bot mesin pencari (search engine) di website/blog tersebut.

Sehingga membuktikan betapa pentingnya mengatur perayapan dan pengindeksan halaman di situs web dengan robots.txt, karena membiarkan semua halaman dirayapi oleh mesin telusur hanya akan membebani atau menghambat pengindeksan halaman penting di situs web.

Contoh Dan Cara Membuat File Robots.txt Yang SEO Friendly

Sebelum menambahkan file robots.txt ke website/blog anda lihat contoh robots.txt di bawah ini agar tidak salah atau keliru dalam membuat file robots.txt.
User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: https://cordialblogger.blogspot.com/sitemap.xml
Di atas adalah contoh file robots.txt standar google untuk blog yang dibuat di platform blogger, file robots.txt menginstruksikan tidak ada pengecualian halaman (Disallow:) untuk crawler google Mediapartners-Google, dan
User-agent: *
Disallow: /search
Allow: /
Artinya semua robot web (crawler) boleh mengakses atau mengunjungi semua halaman di situs web terkecuali URL halaman pencarian /serach.

Perhatikan dasar-dasar instruksi pada file robots.txt berdasarkan yang dikemukan oleh robotstxt.org di bawah ini.

Instruksi Dasar Robots.txt

User-agent: *
Disallow: /
Allow: /
User-agent: * - Menandakan bahwa instruksi file robots.txt berlaku untuk semua robot web (tanpa terkecuali) yang mengunjungi situs web tersebut.

Disallow: / - Instruksi file robots.txt yang memberi tahu robot web untuk tidak mengunjungi semua halaman yang ada di situs web.

Allow: / - Instruksi file robots.txt yang memberi tahu robot web semua halaman yang ada di situs web boleh dikunjungi atau dirayapi.

Jika kamu ingin memblokir robot web dengan instruksi file robots.txt gunakan Disallow: dan diikuti dengan URL yang spesifik dan memang bukan url halaman yang penting utuk dirayapi contohnya;
Disallow: /search
Disallow: /p/data-web.html
Yang paling penting diperhatikan ketika membuat file robots.txt hanya ada 3 (tiga) poin yaitu, file robots.txt tidak boleh memblokir tag robots header, izinkan perayapan untuk konten utama dan blokir perayap mesin pencari untuk halaman url yang tidak penting di situs web, dan ketika memblokir perayap mesin pencari pastikan url pada baris Disallow: tepat.

Menguji Robots.txt Anda

Setelah membuat file robots.txt maka uji validasi robots.txt anda dengan tool robots.txt tester google. Pada saat menguji robots.txt ada beberapa hal yang harus dilakukan pada saat pengujian robots.txt yaitu sebagai berikut;
  1. Uji kinerja robots.txt pada url beranda
  2. Uji robots.txt untuk url konten utama (postingan)
  3. Pastikan url beranda dan halaman postingan tidak diblokir oleh robots.txt
  4. Periksa url yang anda blokir dengan robots.txt, dan
  5. Pastikan intruksi pada file robots.txt benar (sesuai dengan yang anda targetkan)
Lihat video cara menguji robots.txt dengan robots.txt tester google jika kamu belum pernah melakukannya atau belum paham menguji robots.txt.

Melihat File Robots.txt Anda

Cara yang paling mudah untuk melihat file robots.txt adalah dengan menggunakan browser (chrome, mozilla, microsoft bing dsb) kemudian enter url dengan format https://www.sitename.com/robots.txt pada address bar browser anda, mobile dan dekstop browser bisa melakukannya.

Tetapi itu tergantung apakah situs web anda memiliki rorbots.txt atau tidak dan terkadang pemilik situs situs juga menyembunyikan file robots.txt mereka dari orang lain dengan metode pengalihan.
Gambar ilustrasi contoh Robots.txt
Kamu mungkin juga akan memerikasa file robots.txt yang saya gunakan di situs web ini, dan mungkin juga kamu akan terkejut melihat saya tidak melakukan pengecualian apapun melalui file robots.txt.

Tetapi percayalah bahwa saja juga melakukan trik yang sama dengan yang saya jelaskan di atas, hanya saja saya dengan metode yang berbeda yaitu membuat pengecualian perayapan halaman dengan robots header X-Robots-Tag.

Kesimpulan

Robots.txt bertujuan untuk memberi tahu bot mesin pencari terutama googlebot untuk menghindari (tidak merayapi dan mengindeks) halaman tertentu yang tidak penting untuk diindeks dan halaman yang tidak ingin anda bagikan ke publik.

Sehingga dengan adanya control dari robots.txt bot mesin pencari akan fokus ke perayapan dan pengindeksan pada halaman paling diutamakan saja seperti halaman postingan misalnya.

Mesikpun demikian robots.txt bukanlah mekanisme yang tepat untuk menyembunyikan halaman dari bot mesin pencari, secara default tag noindex lebih efektif untuk memblokir perayapan dan pengindeksan oleh bot mesin pencari terhadap halaman yang ingin anda sembunyikan.
<meta name="robots" content="noindex">
<meta name="robots" content="nofollow">

Atau kombinasikan robots header seperti ini

<meta name="robots" content="noindex,nofollow">
Dengan catatan, tag noindex pada robots header tidak boleh diblokir oleh robots.txt misalnya jika kamu sudah menggunakan Disallow: /search pada file robots.txt maka kamu tidak dapat menggunakan perintah lain dengan tag robots header.

Intinya ketika kamu membuat pengecualian perayapan halaman di situs web menggunakan robots.txt maka robots header tidak akan berfungsi karena bot mesin pencari tidak dapat melihat tag pada halaman jika telah diblokir oleh robots.txt.
Close