SEO
Trend

Robots.txt

Robots.txt dosyası nedir?

Robots.txt, web yöneticilerinin web robotlarına (genellikle arama motoru robotları) web sitelerindeki sayfaların nasıl taranacağını bildirmek için oluşturdukları bir metin dosyasıdır. Robots.txt dosyası, robotların web’de nasıl tarama yapacağını, içeriğe erişme ve dizine ekleme şeklini düzenleyen ve bu içeriği kullanıcılara kadar sunan bir web standartları grubu olan robot dışlama protokolünün (REP) bir parçasıdır. REP ayrıca meta robotlar gibi yönergelerin yanı sıra arama motorlarının bağlantıları nasıl ele alması gerektiğine ilişkin sayfa, alt dizin veya site genelindeki yönergeleri (“follow” veya “nofollow” gibi) içerir.

Pratikte robots.txt dosyaları, belirli kullanıcı aracılarının (web tarama yazılımı) bir web sitesinin bölümlerini tarayıp tarayamayacağını belirtir. Bu tarama talimatları, belirli (veya tüm) kullanıcı aracılarının davranışına “disallowing” veya “allowing” belirtilir.

Temel format:
User-agent: [user-agent name]Disallow: [URL string not to be crawled]

Bu iki satır birlikte, eksiksiz bir robots.txt dosyası olarak kabul edilir,ancak bir robot dosyası, birden çok satır kullanıcı aracısı ve yönergesi içerebilir (disallows, allows, crawl-delays,vb.).

Robots.txt Komutları ve Anlamları

User-agent: Bu komut sitenize hangi arama motoru botlarının gelip hangisinin gelmeyeceğini belirtmek için kullanılır. Sitenizin arama botları tarafından indekslenmesini istemiyorsanız bu komutu dizin engelleme komutu olan disallow komutu ile birlikte kullanmalısınız.
User-agent: *
Disallow: /

Peki sitemizin tüm arama motoru botları tarafından indekslenmesini istiyorsak ne yapmalıyız? Bu seferde Allow komutunu kullanarak tüm siteyi arama motoru botlarına indekslete biliriz.
User-agent: *
Allow: /

Siteyi komple arama motorlarına taratabilir veya tam tersi taratmayabiliriz. Peki istediğimiz bir sayfada bunu kullanabilir miyiz? Tabi ki kullanabiliriz.
Örneğin, sitemde bulunan haberler sayfasının taranmasını istemiyorum. Bunun için ne yapabilirim? Hemen örneklemesini yapalım.
User-agent: *
Disallow: /haberler/

Bu komutu kullandığımda www.umutkostik.com/haberler linkinde bulunan haberler sayfası arama motoru botları tarafından taranmayacaktır.

Robots.txt nasıl çalışır?

Arama motorlarının iki ana görevi vardır:

  1. İçeriği keşfetmek için web’i taramak
  2. Bilgi arayan, arama yapanlara sunabilmesi için içeriği dizine eklemek.
    Arama motorları siteleri taramak için milyarlarca bağlantı ve web sitesi gezinir. Bu tarama davranışı “ örümcek “ olarak bilinir.
    Arama motorları web sitesine geldiğinde ilk önce bir robots.txt dosyası arayacaktır. Robots.txt dosyası var ise arama motoru öncelikle onu okuyacaktır. Eğer bir Robots.txt dosyası yoksa arama motoru tarayıcıları tüm siteyi tarayacaktır.

İlgili Makaleler

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu