fbpx
Mehmet Akif Ersoy Mah. 274. Sokak Wings Tower B Blok 6. Kat No:42 Yenimahalle/ANKARA
tr

Robots.txt Nedir? Nasıl Oluşturulur?

21.01.2020

Arama motorları, site hakkında bilgi edinmek ve arşivlemek amacıyla sayfaları sürekli olarak taramaktadır. Web Siteleri temel düzeylerde dahi yüzlerce sayfadan oluşmaktadır. İçerik değeri yetersiz olan web sayfalarının, arama motorlarında index alması web siteler için zararlı bir durum ortaya çıkarabilmektedir. Bu nedenle web site sahipleri, sitelerinin index sınırlarını robots.txt dosyası ile belirlemektedir. Arama motorları tarafından görülmesi istenilmeyen sayfalar ya da belirli arama motorlarına dair olan yasaklar/düzenlemeler robots.txt sayfalarında kullanılan kod komutları ile kontrol edilmektedir.

Robots.txt Nedir?

Örümcek olarak adlandırılan arama motoru yazılımları, belirli dönemlerde site içeriklerini taramaktadır. Robots.txt kullanmayan sitelerde dizinde yer alan tüm sayfalar taranır ve indexlenir. Robots.txt kullanılan sitelerde ise, örümceklerin hangi dosyalara, içeriklere ya da sayfalara erişim izninin verileceği site sahibi tarafından belirlenmektedir.

Robots.txt nedir sorusu sıklıkla merak edilirken birçok site sahibi bu fonksiyonu kullanmayı bilmediği için problemler yaşayabilmektedir.
Robots.txt içerik ve dosyaların erişimini kapattığı gibi farklı arama motorlarına yönelik kısıtlamalar da sunmaktadır. Örneğin, bazı dosyaların taranması sadece Google botları ya da Yandex botları gibi farklı örümcekler tarafından gerçekleştirilebilir.

Robotları Engelleme Standardı ya da (Robot Engelleme Protokolü) olarak bilinen robots.txt, tüm sitelere tavsiye edilmektedir. Ancak sitede bulunan robots.txt dosyası, doğru komut ve yönergeler içermediği takdirde hiç bir işe yaramamaktadır. Bu nedenle, robots.txt komutları kullanılmalıdır böylece site kontrolü, arama motorları botları tarafından değil site sahibinin elinde olabilir. Aksi takdirde arama motorları sitedeki tüm özel bilgilere erişim sağlayabilir.

Robots.txt Nasıl Oluşturulur?

Web sitelerinde genellikle önceden oluşturulan bir robots.txt dosyası bulunmaktadır. Örneğin, wordpress robots.txt sanal olarak oluşturulur ve site sahibi direkt kullanıma başlayabilir. Robots.txt dosyasının varlığı hakkında bilgi sahibi olmak için ana sayfa URL’si sonuna /robots.txt yazılmalıdır. Örneğin, http://ornekwebsite.com/robots.txt şeklinde robots.txt varlığı öğrenilebilir. Çıkan sayfada çeşitli komutlar yer alıyorsa, robots.txt vardır ve site sahibi tarafından düzenlenmelidir.

Site adı URL’si sonunda eklenen robots.txt sonucunda, çıkan sayfada herhangi bir yazı bulunmuyor ise robots.txt dosyası var, ancak kullanılmamaktadır. Bu durumu düzeltebilmek için komutlar doğru bir şekilde uygulanmalıdır. Aynı zamanda yeni sayfada 404 hatası söz konusu ise robots.txt dosyası yoktur ve yüklenmesi gerekmektedir.

Robots.txt nasıl oluşturulur sorusunun cevabı için, masaüstüne txt. dosyası açılmalı, komutlar belirtilmeli ve Google Search Console hesabından test edilmelidir. Robots.txt dosyasının oluşturulmasında dikkat edilmesi gereken en önemli faktörler:

  • Robots.txt dosyası sitenin kök dizininde bulunmalıdır,
  • Dosya, UTF-8 karakter kodlamalarına uygun olarak hazırlanmalıdır,
  • Dosya, site URL’si ile aynı formatta olmalıdır.

Oluşturulan dosya, her zaman yenilenebilir ve değiştirilebilir. Bu nedenle site durumuna göre kontrol edilmeli ve güncel tutulmalıdır.

Robots.txt Dosyası Komutları

Robots.txt’i doğru ve verimli kullanabilmek için işlemlerin komut olarak yazılması gerekmektedir. Robots.txt dosyası komutları şu şekildedir:

  • User-agent: Sitenin, hangi arama motoru botları tarafından taranacağı belirlemek için kullanılmaktadır. Örümceklerin bazıları kısıtlanabilir ya da tümüne izin verilebilir. Örneğin, tüm botların engellenebilmesi için şu komut yazılmaktadır, user-agent: *

  • Allow/ Disallow: Botların, hangi dizinleri tarayıp tarayamayacağını belirtmektedir. Belirli dizinlere erişim verilebilir, tümü engellenebilir ya da açık bırakılabilir. Örneğin, sadece görseller ya da videolar engellenebilir. Örneğin, disallow: /dizinadı/

  • Crawl-delay: Arama motorlarının siteyi belirlenen süre içinde taratması için süre sınırlandırması yapmaktadır. Genellikle, yüksek ziyaretçi sayısı sebebiyle sunucu hatası veren siteler tarafından kullanılmaktadır, diğer siteler için tavsiye edilmeyebilir. Örnek, crawl-delay: 3 (tarama için üç dakika verildiğini ifade etmektedir)

  • Sitemap komutu: Sitenin XML haritasını belirten ‘site haritası’, ‘sitemap.xml’ dosyası ile arama motoru botlarına doğru yönergeler sunmaktadır.

Site içinde herhangi bir içeriğin taranmasını engellemek için aşağıda belirtildiği biçimde bir kodlama kullanılmaktadır:

User-agent: Robot adı (Google, Yandex vb.)
Disallow: Erişime kapatılan içerik adı

Robots.txt ve SEO

Google SEO robots.txt dosyaları indexlenmesi istenen ve istenmeyen içerikleri belirtmektedir. SEO açısından önemi şu şekilde sıralanabilir:

  • Hassas ve özel veriler taranmayabilir ve bu veriler indexte yer almaz,
  • Örümcekler tarafından taranan dosyalar, arama motoru önbelleğine yüklenir ve her gün güncellenir bu durum site hızını dolaylı yoldan arttırabilir,
  • Sitede yer alan kopya, kalitesiz ya da zayıf içerikler arama motoru botlarından gizlenebilir,
  • Teknik SEO çalışmalarının tamamlanması için önemli bir adım atılabilir.

SEO sayfamıza göz atarak merak ettiğiniz soruların yanıtını alabilirsiniz.
https://www.bulutinteraktif.com.tr/seo/

Ziyaretçi Yorumları

Henüz yorum yapılmamış. İlk yorumu aşağıdaki form aracılığıyla siz yapabilirsiniz.

Ürün ve Hizmetlerimiz Hakkında Daha Fazla Bilgi Almak İçin Bizi Arayabilirsiniz: