Web Robotları
Web’in dinamik yapılı içeriğini otomatik olarak tekrar tekrar dolaşan ve bunları veritabanlarında tutan programlardır. Web tarayıcıları robot değillerdir.
Web robotlarından bazı yerlerde Web Wanderers, Web Crawlers veya Spiders olarak da sözedilmektedir.
Robotların siteleri gezerken bir virüs gibi kendilerini gezdikleri serverlara kopyalayıp zarar verdikleri düşünülmektedir. Oysa robotlar birer virüs değildir. Sadece ziyaret ettikleri sitenin bilgilerini almakla görevlidirler.
Şu adres mevcut tüm robotların listesini göstermektedir.
AGENT NEDIR?
Bazı agent çeşitleri şunlardır;
Autonomous agents;
Pek kullanılmayan, fakat özel serverlar arasında kullanılan bir türdür.
Intelligent agents;
Kullanıcılara yardımcı olan agent’lardır. Kullanıcılar ürün seçiminde veya
forum doldururken ya da birşeyleri ararken bu agent’in yardımını alırlar.
User-agent;
Network görevleri için kullanılan teknik bir terimdir. Mesela Web User-Agent olarak Netscape Navigator ve Internet Explorer örnek verilebilinir.
SEARCH ENGINE NEDIR?
Robotlar tarafından oluşturulan bir veritabanı içerisinde belli kriterlere göre arama işlemi yapan programlardır.
ROBOTLAR HANGI AMAÇ IÇIN KULLANILIRLAR?
* Indexleme
* HTML doğrulama
* Link doğrulama
* Yenilikler
* Benzer içerikler
ROBOTLAR ZARARLI MIDIR?
Bazı sebeplerden dolayı bazı insanlar robotların zararlı olduğunu düşünmektedirler.
Işte sebepler;
* Kimi robotlar ziyaret ettikleri serverlar üzerinde aşırı yüklemeler yapmaktadırlar. Bu site sahiplerinin hiç hoşuna gitmemektedir. Fakat bu tür olaylar genellikle robot yazılımları geliştiren acemi yazılımcıların neden oldukları bir durumdur.
* Robot yazılımcılarının yazılımı kullanacak olanlara karşı dikkatli olması ve hata yapabileceklerini düşünmesi gerekmektedir. Robot’ları kullanacak olanların hatası zaman zaman tehlikeli olabilmektedir.
* Indexleme işleminde ölçeklenemeycek kadar büyük merkezi veritabanları oluşturulması.
Fakat robotlar kötü veya çok zeki değillerdir. Sadece kullanımı dikkat gerektirmektedir. Iyi tasarlanmış ve profesyonel yönetilen robotlar probleme yol açmazlar. Aksine web dünyasının daha verimli kullanılmasını sağlarlar.
BIR ROBOT NEREYI ZIYARET EDECEĞINE NASIL KARAR VERIR?
Her robotun farklı bir stratejisi vardır. Genellikle tarihsel URL listelerinden başlanır. Özellikle çok ziyaret edilen ve yeni sayfaların yayınlandığı server-lists’ler kontrol edilir.
Kendiniz URL adresinizi göndererek de sitenize bir robot çağarmanız mümkün.
Robotlar ziyaret ettiği sitelerin içerik ve kaynaklarını parse ederken rastladığı adresleri de ziyaret edeceklerdir.
INDEXLEME YAPAN ROBOTLAR NELERI INDEXLERLER?
Bazıları HTML titles’ları indexlerken bazıları ilk bir kaç paragrafı veritabanlarına aktarırlar. Tüm kelimeleri parse edip veritabanlarına alan robotlar da mevcuttur. Bazıları sadece META taglarla veya gizli bazı özel taglarla ilgilenirler.
KENDI SAYFAMI BIR ROBOTA NASIL KAYDETTIREBILIRIM?
Bahsedildiği gibi robotlar genellikle kendileri tüm sitelere ulaşmaktadırlar. Fakat robotları kendiniz de sitenize davet edebilirsiniz. Her robotun bir submit formu vardır. Buraya adresinizi girerek robotun sitenize uğramasını sağlayabilirsiniz.
Google için şu adresini kullanabilirsiniz. Diğer robotların adresleri için yukarıda verilen linki kullanarak addurl sayfalarını öğrenebilirsiniz.
Ayrıca googlebot çok yoğun ve erişilmesi güç siteler haricinde tüm sitelere bir kaç saniye’de bir erişmektedir.
BIR ROBOT TARAFINDAN ZIYARET EDILDIĞIMI NASIL BILECEĞIM?
Server loglarından görebilirisiniz. Ayrıca serverınız User-agent ‘e izin veriyor ise alışılmadık user-agent loginleri için header değerlerini kontrol edebilirsiniz.
ROBOTLARDAN NASIL KORUNABILIRIM?
Sitenize /robot.txt oluşturup içerisine
User-agent: *
Disallow: /
yazmanız yeterlidir. Bu tüm robotların dikkate alması gereken bir dosya olduğunu ve hiçbir içeriğin robotlar tarafından incelenmemesini göstermektedir.
# /robots.txt file for http://webcrawler.com/
# mail webmaster@webcrawler.com for constructive criticism
User-agent: webcrawler
Disallow:
User-agent: lycra
Disallow: /
User-agent: *
Disallow: /tmp
Disallow: /logs
Ikinci örneğin ilk 2 satırı yorum ve bilgi amaçlıdır. Ilk agent olan webcrawler robotuna hiç bir engelleme olmadığını görüyoruz. Robot tüm içeriği işleme koyabilir.
Lycra’nın hiç bir içeriğe ulaşmaması gerektiğini görüyoruz. Biliyorsunuz / karakteri tüm folderların başlangıcını temsil ediyor.
Son uyarı ise tüm agent’ları ilgilendiriyor. Tüm agentlar tmp ve logs folderlarından uzak durmalıdırlar. Standartlar hakkında daha fazla bilgiyi şu adresden bulabilirsiniz.
EĞER ROBOT.TXT OLUŞTURAMIYORSANIZ NE YAPMALISINIZ?
Meta tagları kullanabilirsiniz.
<META NAME="ROBOTS" CONTENT="NOINDEX">
Bu satırları içeren HTML dökümanı indexlenmeyecektir.
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
Bu satırları içeren HTML indexlenecek fakat bir robot tarafından parse edilmeyecektir.
<META NAME="robots" CONTENT="noarchive">
Bir çok site indexlendiği son hali ile arama motorlarından erişilebilinmektedirler. Hatta siteler kapandıkları halde son indexlendiği hali ile arama motorları üzerinde yayınlanmaktadırlar. Işte bunu engellemek için yani arşivlemeyi engellemek için yukarıdaki satırları dökümana eklemeniz yeterlidir.
KAYNAK: http://www.robotstxt.org/wc/robots.html
« Ajax ile Temel Veritabanı Erişimi | Microsoft Outlook’ta Gelen Mesajları Otomatik Cevaplama »
Yorumlar
üzerinde şu anda okumakta olduğunuz 'Web Robotları' isimli yazı 15 Haz 2007 tarihinde, saat: 10:48 'de admin tarafından gönderilmiş.
Benzer yazıları Teknoloji kategorilerinden okuyabilirsiniz. Yazar ile irtibat kurmak için email gönderebilirsiniz. Yazıya yorum yapabilir ya da yapılan yorumları RSS 2.0 ile takibe alabilirsiniz.
Eklenen Son Yazılar
- Last.fm arayüzüne botoks yapıldı
- Nero’dan sıkılanlara, Ashampoo Burning Studio 8
- Avira AntiVir Türkçe destek vermeye başladı
- Soundtrack Pro ile Ortam Gürültüsünü Düzeltme
- Samsung i900 Omnia anons edildi
- Soundtrack Pro ile Ses Seviyelerini Normalleştirme
- tadilator.com “usta aramayı kolaylaştıran site”
- HTC Touch Diamond Kutu İçeriği
- GittiGidiyor.com’un yaratıcılarından yeni bir proje; Cimri.com BETA olarak yayında
- hayrettinkaraca.com
Rastgele Yazılar
- 10 Sene İçinde Cep Telefonlarında Beklenen 10 Önemli Gelişme
- Semantik Web Hakkında Bilmeniz Gereken 11 Şey
- Yeni Dünyanın New York Times’ı Digg.com mu?
- Samsung i900 Omnia anons edildi
- Flickr'da büyük protesto
- Windows şifremi unuttum, nasıl geri alabilirim?
- hayrettinkaraca.com
- Avira AntiVir Türkçe destek vermeye başladı
Son Yorumlar
- Burak: yazdığın yazıyla ilgisiz olacak ama
- mocobain: çok teşekkürler.
- sandokan: eyvallah kardeşim ya çok makbüle
- Bahadir Eryigit: güzel makale, teşekkürler
Bağlantılar
- burak.blicca.com
- Klipistan
- birazkisisel.com
- blogohbe.com
- fanişeyler sözlük
- Hayrettin Karaca
- ixbir.com
- Mahkum.net
- mavigenc.com
- nettenye.com
- Ozan Kılıç
- TeknolojiHerseyim.com










Çok güzel ve yararlı bir paylaşım.
bazı robotları nasıl engelleyeceğimi ararken, hızır gibi yetiştiniz desem yeridir

teşekkürler
Gerçekten çok yararlı bir paylaşım. Saolun.