21.03 2008

Walka z bot-wiatrakami…

Kategoria: php/db

Pierwszy poważny serwis (nawet ten blog dotychczas nie był przeze mnie traktowany poważnie) pokazał dziwne przypadłości niektórych botów-spiderów. Co prawda są pewne standardy, którymi powinien kierować się każdy programista bota, ale wiadomo - standardy są po to, żeby każdy tworzył swoje. Taki homenet na przykład… 10 wywołań serwisu na sekundę - minuta w minutę! robots.txt - nawet nie sprawdził czy jest… rel=”nofollow” - to do mnie?

W związku z w/w problemem postanowiłem powalczyć z botami - wiatrakami. Przede wszystkim duża liczba odsłon - ze względu na ograniczone możliwości kontroli (tylko IP + przeglądarka), ograniczenie dotyczy albo połączenia (max połączeń na minutę), albo samego IP (więcej połączeń oczywiście). Takie rozwiązanie ma sens tylko dla małych i średnich serwisów - google/youtube nie może blokować zbyt wielu wejść z jednego IP (akademiki, dzielone łącza itp).

Oczywiście serwis reaguje “sensownie” na podejrzenie o bota - dla bota zwraca 503 (więc i tak wróci na stronę), wraz z linkiem do potwierdzenia “człowieczeństwa”. Które odblokowuje na kilka minut sprawdzanie, czy odwiedzający jest botem (ale to już na sesji - skoro potwierdził że nie jest botem, z sesją nie będzie problemów).

Jakie macie rozwiązania na boty które podbierają wam dane z serwisu?

2 Responses to “Walka z bot-wiatrakami…”

  1. Nowaker

    Ja prawdę mówiąc nie walczyłem nigdy z botami z takiego powodu, iż uważam ich bardziej za przyjaciół, niż wrogów.

    Jednak co do rozwiązań to poszukałbym w Internecie list IP, jakie posiadają popularne boty (są gdzieś takie) i dla tych IP stosował mocniejsze kryteria (np. mniejsza dozwolona liczba połączeń na minutę).

    Część botów nie robi sobie niczego z robots.txt i rel=”nofollow”, ale mimo wszystkie przedstawia się jako robot. Dlatego kontrolę User-agent też bym zrobił. W frameworku KohanaPHP jest gotowa funkcja is_robot(), nie trzeba więc pisać samemu tylko zaadaptować sobie stamtąd.

  2. MaKARON

    Hm.. innego rodzaju boty mam na myśli - ja nie mam nic przeciwko botom google, msn, yahoo i innych - ale są “content stealery”, które pobierają treść strony i później uruchamiają kopię - dodatkowo robią to metodą “brute” (czyli np 30 pobrań strony na sekundę) - chodzi o blokowanie tego typu zachowań. Większość tego typu rzeczy jednocześnie podaje się za IE lub FF. A rel=”nofollow” można w ich przypadku wstawić między bajki :-)

Leave a Reply

O mnie...

  Programista, freelancer - prowadzący małą działalność gospodarczą (oprogramowanie dla małych i średnich przedsiębiorstw) - szukam przede wszystkim wyzwań i ciekawych projektów, dopiero później rozmawiam o pieniądzach.
  Na blogu znajdziesz informacje zarówno o sprawach firmowych, jak i prywatnych (choć tych jest zdecydowanie więcej).

Kategorie

ostatnio ulubiony

www.danceshaker.com - mój w pełni swój, pierwszy “poważny” serwis, nad którym zamierzam poważniej popracować! Na razie we wczesnej fazie beta, ale już wrzuciłem i dodałem linka na blogu, żeby ulubione google znalazło serwis. Na starcie lekko ponad 1000 filmików z różnego rodzaju tańcami - począwszy od hip-hopu, przez elektro, tańce uliczne aż po tango i foxtrota. Informacje do filmików też są jeszcze w powijakach, ale mam nadzieję, że z czasem wszystko się ładnie uzupełni (z waszą pomocą).

Lista TODO jest ogromna, nie będę jej jeszcze publikował, postaram się wybić parę robaków do końca tygodnia. Blog na google już postawiony, ale pusty - to jest pierwsza informacja dotycząca serwisu. Zostaje jeszcze optymalizacja i kilka innych kroków, które jednak nie mogą opóźniać startu. Nie ma jeszcze reklam.. miałe nie pisać todo, ale się rozkręciłem.

Zapraszam do rzucenia okiem i podesłania ew uwag.

W międzyczasie założyłem bloga dla danceshakera,  i rozwinąłem kilka rzeczy. Przejrzałem też API mikroblogów - w niektórych serwis publikuje już linki do filmików. Ciągłym problemem jest brak linków do serwisu i mała oglądalność. Pojawił się pierwszy raz gugiel - myślę, że pierwsze sensowne wyniki pojawią się dopiero pod koniec przyszłego tygodnia.

Checking Page Ranking