08.03 2007

Holmes/3.10.1

Kategoria: projekty

Zauważyłem dziwną zmianę częstotliwości odwiedzin mojego bloga przez onet holmesa. O ile na początku działalności pojawiał się raz w tygodniu (mniej/więcej), teraz jest codziennie i przegląda większość kategorii. Zastanawiam się, czy spodobał mu się mój blog :D, czy mają algorytmy, które sprawdzają docelową stronę (łatwo jest sprawdzić, czy strona działa na wordpress)? Swoją drogą to drugie rozwiązanie jest bardzo pomysłowe.

Co prawda boty to bardzo (bardzo!) skomplikowane maszyny, które nie tylko zrzucają treść stron, analizując treść, ale nie wydaje mi się, żeby były aż tak wyspecjalizowane, żeby rozpoznawać generator stron, które pobierają/analizują. Można zapytać - po co analizować? Po to, żeby ograniczyć potrzeby sprawdzania, czy jest nowa wersja strony. Przy maszynach przeczesujących sieć, jest to bardzo ważne - pomyślcie, ile stron ma w indeksie google, załóżcie teraz, że czas pobrania/analizy 1 strony to 1sek. (czas myślę, że zaniżony, biorąc pod uwagę opóźnienia związane z siecią), otrzymany wynik należy podzielić iloczyn 24*3600*31 - wynikiem będzie ilość miesięcy, które potrzeba na ponowne pobranie i analizę tych stron… wynik na pewno zabójczy. Przy odpowiedniej optymalizacji (j/w), można ograniczyć niepotrzebne pobrania dla części aplikacji. Oczywiście google korzysta ze swoich algorytmów analizy zmian i obliczeń częstotliwości przyjść - które są “ściśle tajne”. Google możemy zatem zostawić sobie, ale w przypadku agregatorów treści blogowych, takie rozwiązanie byłoby dość ciekawe (choć one głównie korzystają z RSS).

Temat warty dalszego przemyślenia, mam nadzieję, że niedługo będę miał trochę czasu, żeby to przemyśleć i umieścić tu swoje wnioski.

Leave a Reply

O mnie...

  Programista, freelancer - prowadzący małą działalność gospodarczą (oprogramowanie dla małych i średnich przedsiębiorstw) - szukam przede wszystkim wyzwań i ciekawych projektów, dopiero później rozmawiam o pieniądzach.
  Na blogu znajdziesz informacje zarówno o sprawach firmowych, jak i prywatnych (choć tych jest zdecydowanie więcej).

Kategorie

ostatnio ulubiony

www.danceshaker.com - mój w pełni swój, pierwszy “poważny” serwis, nad którym zamierzam poważniej popracować! Na razie we wczesnej fazie beta, ale już wrzuciłem i dodałem linka na blogu, żeby ulubione google znalazło serwis. Na starcie lekko ponad 1000 filmików z różnego rodzaju tańcami - począwszy od hip-hopu, przez elektro, tańce uliczne aż po tango i foxtrota. Informacje do filmików też są jeszcze w powijakach, ale mam nadzieję, że z czasem wszystko się ładnie uzupełni (z waszą pomocą).

Lista TODO jest ogromna, nie będę jej jeszcze publikował, postaram się wybić parę robaków do końca tygodnia. Blog na google już postawiony, ale pusty - to jest pierwsza informacja dotycząca serwisu. Zostaje jeszcze optymalizacja i kilka innych kroków, które jednak nie mogą opóźniać startu. Nie ma jeszcze reklam.. miałe nie pisać todo, ale się rozkręciłem.

Zapraszam do rzucenia okiem i podesłania ew uwag.

W międzyczasie założyłem bloga dla danceshakera,  i rozwinąłem kilka rzeczy. Przejrzałem też API mikroblogów - w niektórych serwis publikuje już linki do filmików. Ciągłym problemem jest brak linków do serwisu i mała oglądalność. Pojawił się pierwszy raz gugiel - myślę, że pierwsze sensowne wyniki pojawią się dopiero pod koniec przyszłego tygodnia.

Checking Page Ranking