Holmes/3.10.1
Kategoria: projekty
Zauważyłem dziwną zmianę częstotliwości odwiedzin mojego bloga przez onet holmesa. O ile na początku działalności pojawiał się raz w tygodniu (mniej/więcej), teraz jest codziennie i przegląda większość kategorii. Zastanawiam się, czy spodobał mu się mój blog :D, czy mają algorytmy, które sprawdzają docelową stronę (łatwo jest sprawdzić, czy strona działa na wordpress)? Swoją drogą to drugie rozwiązanie jest bardzo pomysłowe.
Co prawda boty to bardzo (bardzo!) skomplikowane maszyny, które nie tylko zrzucają treść stron, analizując treść, ale nie wydaje mi się, żeby były aż tak wyspecjalizowane, żeby rozpoznawać generator stron, które pobierają/analizują. Można zapytać - po co analizować? Po to, żeby ograniczyć potrzeby sprawdzania, czy jest nowa wersja strony. Przy maszynach przeczesujących sieć, jest to bardzo ważne - pomyślcie, ile stron ma w indeksie google, załóżcie teraz, że czas pobrania/analizy 1 strony to 1sek. (czas myślę, że zaniżony, biorąc pod uwagę opóźnienia związane z siecią), otrzymany wynik należy podzielić iloczyn 24*3600*31 - wynikiem będzie ilość miesięcy, które potrzeba na ponowne pobranie i analizę tych stron… wynik na pewno zabójczy. Przy odpowiedniej optymalizacji (j/w), można ograniczyć niepotrzebne pobrania dla części aplikacji. Oczywiście google korzysta ze swoich algorytmów analizy zmian i obliczeń częstotliwości przyjść - które są “ściśle tajne”. Google możemy zatem zostawić sobie, ale w przypadku agregatorów treści blogowych, takie rozwiązanie byłoby dość ciekawe (choć one głównie korzystają z RSS).
Temat warty dalszego przemyślenia, mam nadzieję, że niedługo będę miał trochę czasu, żeby to przemyśleć i umieścić tu swoje wnioski.

