Ce e Googlebot si cum functioneaza un crawler?

ce este Googlebot si cum functioneaza crawlerii

By Eduard Mihai SEO 14/01/2022

Googlebot este crawler-ul web folosit de Google pentru a culege informatiile necesare si pentru a construi un index de cautare pe web. Googlebot are crawler-uri mobile si desktop, precum si crawler-uri specializate pentru stiri, imagini si videoclipuri.
Exista mai multe crawler-uri pe care Google le foloseste pentru anumite sarcini si fiecare crawler se va identifica cu un sir diferit de text numit „agent utilizator”. Googlebot este vesnic verde, ceea ce inseamnă ca vede site-urile web aaa cum ar face-o utilizatorii in cel mai recent browser Chrome.

Googlebot ruleaza pe mii de calculatoare. Ei determina cat de repede si ce sa acceseze cu crawlere pe site-uri web. Dar isi vor incetini accesul cu crawlere pentru a nu coplesi site-urile web.

Sa ne uitam la procesul lor de construire a unui index al web-ului.

Cum acceseaza cu crawlere si indexeaza Googlebot pe web

Google a distribuit mai multe versiuni ale conductei sale in trecut. Mai sus este cel mai recent.

Google incepe cu o lista de adrese URL pe care le colecteaza din diverse surse, cum ar fi pagini, sitemaps, fluxuri RSS si adrese URL trimise in Google Search Console sau API-ul de indexare. Prioritizeaza ceea ce doreste sa acceseze cu crawlere, preia paginile si stocheaza copii ale paginilor.

Aceste pagini sunt procesate pentru a gasi mai multe linkuri, inclusiv linkuri catre lucruri precum solicitarile API, JavaScript si CSS de care Google are nevoie pentru a reda o pagina. Toate aceste solicitari suplimentare sunt accesate cu crawlere si stocate in memoria cache. Google foloseste un serviciu de redare care utilizeaza aceste resurse stocate in cache pentru a vizualiza pagini similare ca si cum ar face un utilizator.

Proceseaza acest lucru din nou si cauta orice modificari ale paginii sau link-uri noi. Continutul paginilor redate este ceea ce este stocat si cautat in indexul Google. Orice link-uri noi gasite revin la grupul de adrese URL pentru ca acesta sa poata fi accesat cu crawlere.

Cum sa controlezi Googlebot

Google va ofera cateva modalitati de a controla ceea ce este accesat cu crawlere si indexat.

Modalitati de a controla crawling-ul

Robots.txt – Acest fisier de pe site-ul dvs. web va permite sa controlati ceea ce este accesat cu crawlere.
Nofollow – Nofollow este un atribut de link sau eticheta meta robots care sugereaza ca nu trebuie urmat un link. Este considerat doar un indiciu, deci poate fi ignorat.
Modificati rata de accesare cu crawlere – Acest instrument din Google Search Console va permite sa incetiniti accesarea cu crawlere a Google.

Modalitati de a controla indexarea

Sterge continutul – Daca stergeti o pagina, atunci nu exista nimic de indexat. Dezavantajul este ca nimeni altcineva nu va putea accesa pagina.
Restrictionati accesul la continut – Google nu se conecteaza la site-uri web, asa ca orice fel de protectie prin parola sau autentificare il va impiedica sa vada continutul.
Noindex – Un noindex din eticheta meta robots le spune motoarelor de cautare sa nu indexeze pagina.
Tool stergere URL – Numele acestui instrument de la Google este usor inselator, deoarece modul in care functioneaza este ca va ascunde temporar continutul. Google va vedea si accesa in continuare acest continut, dar paginile nu vor aparea in rezultatele cautarii.
Robots.txt (Doar imagini) – Blocarea imaginii Googlebot de la accesarea cu crawlere inseamnă ca imaginile dvs. nu vor fi indexate.

Este cu adevarat Googlebot?

Multe instrumente SEO si unii roboti rau intentionati se vor preface a fi Googlebot. Acest lucru le poate permite sa acceseze site-uri web care incearca sa le blocheze.

In trecut, trebuia sa rulati o cautare DNS pentru a verifica Googlebot. Dar recent, Google a facut totul si mai usor si a oferit o lista de IP-uri publice pe care le puteti utiliza pentru a verifica daca solicitarile provin de la Google. Puteti compara acest lucru cu datele din jurnalele serverului dvs.

De asemenea, aveti acces la un raport „Statistici de accesare cu crawlere” din Google Search Console. Daca accesati Settings > Crawl Stats, raportul contine multe informatii despre modul in care Google acceseaza cu crawlere site-ul dvs. Puteti vedea care Googlebot acceseaza cu crawlere ce fisiere si cand le-a accesat.

Note finale

Web-ul este un loc mare și dezordonat. Googlebot trebuie sa navigheze prin toate setarile diferite, impreuna cu perioadele de nefunctionare si restrictiile, pentru a aduna datele de care Google are nevoie pentru ca motorul sau de cautare sa functioneze.

Un fapt amuzant pentru a incheia lucrurile este ca Googlebot este de obicei descris ca un robot si este denumit în mod adecvat „Googlebot”. Exista si o mascota paianjen care se numeste „Crawley”.

Mai ai întrebari? Anunta-ne pe Facebook.

Daca ai nevoie de servicii SEO sau de Creare Site Web, nu ezita sa ne ceri o oferta la formularul de mai jos sau la urmatoarele date de contact din aceasta pagina.

Ai dori sa incepi o campanie SEO pentru afacerea ta?

Ce este Googlebot & cum functioneaza un crawler?