[Concurs][Mediu] Crawlerul lui Mihai
5Mihai doreste sa vada cum lucreaza un crawler pentru a putea optimiza mai usor paginile website-ului sau.El stie ca Crawlerul Google merge pana la adancimea X in paginile website-ului sau si doreste sa vada cele care sunt indexate de acesta.El doreste sa aiba statistici clare despre fiecare pagina in parte si toate paginile pana la adancimea X sa se reprezinte sub forma unui arbore. Radacina arborelui reprezinta Website-ul principal al lui Mihai iar fii oricarui nod reprezinta toate paginile care nu exista deja in arbore si care sunt descendenti ai paginii curente.El are nevoie si de alte informatii despre fiecare pagina.Deoarece nu stie programare el are nevoie de ajutorul tau.
Mihai doreste urmatoarele informatii despre fiecare pagina :
1. Numarul de link`uri interne de la pagina curenta
* 3. Fii paginii curente primesc PageRank de la pagina curenta?
Pentru a afla asta intre tagurile <head></head> trebuie sa nu existe :
<meta name=”robots” content=”nofollow”/>
* 4. Fii paginii curente sunt indexati?Daca da se adauga in arbore daca nu arborele nu se dezvolta in adancime pe nodul curent.
Pentru a sti daca fiii paginii curente nu sunt indexati trebuie sa nu existe linia
<meta name=”robots” content=”noindex”/>
intre tagurile <head></head>
# 5. Fiecare link trebuie verificat pentru existenta argumentului „rel”.
Consideram exemplele urmatoare :
Acest link nu este indexat.
<a href=”link” rel=”noindex”>Anchor</a>
Acest link este indexat dar nu primeste PageRank.
<a href=”link” rel=”nofollow”>Anchor</a>
* Meta Robots poate fi si de forma : <meta name=”robots” content=”noindex,nofollow”/> sau anchor de asemenea.
* Daca tagurile de mai sus lipsesc se considera ca paginile sunt indexate si primesc PageRank.
* Daca lipseste tagul <head></head> se considera ca paginile sunt indexate si primesc PageRank.
* Daca un link nu este indexat nu primeste nici PageRank
# Este optional,cei care se vor folosi si de acest caz pentru stabilirea argumentelor unei pagini vor avea puncte in plus.
Ce inseamna adancime?
Adancime 1 : Pagina principala (http://www.site.com)
Adancime 2 : Toate paginile interne ce sunt la Adancime 1
Adancime 3 : Toate paginile interne ce sunt la Adancime 2
…..
Adancime X : Toate paginile care sunt la Adancime X-1
Exemplu :
Sa consideram ca site`ul http://www.site.com are urmatoarea sursa :
<html>
<head><meta name=”robots” content=””/></head>
<body>
<a href=”www.site.com/help” rel=”noindex”>Ai nevoie de ajutor</a>
<a href=”www.site.com/probleme” rel=”nofollow”>Probleme</a>
<a href=”www.site.com/test” rel=”noindex,nofollow”>Testeaza</a>
<a href=”www.site.com/contact” rel=”noindex,follow”>Contacteaza-ma</a>
</body>
</html>
Singura pagina care este indexabila este : http://www.site.com/probleme
Sursa acestei pagini este :
<html>
<head><meta name=”robots” content=”nofollow”/></head>
<body>
<a href=”www.site.com/test1″ rel=”noindex”>Ai nevoie de ajutor</a>
<a href=”www.site.com/test2″ rel=”follow”>Probleme</a>
<a href=”www.site.com/test3″ rel=”index,nofollow”>Testeaza</a>
<a href=”www.site.com/test4″>Contacteaza-ma</a>
</body>
</html>
Date de intrare :
3 //adancime pana la care merge crawlerul
www.site.com //radacina arborelui ,adancime 1
Date iesire :
* www.site.com : 4 pagini : Nu primesc PageRank : Indexam
** www.site.com/help : X pagini : Nu primesc PageRank : Nu Indexam
** www.site.com/probleme : 4 pagini : Nu primesc PageRank : Nu Indexam
*** www.site.com/test1 : X pagini : Nu primeste PageRank : Nu indexam
*** www.site.com/test2 : X pagini : Primesc PageRank : Indexam //dar am atins adancimea maxima deci nu indexam, iar parintele paginii respective spune sa nu primeasca PageRank
*** www.site.com/test3 : X pagini : Nu primesc PageRank : Indexam //dar am atins adancimea maxima deci nu indexam
*** www.site.com/test4 : X pagini : Primesc PageRank : Indexam //dar am atins adancimea maxima,, iar parintele paginii respective spune sa nu primeasca PageRank
** www.site.com/test : X pagini : Nu primesc PageRank : Nu indexam
** www.site.com/contact : X pagini : Primesc PageRank : Nu indexam
Concursul a fost lansat pe 21 iulie si se va incheia pe 10 august pe Hackpedia.info. Rezolvarea o voi pune dupa ce se va incheia concursul.Ma puteti contacta aici,sau imi dati PM pe hackpedia. 🙂
Mult succes!!
Nytrogen s-a inscris in competitie.Astept si alti concurenti!
E perioada de inscriere sau putem sa aparem pe ultima suta de metri cu solutia?
Nu e nici o perioada de inscriere.Cand vii cu sursa esti inscris in competitie!
Bafta la concurs. 😀
Au aparut rezultatele.
Felicitari nytr0gen!!