• Acasă
  • Despre noi
  • Autori
  • Mărturii
  • Arhivă
  • Trimite Articol
  • Contact

WORLDIT

Lumea în 1 și 0.

  • Știri
    • Tehnologie
    • Tehnologie mobilă
    • Securitate
    • Developers
    • Știință
    • Benzi desenate
    • Jocuri
    • Intern
  • Tehnic
    • Browser
    • C#
    • C/C++
    • Challenge
    • HTML/CSS
    • Javascript, Ajax, jQuery
    • Open Source
    • PHP
    • Python
    • Securitate IT
    • Socializare
    • WordPress
    • Altele
  • Recenzii
  • Interviuri
  • Evenimente

[Concurs][Mediu] Crawlerul lui Mihai

5
  • Publicat de Andrei Avădănei
  • în Probleme algoritmică
  • — 22 iul., 2009 at 7:42 pm

concursMihai doreste sa vada cum lucreaza un crawler pentru a putea optimiza mai usor paginile website-ului sau.El stie ca Crawlerul Google merge pana la adancimea X in paginile website-ului sau si doreste sa vada cele care sunt indexate de acesta.El doreste sa aiba statistici clare despre fiecare pagina in parte si toate paginile pana la adancimea X sa se reprezinte sub forma unui arbore. Radacina arborelui reprezinta Website-ul principal al lui Mihai iar fii oricarui nod reprezinta toate paginile care nu exista deja in arbore si care sunt descendenti ai paginii curente.El are nevoie si de alte informatii despre fiecare pagina.Deoarece nu stie programare el are nevoie de ajutorul tau.

Mihai doreste urmatoarele informatii despre fiecare pagina :
1. Numarul de link`uri interne de la pagina curenta
* 3. Fii paginii curente primesc PageRank de la pagina curenta?
Pentru a afla asta intre tagurile <head></head> trebuie sa nu existe :

Code:

<meta name=”robots” content=”nofollow”/>

* 4. Fii paginii curente sunt indexati?Daca da se adauga in arbore daca nu arborele nu se dezvolta in adancime pe nodul curent.
Pentru a sti daca fiii paginii curente nu sunt indexati trebuie sa nu existe linia

Code:

<meta name=”robots” content=”noindex”/>

intre tagurile <head></head>
# 5. Fiecare link trebuie verificat pentru existenta argumentului „rel”.
Consideram exemplele urmatoare :
Acest link nu este indexat.

Code:

<a href=”link” rel=”noindex”>Anchor</a>

Acest link este indexat dar nu primeste PageRank.

Code:

<a href=”link” rel=”nofollow”>Anchor</a>

* Meta Robots poate fi si de forma : <meta name=”robots” content=”noindex,nofollow”/> sau anchor de asemenea.
* Daca tagurile de mai sus lipsesc se considera ca paginile sunt indexate si primesc PageRank.
* Daca lipseste tagul <head></head> se considera ca paginile sunt indexate si primesc PageRank.
* Daca un link nu este indexat nu primeste nici PageRank
# Este optional,cei care se vor folosi si de acest caz pentru stabilirea argumentelor unei pagini vor avea puncte in plus.

Ce inseamna adancime?
Adancime 1 : Pagina principala (http://www.site.com)
Adancime 2 : Toate paginile interne ce sunt la Adancime 1
Adancime 3 : Toate paginile interne ce sunt la Adancime 2
…..
Adancime X : Toate paginile care sunt la Adancime X-1

Exemplu :
Sa consideram ca site`ul http://www.site.com are urmatoarea sursa :

Code:

<html>
<head><meta name=”robots” content=””/></head>
<body>
<a href=”www.site.com/help” rel=”noindex”>Ai nevoie de ajutor</a>
<a href=”www.site.com/probleme” rel=”nofollow”>Probleme</a>
<a href=”www.site.com/test” rel=”noindex,nofollow”>Testeaza</a>
<a href=”www.site.com/contact” rel=”noindex,follow”>Contacteaza-ma</a>
</body>
</html>

Singura pagina care este indexabila este : http://www.site.com/probleme

Sursa acestei pagini este :

<html>
<head><meta name=”robots” content=”nofollow”/></head>
<body>
<a href=”www.site.com/test1″ rel=”noindex”>Ai nevoie de ajutor</a>
<a href=”www.site.com/test2″ rel=”follow”>Probleme</a>
<a href=”www.site.com/test3″ rel=”index,nofollow”>Testeaza</a>
<a href=”www.site.com/test4″>Contacteaza-ma</a>
</body>
</html>

Date de intrare :

3 //adancime pana la care merge crawlerul
www.site.com //radacina arborelui ,adancime 1

Date iesire :

Code:

* www.site.com : 4 pagini : Nu primesc PageRank : Indexam
** www.site.com/help : X pagini : Nu primesc PageRank : Nu Indexam
** www.site.com/probleme : 4 pagini : Nu primesc PageRank : Nu Indexam
*** www.site.com/test1 : X pagini : Nu primeste PageRank : Nu indexam
*** www.site.com/test2 : X pagini : Primesc PageRank : Indexam  //dar am atins adancimea maxima deci nu indexam, iar parintele paginii respective spune sa nu primeasca PageRank
*** www.site.com/test3 : X pagini : Nu primesc PageRank : Indexam //dar am atins adancimea maxima deci nu indexam
*** www.site.com/test4 : X pagini : Primesc PageRank : Indexam //dar am atins adancimea maxima,, iar parintele paginii respective spune sa nu primeasca PageRank
** www.site.com/test : X pagini : Nu primesc PageRank : Nu indexam
** www.site.com/contact : X pagini : Primesc PageRank : Nu indexam

Concursul a fost lansat pe 21 iulie si se va incheia pe 10 august pe Hackpedia.info. Rezolvarea o voi pune dupa ce se va incheia concursul.Ma puteti contacta aici,sau imi dati PM pe hackpedia. 🙂

Mult succes!!

Etichete: concurscrawlermotor de căutareproblemaspidertema

— Andrei Avădănei a scris 1246 articole

Andrei scrie pe worldit.info din vara lui 2011. Este fondatorul Asociatiei Centrul de Cercetare in Securitate Informatica din Romania - CCSIR si coordoneaza DefCamp, cea mai importanta conferinta de securitate informatica & hacking din Europa Centrala si de Est. Andrei ofera in cadrul Bit Sentinel servicii de securitate informatica, penetration testing, security management, recuperarea de pe urma unui atac cibernetic, training-uri si workshop-uri.

  • Articolul anterior Introducere in functii [C++]
  • Articolul următor Telefonul mobil, transformat in microscop

5 Comentarii

  1. Avadanei Andrei spune:
    iulie 23, 2009 la 3:09 pm

    Nytrogen s-a inscris in competitie.Astept si alti concurenti!

  2. Claudiu spune:
    iulie 24, 2009 la 12:41 am

    E perioada de inscriere sau putem sa aparem pe ultima suta de metri cu solutia?

  3. Avadanei Andrei spune:
    iulie 24, 2009 la 1:16 am

    Nu e nici o perioada de inscriere.Cand vii cu sursa esti inscris in competitie!

  4. miculprogramator spune:
    iulie 25, 2009 la 5:59 pm

    Bafta la concurs. 😀

  5. Avadanei Andrei spune:
    august 11, 2009 la 2:55 pm

    Au aparut rezultatele.

    Felicitari nytr0gen!!


  • Facebook

    WorldIT.info
  • Ultimele Atacuri Cibernetice din Romania – RO Hacked

    [wp_rss_retriever url="https://rohacked.bit-sentinel.com/feed/" excerpt="none" items="5" read_more="false" new_window="true" thumbnail="false" cache="0"] RO Hacked este registrul atacurilor cibernetice din România.
  • Caută

  • Articole Recomandate

    • Recent Posts
    • Tags
    • Număr record de participanți la DefCamp 2015, cel mai important eveniment dedicat securității cibernetice din Europe Centrala si de Estdecembrie 2, 2015
    • La DefCamp 2015 vei afla prin ce tehnici pot fi evitate măsurile de securitate ale sistemelor informatice criticeoctombrie 16, 2015
    • Ultima sansa sa rezervi bilete de tip Early Bird la DefCamp 2015septembrie 1, 2015
    • 15 sfaturi despre cum poti deveni un programator bun venite de la specialisti romaniaugust 4, 2015
    • algoritmica Android antivirus Apple Avadanei Andrei benzi desenate BitDefender blog browser C++ Chrome concurs eveniment Facebook Firefox Google google chrome hacking html5 infografic informatica internet Internet Explorer IT javascript linux Microsoft Mozilla Firefox online PHP programare retea sociala review Romania securitate Tehnologie Twitter web Windows Windows 7 Wordpress WorldIT worldit.info Yahoo! YouTube
  • februarie 2021
    L Ma Mi J V S D
    1234567
    891011121314
    15161718192021
    22232425262728
    « dec.    
  • Link-uri Sponsorizate

    • laptop second hand

    • Calculatoare Second Hand

    • cod voucher pc garage

  • Home
  • Tehnic
  • C/C++
  • Probleme algoritmică
  • [Concurs][Mediu] Crawlerul lui Mihai
  • Important

    • Bit Sentinel
    • Centrul de Cercetare în Securitate Informatică din România
    • DefCamp
  • Prieteni

    • BetiT.ro
    • bijuterii handmade
    • Computerica | Resurse gratuite PC
    • Descopera.org
    • Gadgeturi si IT – Giz.ro
  • Prieteni

    • PC – Config
    • RO Hacked
    • Stiri IT

Copyright © 2009-2014 WORLDIT. Toate drepturile Rezervate.
Termeni și condiții | Contact | Licența Creative Commons