Crawlen

Na intake en implementatie kunnen we aan de slag met crawlen.

Crawlen betekent dat we systematisch een website gaan bezoeken, met als doel om alle beschikbare informatie te ontdekken. Voor het gemak noemen we deze informatie hier “pagina’s”, maar het kunnen ook PDF documenten zijn, meta-informatie bij video’s, afbeeldingen, etcetera.

Crawlen doen we op twee manieren: organisch crawlen en via sitemaps. Deze methoden kunnen afzonderlijk en in aanvulling op elkaar gebruikt worden.

Organisch crawlen

Als we organisch crawlen, betekent dit dat we op een bepaalde pagina beginnen – vaak de homepage van een website – en van daaruit gaan speuren naar links naar andere pagina’s op de website.

Stel dat we op de pagina https://pandosearch.com/ beginnen. Daar vinden we waarschijnlijk iets van een hoofdmenu, waarin links staan naar “Blog”, “Contact” en andere pagina’s. Deze links noemen we URL’s (Uniform Resource Locator).

Pandosearch herkent deze URL’s, en gaat vervolgens ook deze pagina’s weer bezoeken. Op de homepage vinden we dan bijvoorbeeld:

Deze pagina’s bezoeken we en daar vinden we ook weer links naar andere pagina’s. Pandosearch gaat net zolang door totdat er geen URL’s meer gevonden worden die we niet al eerder zijn tegengekomen.

Tijdens dit proces hanteren we waar nodig ook uitsluitingsregels. Bijvoorbeeld:

  • Alle URLs negeren die beginnen met “/archief”
  • Alle URLS negeren die eindigen op “.pdf”
  • Alléén URLs meenemen die beginnen met “/producten”

Deze regels kunnen variëren van heel eenvoudig tot zeer complex, afhankelijk van wat nodig is om tot de gewenste zoekresultaten te kunnen komen.

Het eindresultaat van organisch crawlen is dat een gehele website in kaart is gebracht als een netwerk van webpagina’s die naar elkaar verwijzen.

Sitemaps

In aanvulling op organisch crawlen kijken we ook naar sitemaps. Een sitemap is simpel gezegd een lijst met webpagina’s (in de vorm van URL’s) die op een website te vinden zijn. Dit kunnen alle pagina’s zijn, maar dat hoeft niet:

  • Soms is een sitemap bewust een beperkte selectie van pagina’s die de klant relevant vindt voor de zoekmachine.
  • Soms kunnen op een sitemap juist ook “verborgen” pagina’s staan die via organisch crawlen niet gevonden zouden worden.

Het maken en ontsluiten van een sitemap vergt enige technische kennis. Daarom hebben we specifieke technische documentatie voor gemaakt, gericht op softwareontwikkelaars.

Afhankelijk van de situatie kunnen we er in overleg met de klant voor kiezen om alleen naar een sitemap te kijken en niet meer organisch te crawlen. Ook kunnen we sitemaps juist negeren als ze wel aanwezig zijn.

Als we alle informatie verzameld hebben, gaan we aan de slag met de volgende stap in het proces: indexeren.