Indexeren

De informatie die Pandosearch ontdekt tijdens het crawlen, wordt daarna geïndexeerd.

Indexeren betekent dat we ruwe informatie gaan vertalen naar informatie die geschikt is om te doorzoeken. We doen dit in de basis via categoriseren, opschonen, selecteren, en tekstanalyse. Tot slot zijn er aanvullende maatwerkopties die we in dit artikel kort benoemen.

Hoe het indexeren precies verloopt hangt deels af van het type informatie (een webpagina verschilt bijvoorbeeld van een PDF document) en van specifieke wensen van onze klanten. In dit artikel gaan we uit van een webpagina met HTML broncode die we vertalen naar informatie die via een zoekbalk te vinden is.

Categoriseren

Pandosearch is gemaakt om grote hoeveelheden informatie te kunnen opknippen in kleinere stukken en deze te categoriseren.

In zoekterminologie noemen we deze categorieën facetten. Een facet is zowel een filter als als een groepering.

Een voorbeeld:

De website pandosearch.nl bevat algemene pagina's en nieuwsartikelen. Voor de zoekfunctie willen we graag weten welke pagina's "algemeen" zijn en welke "nieuws". Dit maakt het namelijk mogelijk om:

Alleen in "nieuws" te zoeken, bijvoorbeeld in een zoekbalk op de Nieuws pagina. Dit voorkomt dat mensen irrelevante zoekresultaten krijgen als ze alleen binnen Nieuws willen zoeken.
Bij de algemene zoekresultaten te tonen hoeveel resultaten er in "algemeen" zijn en hoeveel in "nieuws". Dit geeft bezoekers een indicatie van waar informatie te vinden is. Ook kunnen ze dan doorklikken op één van beide om de resultaten verder te filteren.

Facetten maken het bovenstaande (en nog veel meer!) mogelijk.

Maar hoe bepaalt Pandosearch dan of iets een "algemeen" of "nieuws" pagina is? Dit kan op een aantal manieren:

De URL (het webadres) kan hiervoor handig zijn. Alle nieuwsartikelen kunnen bijvoorbeeld onder "pandosearch.nl/nieuws/" staan. Alle pagina's waarvan de URL hiermee begint markeert Pandosearch dan als "nieuws" en de rest als "algemeen".
Een andere manier is door naar zogeheten meta tags te kijken in de HTML broncode van de pagina. Tijdens de implementatie kunnen we een specifieke meta tag afspreken met de websitebouwers van pandosearch.nl waaruit we kunnen afleiden of iets "nieuws" is of niet.

Er zijn nog vele andere manieren om facetten te bepalen. Dit is sterk afhankelijk van klantspecifieke wensen. We bespreken dit daarom tijdens intake en implementatie.

Opschonen

Je staat er als je een website bezoekt niet zo bij stil, maar elke webpagina die je bekijkt bevat in de broncode allerlei informatie die je niet ziet. Denk hierbij aan informatie over opmaak (zoals tekstkleur en tekstformaat) en programmeercode (scripts) die reageert op bewegingen op het scherm met je muis of vinger. Heel handig voor jou als bezoeker, maar niet iets wat relevant is voor een zoekmachine.

Daarom schoont Pandosearch een hoop van dit soort informatie op als we een HTML pagina indexeren.

Selecteren

Als we een eerste opschoning hebben gedaan, blijft er vaak nog steeds informatie over die we niet willen gebruiken. Denk hierbij aan een hoofdmenu, waarin allerlei woorden staan die juist niet relevant zijn voor de huidige pagina, maar voor de pagina waar het menu naar verwijst. Ook de informatie onderaan een webpagina bevat vaak tekst die altijd hetzelfde is, en daarmee niet nuttig voor een zoekfunctie.

Wat we daarom doen is expliciet een selectie maken van de daadwerkelijke inhoud van een pagina. Hoe we dit doen hangt sterk af van het beheersysteem (CMS) achter een website. We doen dit daarom vaak in overleg met technische mensen bij onze klanten, zoals websitebeheerders en/of softwareontwikkelaars.

Tekstanalyse

Na opschonen en selecteren blijft een stuk tekst over dat we vindbaar willen maken. Hiervoor gebruiken we logica die de tekst analyseert. Afhankelijk van de taal en de aard van de tekst knippen we de tekst op in woorden, kijken we naar vervoegingen van woorden, zorgen we dat speciale tekens (é, ü, à, etc.) goed werken en zorgen we ook dat we een lijst van autocomplete suggesties opbouwen.

Aanvullende tekstanalyses

Naast bovenstaande voorbeelden passen we ook specifieke tekstanalyses toe als dat nodig is. Omdat Pandosearch per implementatie kan verschillen, gaat het te ver om alle varianten hier te behandelen in deze algemene documentatie. Tijdens de intake en implementatie kijken we altijd naar wat nodig is voor een specifieke situatie.

Maatwerkopties

Naast het genoemde maatwerk in de tekstanalyse is ook in andere fases van het indexeringsproces maatwerk mogelijk. Denk aan het indexeren van andere informatie dan HTML (XML , PDF's, JSON, etcetera) of hele klantspecifieke instellingen voor het opschonen en analyseren van webpagina's.

We adviseren hierbij graag en maken uiteindelijk altijd samen met onze klanten de afweging of de (extra) investering opweegt tegen de toegevoegde waarde die maatwerk biedt.

Als het indexeren is gedaan, kan Pandosearch alle informatie gaan ontsluiten via een zoekfunctie.