Innholdsfortegnelse:
Definisjon - Hva betyr webcrawler?
En webcrawler er en Internett-bot som hjelper med webindeksering. De gjennomsøker en side om gangen gjennom et nettsted til alle sidene er indeksert. Webcrawlers hjelper deg med å samle informasjon om et nettsted og koblingene relatert til dem, og hjelper også med å validere HTML-koden og hyperkoblinger.
En webcrawler er også kjent som en web edderkopp, automatisk indekser eller ganske enkelt crawler.
Techopedia forklarer Web Crawler
Webcrawlers samler inn informasjon som nettadressen til nettstedet, metakoden informasjonen, innholdet på websiden, koblingene på websiden og destinasjonene som fører fra disse koblingene, tittelen på websiden og all annen relevant informasjon. De holder oversikt over nettadressene som allerede er lastet ned for å unngå å laste ned den samme siden igjen. En kombinasjon av retningslinjer som politikk for å besøke, seleksjonspolitikk, parallelliseringspolitikk og høflighetspolitikk bestemmer oppføringen til webcrawleren. Det er mange utfordringer for webcrawler, nemlig den store og kontinuerlig utviklende World Wide Web, avveininger med innholdsvalg, sosiale forpliktelser og håndtering av motstandere.
Webcrawlers er de viktigste komponentene i websøkemotorer og systemer som ser på websider. De hjelper til med å indeksere nettoppføringer og lar brukere sende spørsmål mot indeksen og gir også websidene som samsvarer med spørsmålene. En annen bruk av webcrawlere er i webarkivering, som innebærer store sett med nettsider som periodisk skal samles og arkiveres. Nett crawler brukes også i data mining, hvor sider blir analysert for forskjellige egenskaper som statistikk, og deretter blir dataanalyse utført på dem.