Innholdsfortegnelse:
Definisjon - Hva betyr Apache Nutch?
Apache Nutch er et programvare for nettbasert crawler som kan brukes til å samle data fra nettet. Det brukes i forbindelse med andre Apache-verktøy, for eksempel Hadoop, for dataanalyse.
Techopedia forklarer Apache Nutch
Apache Nutch er et open source produkt lisensiert av Apache Software Foundation. Dette utviklermiljøet har lisenser for en rekke Apache-programvareverktøy som kan sortere og analysere data. En av de sentrale teknologiene er Apache Hadoop, et stort dataanalyseverktøy som er veldig populært i næringslivet.
Sammen med verktøy som Apache Hadoop og funksjoner for fillagring, analyse og mer, er rollen som Nutch å samle inn og lagre data fra nettet gjennom bruk av webkrypingsalgoritmer.
Brukere kan dra nytte av enkle kommandoer i Apache Nutch for å samle informasjon under URL-er. Brukere bruker vanligvis Apache Nutch sammen med et annet åpen kildekodeverktøy, et rammeverk kalt Apache Solr, som kan fungere som et depot for dataene som er samlet inn med Apache Nutch.
