Hjem Audio Hvordan har skraping av data for maskinlæring blitt den mest arbeidsintensive flaskehalsen siden manuell dataregistrering i eldre migrasjon?

Hvordan har skraping av data for maskinlæring blitt den mest arbeidsintensive flaskehalsen siden manuell dataregistrering i eldre migrasjon?

Anonim

Q:

Hvordan har skraping av data for maskinlæring blitt den mest arbeidsintensive flaskehalsen siden manuell dataregistrering i eldre migrasjon?

EN:

Et av de praktiske problemene som bedriftene kan støte på når de prøver å starte et maskinlæringsprosjekt (ML) -prosjektet, er utfordringen med å anskaffe datasett for grunnleggende opplæring. Dette kan omfatte arbeidsintensive prosesser som skraping av nett eller annen skraping av data.

Begrepene skraping og skraping av data refererer i stor grad til automatisk aktivitet av dataprogramvare, men for mange ML-prosjekter kommer det til å være tilfeller der datamaskiner ikke har raffinementet til å samle inn riktig målrettet data, så det må gjøres "for hånd." Dette kan du kalle "human web / data scraping", og det er en takknemlig jobb. Det innebærer generelt å gå ut og lete etter data eller bilder for å "mate" ML-programmet gjennom treningssett. Det er ofte ganske iterativt, noe som gjør det kjedelig, tregt, krevende arbeid.

Gratis nedlasting: Machine Learning og Why It Matters

Dataskraping for ML-opplæringssett representerer en unikt problematisk flaskehals i maskinlæring, blant annet fordi så mye av det andre arbeidet er svært konseptuelt og ikke repeterende. Mange mennesker kan komme på en god idé for en ny app som utfører maskinopplæringsoppgaver, men muttere og bolter og det praktiske arbeidet kan være mye vanskeligere. Spesielt kan delegere arbeidet med å sette sammen treningssettene faktisk være en av de vanskeligste delene av et ML-prosjekt, slik det utforskes fullt ut i Mike Judges TV-program "Silicon Valley". I en episode av sesong fire, mobber en oppstartsgründer først en partner til å utføre det arbeidskrevende arbeidet, og prøver deretter å gi det videre til studenter ved å forkledd det som en lekseroppgave.

Dette eksemplet er lærerikt fordi det viser hvor lite og tilsynelatende uviktig den manuelle skrapingen av data er. Den viser imidlertid også at denne prosessen er nødvendig for et bredt spekter av maskinlæringsprodukter. Selv om de fleste hater dataregistrering, må treningene settes sammen på noen måte. Eksperter på prosessen anbefaler ofte å bruke en skrapingstjeneste - egentlig bare å outsourcere dette veldig arbeidskrevende arbeidet til eksterne parter, men det kan ha sikkerhetsforstyrrelser og forårsake andre problemer. Når du holder det manuelle datainnsamlingsarbeidet i egen regi, må det igjen tas en bestemmelse om det som ofte er en veldig manuell og tidkrevende prosess.

På noen måter ser "skraping av menneskelig data" for maskinlæring ut som den manuelle dataoppføringen som noen ganger måtte gjøres i arvemigrering. Etter hvert som skyen ble mer og mer populær, og selskaper satte sine prosesser og arbeidsflyter i skyen, fant noen at de ikke hadde jobbet gjennom de praktiske aspektene for hvordan de skal få bedriftsdataene fra et isolert legacy-system til sky-native applikasjoner. Som et resultat fant noen mennesker som ellers var dataforskere eller kreative mennesker med essensielle IT-ferdigheter, å gjøre ubehagelige dataregistreringsoppgaver.

Det samme vil sannsynligvis skje med maskinlæring. Du kan høre en dataforsker klage på at "jeg er en kreativ person" eller "Jeg er på utviklingssiden" - men noen må gjøre det skitne arbeidet.

Igjen, hvis den kreative flyten ikke samsvarer med en praktisk vurdering av arbeidsflytdelegasjonen, vil det være et misforhold i hvordan oppgavehåndteringen styres. Når et selskap ikke har folk som skal gjøre skrapearbeidet for å samle datasett, mangler det en sentral del av prosedyren for et vellykket prosjekt. Det er verdt å huske på dette hver gang et selskap prøver å tjene godt på en idé som er basert på å utvikle nye applikasjoner for maskinlæring.

Hvordan har skraping av data for maskinlæring blitt den mest arbeidsintensive flaskehalsen siden manuell dataregistrering i eldre migrasjon?