Hjem Audio Hva er noen viktige måter å automatisere og optimalisere datavitenskapelige prosesser?

Hva er noen viktige måter å automatisere og optimalisere datavitenskapelige prosesser?

Anonim

Q:

Hva er noen viktige måter å automatisere og optimalisere datavitenskapelige prosesser?

EN:

Datavitenskapelige prosesser i sammenheng med maskinlæring og AI kan deles inn i fire forskjellige faser:

  1. datainnsamling og utforsking,
  2. modellbygning,
  3. modellutplassering og
  4. online evaluering og foredling.

Etter min erfaring er de mest hindrende fasene datainnsamlingen og modellutrullingsfasene i enhver maskinlæringsbasert datavitenskapelig prosess, og her er to måter å optimalisere dem:

1. Etablere en svært tilgjengelig datastore.

I de fleste organisasjoner lagres ikke data på et sentralt sted. La oss bare ta informasjon relatert til kunder. Du har informasjon om kundekontakt, kundesupport-e-postmeldinger, tilbakemeldinger fra kunder og historikk om kundesurfing hvis virksomheten din er en webapplikasjon. Alle disse dataene er naturlig spredt, fordi de tjener forskjellige formål. De kan være i forskjellige databaser, og noen kan være fullstendig strukturert og noen ustrukturerte, og kan til og med lagres som ren tekstfiler.

Dessverre er spredningen i disse datasettene svært begrensende for datavitenskapelig arbeid. Grunnlaget for alle NLP-, maskinlærings- og AI-problemer er data . Så å ha alle disse dataene på ett sted - datastore - er avgjørende for å akselerere modellutvikling og distribusjon. Gitt at dette er en avgjørende brikke for alle datavitenskapelige prosesser, bør organisasjoner ansette kvalifiserte dataingeniører for å hjelpe dem med å bygge datastores. Dette kan lett starte med at enkle data dumpes til ett sted og sakte vokse til et gjennomtenkt dataregister, fullstendig dokumentert og spørrende med verktøy som kan eksportere delmengder av data til forskjellige formater for forskjellige formål.

2. Utsett modellene dine som en tjeneste for sømløs integrasjon.

I tillegg til å muliggjøre tilgang til data, er det også viktig å kunne integrere modellene utviklet av dataforskere i produktet. Det kan være ekstremt vanskelig å integrere modeller utviklet i Python med en webapplikasjon som kjører på Ruby. I tillegg kan det hende at modellene har mange datavhengigheter som produktet ditt muligens ikke kan tilby.

En måte å håndtere dette på er å sette opp en sterk infrastruktur rundt modellen din og eksponere akkurat nok funksjonalitet som er nødvendig for produktet ditt for å bruke modellen som en "webtjeneste." Hvis for eksempel applikasjonen din trenger holdningsklassifisering på produktanmeldelser, alt det trenger å gjøre er å påkalle webtjenesten, gi relevant tekst og tjenesten vil gi tilbake den rette følelsesklassifiseringen som produktet direkte kan bruke. Slik er integrasjonen ganske enkelt i form av et API-anrop. Når du kobler fra modellen og produktet som bruker den, blir det veldig enkelt for nye produkter du kommer frem til å bruke disse modellene med lite problemer.

Nå er det en helt annen historie å sette opp infrastrukturen rundt modellen din og krever en tung initial investering fra dine ingeniørteam. Når infrastrukturen først er der, handler det bare om å bygge modeller på en måte som passer inn i infrastrukturen.

Hva er noen viktige måter å automatisere og optimalisere datavitenskapelige prosesser?