Innholdsfortegnelse:
Klinisk genomikk er et fascinerende emne, der folk jobber med nyskapende teknologier for å behandle raske og nøyaktige resultater. Det er mange genomsekvensere tilgjengelig på markedet, og de produserer petabyte sekvensdata, og veksten i sekvensering kommer til å produsere eksabyte med data i løpet av en nær fremtid. Her er Hadoop den perfekte plattformen for å behandle kompleks genomisk arbeidsflyt. Hadoop kan lagre og sortere enorme mengder informasjon og kan også gi meningsfylt analyse. (For å få et inntrykk av hvor mye data dette egentlig innebærer, kan du lese Forstå biter, byter og deres multipler.)
Genomics nåtid og fremtid
I dag har genomkartlegging nådd sitt topp utvikling. Mange mennesker tilknyttet genomikkindustrien sprenger av nysgjerrighet, og etter hvert som nye muligheter presenterer seg, er bedre teknologi behovet for timen. Genomsekvensering er en veldig repeterende og ressurskrevende oppgave. Bare i 2013 ble omtrent 15 petabyte med data produsert, og bare av 2000 sequencere. Denne kjeppedempende mengden inkluderte 300 KB sekvensbestemte humane genomdata. Med denne hastigheten av dataproduksjon kan det anslås at innen 2018 vil det produseres omtrent en exabyte med data. Dette vil skyldes veksten av sequencers, som vil produsere mer og mer data per kjøring. En annen grunn er ankomsten av ekstremt kraftige og billigste sekvenseringsmaskiner til genomene. Siden 2008 har prisen på disse maskinene sunket jevnlig. Dette er på grunn av kraftige neste generasjons maskiner som har vakt inn i markedet.
Behovene for genomkartlegging av industrien
Komplekse algoritmer brukes til å behandle dataene som er samlet inn fra det humane genomet. Deretter må denne informasjonen lagres. Det kan vurderes i fremtiden for sammenligning med de opprinnelige dataene. Oppgaven med å behandle og lagre 100 GB data er ikke så vanskelig, spesielt når du gjør det med de kraftige maskinene som brukes på sekvenseringssentrene. Studier viser at denne datamengden kan behandles i løpet av omtrent 1000 CPU-timer, så det er veldig enkelt. Med denne tekniske utviklingen, er det tydelig at genomindustrien snart vil behandle tusenvis av gigabyte på bare noen få sekunder.