Hjem Audio Hører jeg døde mennesker? naturlig språkteknologi får stemmer fra tidligere og nåtid til å bli levende

Hører jeg døde mennesker? naturlig språkteknologi får stemmer fra tidligere og nåtid til å bli levende

Innholdsfortegnelse:

Anonim

I disse dager er de fleste datamaskinstemmer passé. Du blir sannsynligvis ikke for opptatt av cyborgs og roboter når du hører "droid" på telefonen din som hjelper deg med en regningbetaling eller spør deg hvilken avdeling du vil ha. Men hva om du plutselig hørte Kurt Cobain gi deg informasjon om kortinformasjon? Eller John F. Kennedy som forteller deg om underverkene ved tidlig avstemning? Eller at Elvis får navnet og adressen din før han bryter seg inn i "en hunk, en hunk av brennende kjærlighet?"


Alle disse ville være … ganske rare, men det som er enda mer fascinerende er at teknologien i utgangspunktet allerede er her. For bare et tiår siden, ble vi overrasket av datamaskinens evne til å snakke i det hele tatt. Nå er vi i ferd med å bli flyttet av frittgående datamaskingenererte stemmer som høres ut som folk vi kjenner.

Store endringer i NLP

Hvis du legger merke til feltet innen naturlig språkbehandling (NLP), har du kanskje hørt om noen nyere fremskritt som går utover de slags hermetiske virtuelle assistentstemmer som vi nå hører i våre globale posisjoneringssystemer (GPS) og automatiserte virksomheter. telefonlinjer.


Begynnelsen av NLP krevde en hel del forskning på den generelle mekanikken i menneskelig tale. Forskere og ingeniører måtte identifisere individuelle fonetikk, brette dem inn i større algoritmer for å generere setninger og setninger, og deretter prøve å håndtere det hele på et metanivå for å generere noe som hørtes virkelig ut. Over tid mestret NLP-ledere dette og begynte å bygge avanserte algoritmer for å forstå hva mennesker sier. For å sammenstille disse to, kom selskapene med driverne for dagens virtuelle assistenter og fullt digitale funksjonærer for fakturabetaling, hvis måtehold - selv om de er irriterende - fremdeles er fantastiske når du slutter å tenke på arbeidet som gikk inn på dem.


Nå går noen selskaper utover den generelle virtuelle stemmen for å sette sammen et mer spesifikt personlig resultat. Dette krever å gå gjennom en bestemt persons leksikon og samle store mengder unik stemmevideo, for så å bruke dette arkivet på de komplekse rytmene for fonetikk, vekt, kadens og alle de andre bittesmå ledetrådene som lingvister ofte grupperer under det brede banneret av "prosody."


Det som kommer ut er en stemme som lytterne tenker på som "eid" av en bestemt person - enten noen de kjenner og har snakket med, eller noen hvis stemme de kjenner igjen som et resultat av personens berømmelse.


Fra Elvis til Martin Luther King kan noens stemme nå "klones" på denne måten - forutsatt at det er en betydelig forhåndsinnspilt registrering av talen deres. Ved å anvende enda mer detaljert analyse og manipulasjon på individuelle små lyder, er selskaper i stand til å lage en virtuell karbonkopi av noens stemme som høres ut som den virkelige tingen.

Spennende "Text to Voice" -skaper på VivoText

VivoText, for eksempel, er et selskap som jobber for å revolusjonere bruken av kunstige menneskelige stemmer for alle typer kampanjer, fra lydbøker til interaktiv stemmesvar (IVR). Hos VivoText jobber forsknings- og produksjonsgrupper med prosesser som teoretisk sett kunne gjenskape stemmene til avdøde kjendiser, som Ol 'Blue Eyes selv.


"For å klone Frank Sinatras stemme, ville vi faktisk gå gjennom hans innspilte arv, " sier VivoText administrerende direktør Gershon Silbert, og snakker om hvordan denne typen teknologi kunne fungere.


Akkurat nå jobber VivoText med å arkivere stemmene til de som fremdeles er med oss, som NPR-korrespondent Neal Conan, som har meldt seg som modell for denne typen IT-pionerprosjekter. En salgsfremmende video viser VivoText-arbeidere omhyggelig lage fonetiske kodemoduler ved hjelp av gitt stemmeinngang fra Conan. De lager deretter modellene for tekst til tale (TTS) verktøy som fremkaller et dramatisk menneskelig og personifisert resultat.


I følge Ben Feibleman, visepresident for strategi og forretningsutvikling hos VivoText, jobber datamaskinen på et fonemnivå (ved å bruke de minste unike delene av talen) for å tilpasse seg en prosodisk modell for en individuell menneskelig stemme.


"Den vet hvordan stemmen snakker, " sier Feibleman, og legger til at ved å bruke "enhetsvalg" velger datamaskinen et antall brikker for å sette sammen et eneste kort ord, som hvor ordet "fredag" gis fem komponenter som hjelper til med å utvikle en spesiell vekt og tonalt resultat.

Kunstig stemme i markedsføring

Så, hvordan fungerer dette i markedsføring? VivoText sine produkter kan være ekstremt nyttige når det gjelder å lage produkter, som lydbøker, som kan nå målgrupper. Hvor mye mer effektiv vil for eksempel en Elvis-stemme bli sammenlignet med en av dagens generiske, deadpan, automatiserte stemmer hvis den ble brukt til å selge underholdningsrelaterte produkter?


Eller, hva med politikk? Feibleman har jobbet med forskjellige ideer for bruk av prosjekter som disse for å forbedre markedsføringen for selskaper eller andre parter som trenger mer effektiv meldinger.


"Hvis du kjenner noen politikere som kjører for president, kan dette ha 10 millioner swing-state velgere som får en personlig samtale fra en kandidat, takke dem for deres støtte, fortelle dem hvor de trenger å gå for å stemme, været og alt tilbehør natt før valget, ”sa Feibleman.

Stemmen din lever videre

Det er en annen åpenbar applikasjon for all denne teknologien. Naturlige språkbedrifter som VivoText kan opprette en personlig tjeneste som vil laste opp alle kundens stemmedata til et produkt som lar denne personen "snakke for alltid."


Praktisk implementering vil sannsynligvis reise en rekke spørsmål om hvordan vi hører og internaliserer talte stemmer. Hva krever for eksempel å få en lydstrøm til å høres nøyaktig ut som noen? Hvor godt må vi kjenne en person til å gjenkjenne en bestemt stemme? Og, interessant, hva skjer hvis en naturlig språktjeneste produserer en rå karikatur, snarere enn en overbevisende mimikk?


Evaluering av resultater, sier Feibleman, avhenger ofte av hensyn til kontekst. For eksempel sier han at barn vanligvis ikke stiller spørsmål om hvem som snakker når de hører på en historie. De vil bare ha mer. Men også mange voksne vil kanskje ikke tenke på hvem som snakker med dem, gitt et bestemt scenario, for eksempel en passiv sending eller telefonmelding. Det er også lettere å bli lurt av en datamaskin over telefonen fordi den dempede lyden kan maskere feil eller andre avvik mellom datamaskinresultatene og en menneskelig stemme.


"Det hender ikke deg å utfordre ektheten til stemmen, " sier Feibleman.

I året 2525

Når selskaper går videre med å utvikle produkter og tjenester og svare på disse spørsmålene, kan "levende tale" -teknologier fremme oss mot den konvergensen av teknologi og menneskesinnet, som klassisk har blitt kalt kunstig intelligens (AI).


Hvis datamaskiner kan snakke som oss, kan de kanskje lure andre brukere til å tenke at de tenker som oss, og fôre inn i det større prinsippet om singularitet, slik de ble ført inn i leksikonet vårt av John von Neumann, en tech-pioner fra 1950-tallet evangelisert av forfattere og tenkere som Ray Kurzweil. Kurzweils bok fra 2005, "The Singularity Is Near", begeistrer noen og skremmer andre. Kurzweils spådde at innen 2045 vil "intelligens" som fenomen bli sterkt ugudelig fra den menneskelige hjerne og migrere inn i teknologi og gjøre linjene mellom maskiner og deres menneskelige mestere uskarpe.


Udødeliggjort i tekstene til Zager & Evans '"I år 2525" (ingen gjør skumle sci-fi-ballader som disse gutta) …


I år 4545

Du trenger ikke tennene dine, ikke trenger det

dine øyne

Du vil ikke finne noe å tygge

Ingen vil se på deg


I år 5555

Armene dine henger halt ved sidene dine

Beina dine hadde ikke noe å gjøre

Noen maskiner gjør det for deg


Er datorstemmer et skritt i denne retningen? Som en ny måte å outsource noen av funksjonene til menneskekroppen (eller mer vanlig, for å simulere dem), er denne typen teknologiske fremskritt en av de største - og sannsynligvis underrapporterte - fremskritt i horisonten når vi ser på en enestående fremtid . (om "singulariteten" i Vil datamaskiner være i stand til å imitere det menneskelige sinn?)

Hører jeg døde mennesker? naturlig språkteknologi får stemmer fra tidligere og nåtid til å bli levende