Stemmegjenkjenningsteknologi: nyttig eller smertefull?

2025

Innholdsfortegnelse:

For å snakke med et menneske, trykk 0
Personlige telefonapper: Siri, Google Nå
Hvor VR faller flat
Hva fremtiden bringer

Har du noen gang ringt et selskap for å få hjelp eller betale regningen din, bare for å bli møtt av en hyggelig innspilt stemme som vil ha en samtale med deg - men ikke kan forstå halvparten av det du sier? Eller kanskje du eier en iPhone, og mens Siri først virket som en god alliert, har du innsett at noen ganger (OK, la oss være ærlige, ofte) bare ikke har det det? Stemmegjenkjenningsteknologi (VRT), også kjent som tale-til-tekst, faller i en vanlig felle: den har potensial til å være utrolig kul (og gutt, har vi rot til det), men oftere er det en tenner trene i frustrasjon.

En gang en ide som hørte hjemme i science fiction, har stemmegjenkjenning vokst fra sin spede begynnelse på 1950-tallet, da Bell Laboratories Audrey-systemet ble designet for å gjenkjenne sifre som ble snakket i en enkelt stemme, til det moderne nettverket av samtaleelektronikk vi nå samhandler med på daglig basis - med blandede resultater.

For å snakke med et menneske, trykk 0

Mange av dagens virksomheter bruker nå systemer som kalles interaktiv stemmesvar (IVR) for å håndtere kundeserviceanrop. Den vanligste bruken er for stemmenavigerte menyer, men noen selskaper bruker IVR-systemer som kan få tilgang til kundekontoinformasjon og svare på mindre spørsmål. Meny IVR-programvare har vanligvis et begrenset ordforråd, som kan være begrenset til "ja", "nei" og tall. Mer kompliserte systemer kan gjenkjenne selskapsspesifikke ord og uttrykk.

Disse systemene blir mer populære - i det minste for bedrifter - av en enkel grunn: de er kostnadseffektive. I følge en rapport fra Wall Street Journal fra 2010, koster en typisk kundesamtale som når en agent mellom $ 3 og $ 9, mens en samtale som håndteres gjennom et automatisert system bare koster fem til syv øre. Og selvfølgelig blir ikke dataprogrammer lei, ringer syke inn eller blir frustrerte over kundene (selv om kundene absolutt blir frustrerte over dem!).

Heldigvis betyr ikke det alltid at IVR tar jobber bort fra folk - eller i det minste at alle mennesker forsvinner fra kundesentre. Disse stemmeaktiverte hjelperne tillater representanter for kundeservice å være mer produktive ved å dirigere samtaler og svare på enkle spørsmål.

For de menneskelige brukerne som samhandler med disse teknologiene, er det selvfølgelig ikke alltid jevn seiling. Teknologi hjelper til med å forbedre vanlige problemer i IVR-teknologi, for eksempel problemer med aksenter, men det er fortsatt et vanlig tema på nettet å pakke automatiserte systemer. Ta en titt på denne komisjonsskitten om en heis utstyrt med stemmegjenkjenning, som fremhever frustrasjonen som feil i IVR-systemer kan gi.

Personlige telefonapper: Siri, Google Nå

De fleste er kjent med stemmegjenkjenning for smarttelefoner. Mens flertallet av de nyeste telefonmodellene har VR, ble deres popularitet - og beryktet - svulmet da Apple introduserte Siri, den mildt sagt sarkastiske, stemmeaktiverte "personlige assistenten" for iPhone 4S i 2011. Google opprettet snart en direkte konkurrent: Google Nå for Android Jelly Bean OS. Begge systemene har kvinnelige stemmer og sofistikerte gjenkjennelsesfunksjoner som lar brukerne "snakke" med telefonene sine ved bruk av tilfeldig språk.

Men selv om disse systemene er betydelig mer sofistikerte og funksjonelle enn forgjengerne, viser de også at teknologien fremdeles har en lang vei å gå. Vitser om Siris fiasko har blitt et populært internettmeme. En mann saksøkte til og med Apple for falsk annonsering angående Siris muligheter.

Kanskje det er grunnen til at mens Apple opprettet Siri for å være avansert og informativ, er VR-programvaren også litt på den sassy siden. Hvis du for eksempel snakker en av de mest beryktede linjene for etterretningsteknologi i kinohistorien fra filmen "2001: A Space Odyssey" - "åpne pod bay doors" - vil Siri svare med enten svarlinjen fra filmen, " Jeg beklager (navnet ditt), jeg er redd for at jeg ikke kan gjøre det, "eller det mer sarkastiske, " vi etterretningsagenter vil tilsynelatende aldri leve det ned. "

Å ringe deg med navn er bare en av funksjonene som prøver å gjøre Siri lettere å elske, og litt mer menneskelig. VR-assistenten kan følge stemmekommandoer for å ringe, ta diktater og sende tekster, utføre Internett-søk for informasjon, finne butikker i nærheten, gi veibeskrivelse og mer, alt uten å måtte berøre noe. Svar snakkes samtidig av telefonen og vises på skjermen.

Google Nå, VR-delen av Android Jelly Bean-plattformen, ligner veldig på Siri. Systemet tilbyr de samme omfattende gjenkjennelsesfunksjonene ved å oversette tilfeldige tale til kommandoer som lar brukere ringe, sende tekster, kjøre søk, utføre beregninger og konverteringer, ta tak i definisjoner av ord, stille alarmer, spille sanger og få kart og veibeskrivelse.

For personlige stemmeassistenter som Siri og Google Nå er fordelene åpenbare. Alt fra å ringe og sms til søk og underholdning er raskere og enklere. Bare si hva du vil, og (mesteparten av tiden) VR-appen griper den for deg. VR-teknologien er spesielt nyttig når du kjører. Og selv om mange mennesker har avkreftet Siris mangler, og forfattere har hevdet at Google Now evne til i det vesentlige å drive brukernes liv både er uhyggelig litt fornærmende, synes de fleste fremdeles at disse futuristiske teknologiene er ganske kule.

Selvfølgelig er personlige telefonapper som Siri og Google Nå langt fra perfekte - selv om de viser hvor denne teknologien kan være på vei i fremtiden. Det betyr at selv når Siri dukker opp et galt svar, vil vi sannsynligvis le og tilgi henne, vel vitende om at neste versjon vil være mye bedre.

Hvor VR faller flat

Hvis du noen gang har opplevd en IVR når du ringte en bedrift, har du kanskje lagt merke til visse hindringer for kommunikasjon. Noen programmer bruker en robot tekst-til-tale-stemme som feil uttaler ord og gjør ting vanskelig å forstå. Andre har følsomhetsproblemer som resulterer i at programvaren ikke klarer å behandle det du sier hvis du er for høy, for myk eller ikke gir uttrykk for mye.

I tillegg er det mange som fortsatt ikke føler seg komfortable med å snakke med en maskin. Hvis du kjører noen få søk på IVR, vil du møte lister folk har satt sammen måter å omgå IVR-systemer og komme til en "ekte person." Disse løsningene spenner fra "fortsett å trykke 0 for en operatør" til "banne ved maskinen til den henter et menneske." Som et resultat har mye av den nylige utviklingen i IVR-systemer dreid seg om å gjøre dem mer velsmakende for mennesker; gjør stemmene mer sympatiske og mindre robuste, gjør systemet enklere å navigere og la innringere vite hvor lang tid hele saken vil ta fra begynnelse til slutt. Det tyder på at bedre teknologi er bare halve slaget her; den andre halvparten får brukere ombord med å snakke med en maskin.

Hva fremtiden bringer

Til tross for disse utfordringene, forbedrer stemmegjenkjenningsteknologien hele tiden. Programmer som Siri og Google Now - mangler og alt - er fremdeles ekstra imponerende når det gjelder ytelse, og flere selskaper utvider VR-kapasitet til andre applikasjoner.

For eksempel har Nuance, skaperne av Dragon NaturallySpeaking tale-til-tekst-programvare, allerede utviklet stemmekontroller for TV-apparater og biler, og versjoner av denne teknologien er integrert i noen Samsung-TV-er og SYNC-underholdningssystemene som brukes i visse Ford-biler.

Og ettersom Google og Apple fortsetter å finne nye bruksområder for stemmegjenkjenningsteknologiene sine, er det sannsynlig at vi i økende grad vil snakke med alle slags daglige maskiner, fra TV-apparatene til brødristerne våre. Og nok en gang ser det ut som science fiction hadde rett. Vi får bare håpe de flinke forfatterne tok feil av en ting. Hvis disse maskinene tar over, kan du være i mye trøbbel neste gang du ber Siri om å "åpne døren til pod-bukten."