Hjem Audio Hva er forskjellen mellom tale til tekst og chatbots?

Hva er forskjellen mellom tale til tekst og chatbots?

Anonim

Q:

Hva er forskjellen mellom tale til tekst og chatbots?

EN:

De mange viktige forskjellene mellom tale-til-tekst-teknologier og chatbots er en del av det som blir undersøkt i den raske utviklingen av chatbot- og voicebot-prosjekter.

En tale-til-tekst-teknologi er ganske enkelt en som konverterer muntlig tale til tekst på en digital side. Det er dens fulle funksjon, men det er ikke en som er enkel å utforme. For å konvertere muntlig tale til tekst, må teknologien bryte ord og setninger ned i individuelle fonemer og jobbe med dem i henhold til komplekse algoritmer for å lage tekst som er nøyaktig og representerer det som taleren sa.

Chatbots er derimot teknologier som oppnår målet om å kommunisere med et menneske. Det er to typer chatbots: tekstchatbots og voicebots. Tekst chatbots har eksistert mye lenger, fordi de ikke trenger tale-til-tekst-elementet som stemmebots bruker.

Hovedforskjellen mellom tale-til-tekst-teknologier og chatbots er omfanget. Som nevnt er all tale-til-tekst-teknologien å gjøre å transkribere den muntlige talen. Chatboten, derimot, må ta tale i hvilken form den er laget for, forstå den og gi svar som prøver å bestå Turing-testen - testen om en teknologi kan lure et menneske til å tro at han eller hun er snakker med en annen person.

Med det i bakhodet, er chatbots langt enklere å lage enn voicebots. Chatbotten tar inn menneskets tekst og gir en tekstrespons. Selv relativt enkle chatbots har vært i stand til å gi interessante og morsomme resultater for mennesker siden slutten av 1980-tallet og begynnelsen av 1990-tallet.

Talebotten må derimot ta inn muntlig tale, konvertere den til tekst, sjekke den for nøyaktighet, produsere et svar og bygge den responsen fra maskinspråk til hørbar tale. Dette store antallet ganske betydningsfulle oppgaver gjør at voicebot tar mye datakraft og mye design å bygge.

Prosjekter som Siri, Cortana og Alexa demonstrerer en del av fortroppen til voicebot-teknologier. De illustrerer også at denne teknologien fremdeles er i sin spede begynnelse. Selv om Alexa og andre teknologier kan svare muntlig på menneskelig tale, er de ikke ekstremt dyktige i den forstand at vi forbinder med verbal menneskelig tale generelt. Det er med andre ord ganske begrensninger i svarene disse teknologiene kan gi. Det er til og med en begrenset mulighet for dagens generasjon av personlige assistenter til å virkelig generere tale til tekst, for eksempel med det formål å transkribere en e-post eller hjelpe noen med å skrive et essay uten å bruke hendene. Noen av de spesifikke tale-til-tekst-programmene på markedet gjør dette bedre enn Siri eller Cortana, sannsynligvis på grunn av ressursfordelingen. Imidlertid er det tegn på at fremgang i voicebot snart kommer til å ta fart - for eksempel Amazons Lex-plattform som gir et studiomiljø for å bygge denne typen teknologier.

I et smart og lærerikt essay om temaet snakker Tobias Goebel om forskjellen mellom disse teknologiene, og kontraster prosessen med å "transkribere", som tale til tekst gjør, til jobben med å forstå, som chatbots skal gjøre.

"Selv om eliminering av behovet for talegjenkjenning gjør det enklere for en chatbot, ligger den største utfordringen å bygge fungerende roboter i naturlig språkforståelse, " skriver Goebel.

Goebel identifiserer også mange av de nåværende aktørene i bransjen:

Markedslederen for talegjenkjenning er Nuance, som står bak kjente systemer som Dragon NaturallySpeaking for diktering på en PC, som har eksistert siden nittitallet, men også Siri: talegjenkjennings- / transkripsjonsoppgaven utført i Apple-skyen bruker Nyanseteknologi bak kulissene. Andre er LumenVox, Verbio eller Interactions, men talegjenkjenning tilbys nå også som en skytjeneste via APIer av slike som Amazon, Google, Microsoft og IBM.

Når chatbots utvikler seg, antas det at deres forståelse vil fortsette å øke på en eller annen bane - og det antas også i stor grad at mer bot-teknologi vil gå fra tekstgrensesnitt til verbale grensesnitt, noe som krever ytterligere datamengder.

Hva er forskjellen mellom tale til tekst og chatbots?