Den taleprosessering er et teknologisk disiplin som har som mål fangst, overføring, identifikasjon og syntese av tale.
På dette området kan vi definere tale som en muntlig tekst. Vi er interesserte
Den uttrykksfulle (i betydningen dramatisk kunst ) og musikalske karakterer av den menneskelige stemmen er en del av det større feltet for signalbehandling .
De viktigste fagområdene som bidrar til talebehandlingsteknologier er
Fremveksten på slutten av XIX E- tallet av en kraftig telefonindustri markerer begynnelsen på forskningsinnsatsen innen talebehandling. Etter de første eksperimentene, og de første enhetene som ga liten lyttekomfort, startet den begynnende telefonindustrien studier for å bestemme de grunnleggende egenskapene til et signal som beskriver tale, som skal rutes på linjene. På 1920-tallet mangfoldet oppfinnelsen av elektronikk mulighetene for signalbehandling; den båndbredde og lyd dynamikk som er nødvendige for taleforståelse bestemmes.
Disse studiene er nødvendige for å tillate ruting av flere signaler på samme ledningspar (multiplexing).
Omtrent tyve år senere, de teoretiske grunnlag for signalbehandling ( samplingsteoremet , informasjonsteori ble) etablert, basert på den erfaring av telekommunikasjon og kringkasting .
I 1933 ble det første stemmesyntese-systemet bygget fra ordopptak for taleklokken .
Anvendelsen av elektronikk med mulighet for å registrere og analysere signalet i et sonogram stimulerer samtidig fonetiske, fonologiske og psykoakustiske studier.
I telekommunikasjon inspirerer forskning om effektiviteten til taleoverføring ideen om ikke lenger å overføre lyd, men tekst-til-tale-kommandoer utført av en enhet ved mottak. Den Vocoder ble oppfunnet i 1939, med den ekstra fordelen at den tillater kryptering av telefonsignal.
Computer teknologi finner anvendelse i tale behandling der en stor industri kan konsentrere forskningsressurser og finans enheter kostnaden som er spredt over millioner av brukere.
Talekodere, et direkte resultat av forskning på driften av telefonnettverk, forvandler det hørbare signalet til en så liten informasjonshastighet som mulig.
En talespesifikk koder skal fungere bedre enn en generell koder (som mp3 ).
Taleanalysatorer transformerer signalet som bærer talen til en beskrivelse av dens egenskaper, uavhengig av dens betydning. Denne beskrivelsen kan brukes til å kontrollere en synthesizer ( Vocoder ).
De kan brukes til å kvantifisere forståeligheten av signalet som overføres av et system.
De utgjør det første trinnet for høyttalergjenkjenning og tekstgjenkjenning, som de utgjør datasamlinger for.
Disse enhetene identifiserer personen som snakker en tekst.
Det er to separate problemer med økende kompleksitet:
Det er et spørsmål om å gå fra signalets egenskaper til en forståelig tekst.
Vanskeligheten øker med kompleksiteten av problemet som skal behandles
Synthesizers har som mål å transformere til et signal,
Ingen språk har en total fonetisk skriving, og tale inkluderer intonasjoner, som de som markerer organisering av setninger, som bare er indirekte innskrevet i teksten. En synthesizer må løse disse vanskelighetene, og også håndtere problemet med nye eller fremmede ord.