Wat is spraaksynthese: 3 belangrijke factoren die ermee verband houden?

Tekst-naar-spraak-robot

Spraaksynthese

De methode om mensachtige spraak kunstmatig te genereren met behulp van machines wordt spraaksynthese genoemd. Een computersysteem dat in gebruik wordt genomen om deze procedure uit te voeren, wordt een spraaksynthesizer genoemd. Het systeem vereist verdere implementatie in software of hardware, en we kunnen één toepassing ervan opmerken in een Text-to-Speech (TTS) -systeem. Een Text-to-Speech-systeem accepteert alledaagse menselijke taal in tekstvorm als invoer en zet deze om in spraak als uitvoer.

Spraaksynthese wordt gedaan door de volgorde van opgenomen spraak in de vorm van eenheden die in een database zijn opgeslagen. Systemen variëren in de grootte van de opgeslagen spraakeenheden; het meest uitgebreide uitgangsbereik wordt geleverd door een systeem dat telefoons of diphones opslaat met mogelijk verlies van helderheid.

De opslag van hele woorden of zinnen zorgt voor een hoogwaardige productie voor bepaalde gebruikersdomeinen. Deze methode kan worden vervangen door een spraakkanaalmodel en verschillende andere kenmerken van de menselijke stem op te nemen en kunstmatige spraakuitvoer te genereren.

Spraaksynthese
Overzicht van TTS-systeem

De uitvoerkwaliteit van een spraaksynthesizer is afhankelijk van de mate waarin deze de echte menselijke stem benadert en hoe gemakkelijk deze te verstaan ​​is. Het gebruik van het spraaksyntheseapparaat is duidelijk sinds de jaren negentig en is grondig ontwikkeld om mensen met specifieke handicaps en beperkingen te helpen.

Overzicht van Text-to-Speech-systeem

Er zijn twee belangrijke onderdelen van een tekst-naar-spraak-spraak:

  • Front End- Het is verantwoordelijk voor het omzetten van de invoertekst die verschillende symbolen, cijfers en afkortingen bevat naar de equivalente vorm van begrijpelijke en converteerbare gegevens. Dit proces wordt tekstnormalisatie of voorverwerking van de gegevens genoemd. Elk woord krijgt vervolgens fonetische transcripties toegewezen en scheidt en labelt de tekst in prosodische eenheden, zoals zinnen, clausules en zinsdelen, via een proces dat tekst-naar-foneem of grafeem-naar-foneem wordt genoemd. De twee aspecten worden vervolgens gecombineerd om de uitvoergegevens te genereren die de symbolische linguïstische representatie bevatten.
  • Back End- In het algemeen aangeduid als de "synthesizer", is dit deel verantwoordelijk voor de symbolische linguïstische weergave in geluid. In een geavanceerd systeem wordt dit proces verder gevolgd door de berekening van de doelprosodie (toonhoogtecontour, foneemtijden), die zal worden gebruikt in de uitvoerspraak.
Computer- en spraaksynthesizerbehuizing 19 9663804888
Speech Synthesizer gebruikt door Stephen Hawking; Bron afbeelding: Science Museum Londen / Bibliotheek met afbeeldingen van wetenschap en samenlevingComputer- en spraaksynthesizerbehuizing, 19 (9663804888)CC BY-SA 2.0

Technologieën die betrokken zijn bij spraaksynthese

Natuurlijkheid en verstaanbaarheid zijn de belangrijkste kenmerken die de kwaliteit van een spraaksynthese-apparaat bepalen. Natuurlijkheid wordt bepaald door het vermogen van het apparaat om de menselijke stem zo goed mogelijk na te bootsen, en de verstaanbaarheid bepaalt hoe gemakkelijk het apparaat het uitgevoerde geluid kan verstaan. Spraaksynthesizers streven naar optimale resultaten in beide aspecten.

Aaneensluitende synthese en formantsynthese zijn de twee primaire technologieën die synthetische spraakgolfvormen genereren. Elke technologie heeft sterke en nadelen, en het algemene gebruik van een synthesemethode dicteert meestal de keuze voor een van deze benaderingen.

Aaneensluitende synthese

Het op een bepaalde manier rangschikken van fragmenten van opgenomen spraak wordt aaneenschakelingssynthese genoemd. Dit proces produceert doorgaans de meest natuurlijk klinkende gesynthetiseerde spraak. Inconsistenties tussen natuurlijke spraakvariaties en het ontwerp van de geautomatiseerde golfvormsegmentatiemethoden resulteren echter vaak in hoorbare outputstoringen.

Er bestaan ​​drie belangrijke subtypes van aaneenschakelingssynthese.

  1. Eenheidsselectie synthese- De input voor deze selectieve techniek is een uitgebreide database met opgenomen spraak. Segmentatie van de database wordt uitgevoerd met behulp van een spraakherkenner die is ingesteld op geforceerde uitlijningsmodus. Segmentatie resulteert in eenheden zoals telefoons, difonen, woorden, zinnen, lettergrepen, morfemen, zinnen, enz. De indexering van deze eenheden is gebaseerd op verschillende parameters zoals toonhoogte, duur, positie in lettergreep en de aangrenzende telefoons. Het beslissingsboomproces selecteert de meest geschikte eenheden om een ​​keten te vormen voor uitvoering. Hoe uitgebreider de database, des te natuurlijker is de output-spraak. Deze techniek biedt de meest buitengewone natuurlijkheid voor output-spraak op basis van de opgenomen gegevens.
  2. Difoonsynthese- De database voor deze techniek bestaat uit alleen diphones en is daardoor relatief klein. De fonotactiek van een geselecteerde taal bepaalt de verzameling van alle unieke difonen die in aanmerking moeten worden genomen. De spraakdatabase bestaat uit een enkele opname van elke diphone. Verschillende digitale signaalverwerkingstechnieken zoals PSOLA, MBROLA en lineaire voorspellende codering worden gebruikt om de doelzin op deze diphone-eenheden te plaatsen. Het gebruik van diphone-synthese is beperkt tot onderzoek omdat de spraak natuurlijkheid mist, erg robotachtig klinkt en sonische glitches bevat.
  3. Domeinspecifieke synthese De database voor deze techniek is beperkt tot vooraf opgenomen woorden en zinnen. De toepasbaarheid van deze synthesemethode is beperkt tot het domein waarop de database wordt gegenereerd, bijvoorbeeld stationsmededelingen, weerberichten, pratende klokken, enz. De implementatie van deze technologie is eenvoudig en tegelijkertijd een hoog niveau van natuurlijkheid kan worden bereikt door beperkte outputzinnen. Om een ​​soepele vermenging van woorden met natuurlijke spraak te bereiken, moet rekening worden gehouden met veel taalvariaties.

Formant-synthese

Voor veel toepassingen is de natuurlijkheid van spraak geen doel; betrouwbaarheid, intelligentie en hoge snelheidsnauwkeurigheid zijn eerder belangrijk. Dit kan worden bereikt met behulp van formantsynthese, die een gesynthetiseerde spraak creëert met behulp van additieve synthese en akoestische modellering. Deze methode, ook wel op regels gebaseerde synthese genoemd, creëert een kunstmatige spraakgolfvorm door parameters zoals frequentie, geluidsniveaus en intonatie te variëren.

Het is zeer onwaarschijnlijk dat de kunstmatige, robotachtig klinkende spraak die wordt gecreëerd door de formant-synthesetechnologie, wordt aangezien voor menselijke spraak. Akoestische storingen, die veel voorkomen in aaneenschakelingssystemen, worden bij deze techniek voornamelijk geëlimineerd. Door het ontbreken van een uitgebreide database met spraakopnames, zijn deze programma's relatief klein omdat ze worden gebruikt in embedded systemen waar de verwerkingskracht beperkt is.

Het is mogelijk om een ​​verscheidenheid aan stemtonen en emoties over te brengen, afgezien van standaardvragen en uitspraken, omdat op formaten gebaseerde systemen volledige controle hebben over alle aspecten van de output. Veel opmerkelijke videogames hebben bijvoorbeeld gebruik gemaakt van format synthese-technologie voor interactieve spraak.

Articulatoire synthese

De methode die wordt gebruikt om spraakklanken te genereren op basis van het menselijk spraakkanaalmodel, wordt articulatoire synthese genoemd. Het is bedoeld om de spraakarticulatoren op een of meer manieren te simuleren. Het biedt een manier om inzicht te krijgen in de ontwikkeling van spraak en om fonetiek te onderzoeken.

Coarticulatie is een natuurlijk voorkomend effect in een dergelijk model, en het zou mogelijk moeten zijn om in theorie correct om te gaan met de eigenschappen van de glottale bron, de relatie van het spraakkanaal met stemplooien, en hoe het subglottale systeem, het neuskanaal en de sinusholten beïnvloeden het genereren van mensachtige spraak via dit model.

Articulatoire synthese omvat typisch twee verschillende componenten: het spraakkanaal, dat is onderverdeeld in verschillende subcomponenten, en de corresponderende dwarsdoorsnedegebieden die parametrisch worden gebruikt voor de reflectie van de kenmerken van de stembanden. In het akoestische model benadert een elektrische analoge transmissielijn elk veld in dwarsdoorsnede.

Simulatie van het spraakkanaal is onderhevig aan de veranderingen die optreden in de gebiedsfuncties met betrekking tot tijd. De doelconfiguratie die aan elk geluid is toegewezen, bepaalt het tempo van de beweging van het spraakkanaal. Indien correct geconstrueerd, kan de articulatoire synthesizer elk relevant effect reproduceren bij het ontwikkelen van fricatieven en plosieven en het modelleren van co-articulatieovergangen om de processen te repliceren die betrokken zijn bij echte spraakproductie.

Halverwege de jaren zeventig creëerden Philip Rubin, Tom Baer en Paul Mermelstein bij Haskins Laboratories de eerste articulatoire synthesizer die gewoonlijk wordt gebruikt voor laboratoriumexperimenten.

HMM-gebaseerde synthese

Dit is een statistische parametrische synthese door de "verborgen Markov-modellen" te volgen. HMM's modelleer gelijktijdig het frequentiespectrum, de grondfrequentie en de spreektijd in deze methode. Spraakgolfvormen die zijn gemaakt op basis van het criterium van de maximale waarschijnlijkheid, worden gemaakt op basis van HMM's zelf.

Een verborgen Markov-model (HMM) in Computational Biology is een wiskundige techniek die meestal wordt gebruikt voor het modelleren van biologische sequenties. Een sequentie wordt gemodelleerd als een uitvoer van een discrete stochastische methode bij de implementatie, die door een reeks sequentiële toestanden gaat die 'verborgen' zijn voor de waarnemer.

Sinewave-synthese

Sinewave-synthese, of sinewave-stem, is een methode voor het synthetiseren van spraak door de formanten (prominente energiebanden) te vervangen door zuivere toons. Philip Rubin creëerde de eerste sinewave synthese software (SWS) voor de geautomatiseerde productie van stimuli voor perceptuele experimenten in Haskins Laboratories in de jaren zeventig.

Sinewave Speech is een eigenaardig fenomeen waarbij sommige spraakeigenschappen worden overgenomen door een klein aantal sinusoïden bij elkaar - waar ze in de meeste opzichten helemaal niet op lijken. Een hoge verstaanbaarheid kan worden bereikt met behulp van drie sinusoïden die de frequentie en amplitude van de eerste drie spraakformanten volgen.

Op diep leren gebaseerde synthese

In tegenstelling tot de op HMM gebaseerde benadering, brengt de op Deep Learning gebaseerde methode taalkenmerken expliciet in kaart met akoestische kenmerken met diepe neurale netwerken waarvan is bewezen dat ze buitengewoon succesvol zijn bij het leren van inherente gegevenskenmerken. Mensen hebben verschillende modellen voorgesteld in de lange traditie van studies die op Deep Learning gebaseerde methoden voor spraaksynthese volgen.

Een handig hulpmiddel voor spraaksynthese is geworden diepgaand leren in staat om enorme hoeveelheden trainingsgegevens te exploiteren. De laatste tijd is er steeds meer onderzoek gedaan naar technieken voor diep leren of zelfs end-to-end-systemen en is er state-of-the-art succes geboekt.

AIMLDL 1
Afbeeldingsbron: origineel bestand: Avimanyu786 SVG-versie: Tukijaaliwa, AI-ML-DL, CC BY-SA 4.0

September 2016 markeerde het begin van WaveNet by DeepMind, een diep generatief model van onbewerkte audiogolfvormen. Het maakte duidelijk dat op deep learning gebaseerde modellen onbewerkte golfvormen kunnen modelleren en goed presteren op basis van akoestische kenmerken zoals spectrogrammen of specifieke voorbewerkte taalkenmerken om expressie te genereren.

Voordelen van end-to-end-systemen

  • Beperkte mogelijkheid voor tekstanalyse met één systeem.
  • Beperkte hoeveelheid feature-engineering.
  • Rijke conditionering van bestaande attributen en gemakkelijke aanpassing aan nieuwere.
  • Verhoogde natuurlijkheid en verstaanbaarheid
  • Robuuster in vergelijking met meertrapsmodellen.

Nadelen van end-to-end-systemen

  • Het bestaan ​​van een langzame inferentieprobleem.
  • Kleinere gegevens resulteren in minder robuuste uitvoerspraak.
  • Beperkt controlerend vermogen dan aaneengeschakelde benadering.
  • Vlakke prosodie is ontwikkeld met middeling over trainingsgegevens.

Uitdagingen bij spraaksynthese

  1. Accommodatie van verschillend uitgesproken woorden met dezelfde spelling, op basis van de context.
  2. Inferentie van hoe u een nee kunt uitbreiden. gebaseerd op omringend woord, nummer en interpunctie. 1465 kan bijvoorbeeld 'duizend vierhonderd vijfenzestig' zijn of kan ook worden gelezen als 'een vier zes vijf', 'veertien vijfenzestig' of 'veertienhonderd vijfenzestig'.
  3. Dubbelzinnigheid in afkortingen. Zo moet 'in' voor 'inches' worden onderscheiden van het woord 'in'.
  4. De woordenboekgebaseerde benadering (elk woord in het woordenboek opzoeken en de spelling vervangen door de uitspraak die in het woordenboek wordt beschreven om de juiste uitspraak van elk woord te kiezen) van het tekst-naar-foneem-proces faalt volledig voor elk woord dat in het woordenboek kan worden gevonden. het woordenboek.
  5. Regelgebaseerde benadering (om hun uitspraken te evalueren op basis van hun spelling, worden uitspraakregels toegepast op woorden, of de benadering van 'leren lezen') van het tekst-naar-foneem-proces mislukt omdat het schema rekening houdt met ongebruikelijke spellingen of uitspraken omdat de verfijning van de regels aanzienlijk toeneemt.
  6. Moeilijkheden bij de betrouwbare evaluatie van spraaksynthesesystemen vanwege een gebrek aan algemeen aanvaarde objectieve prestatienormen.
  7. Verschuiving van de toonhoogte van de zin, afhankelijk van of het een bevestigende, vragende of uitroepteken is.

Voor vorig artikel over Mecanum Wheeled Robot, Klik hier.

Lees ook: