Qu'est-ce que la synthèse vocale : 3 facteurs importants qui y sont liés

Robot de synthèse vocale

Synthèse de discours

La méthode de génération artificielle de la parole humaine à l'aide de machines s'appelle la synthèse vocale. Un système informatique qui est mis en service pour effectuer cette procédure est appelé un synthétiseur vocal. Le système nécessite une implémentation supplémentaire dans le logiciel ou le matériel, et nous pouvons remarquer une application de celui-ci dans un système de synthèse vocale (TTS). Un système de synthèse vocale accepte le langage humain de tous les jours sous forme de texte comme entrée et le convertit en discours comme sortie.

La synthèse vocale est effectuée en séquençant la parole enregistrée sous la forme d'unités qui sont stockées dans une base de données. Les systèmes varient dans la taille des unités vocales stockées; la plage de sortie la plus étendue est fournie par un système qui stocke des téléphones ou des diphones avec la possibilité d'une perte de clarté.

Le stockage de mots ou de phrases entiers permet une production de haute qualité pour des domaines d'utilisateurs particuliers. Cette méthode peut être remplacée en incorporant un modèle d'appareil vocal et diverses autres caractéristiques appartenant à la voix humaine et en générant une sortie vocale artificielle.

Synthèse de discours
Vue d'ensemble du système TTS

La qualité de sortie d’un synthétiseur vocal dépend de sa proximité avec la vraie voix humaine et de sa facilité à être comprise. L'utilisation de l'appareil de synthèse vocale est évidente depuis les années 1990 et a été soigneusement développé pour aider les personnes souffrant de handicaps et de déficiences spécifiques.

Présentation du système de synthèse vocale

Un discours de synthèse vocale comporte deux parties importantes:

  • L'extrémité avant- Il est chargé de convertir le texte d'entrée qui contient divers symboles, nombres et abréviations en une forme équivalente de données compréhensibles et convertibles. Ce processus est appelé normalisation de texte ou prétraitement des données. Chaque mot est ensuite attribué avec des transcriptions phonétiques et sépare et marque le texte en unités prosodiques, telles que des phrases, des clauses et des phrases, par le biais d'un processus appelé texte en phonème ou graphème en phonème. Les deux aspects sont ensuite combinés pour générer les données de sortie contenant la représentation linguistique symbolique.
  • Fin arrière- Généralement appelée «synthétiseur», cette partie est responsable de la représentation linguistique symbolique en son. Dans un système avancé, ce processus est en outre suivi par le calcul de la prosodie cible (contour de hauteur, temps de phonème), qui sera utilisée dans la parole de sortie.
Boîtier ordinateur et synthétiseur vocal 19 9663804888
Synthétiseur vocal utilisé par Stephen Hawking; Source de l'image: Musée des sciences de Londres / Photothèque Science et SociétéBoîtier pour ordinateur et synthétiseur vocal, 19 (9663804888)CC BY-SA 2.0

Technologies impliquées dans la synthèse vocale

Le naturel et l'intelligibilité sont les attributs les plus significatifs qui déterminent la qualité d'un appareil de synthèse vocale. Le naturel est défini par la capacité de l'appareil à reproduire la voix humaine aussi fidèlement que possible, et l'intelligibilité détermine la facilité avec laquelle l'appareil peut comprendre le son de sortie. Les synthétiseurs vocaux s'efforcent de produire des résultats optimaux dans ces deux aspects.

La synthèse concaténative et la synthèse de formants sont les deux principales technologies qui génèrent des formes d'onde de parole synthétiques. Chaque technologie présente des avantages et des inconvénients, et les utilisations courantes d'une méthode de synthèse dictent généralement le choix de l'une de ces approches.

Synthèse concaténative

Le séquençage de fragments de parole enregistrée d'une certaine manière est appelé synthèse concaténative. Ce processus produit généralement la parole synthétisée la plus naturelle. Cependant, les incohérences entre les variations naturelles de la parole et la conception des méthodes de segmentation de forme d'onde automatisées entraînent souvent des problèmes de sortie audibles.

Il existe trois sous-types importants de synthèse concaténative.

  1. Synthèse de la sélection des unités- L'entrée de cette technique de sélection est une vaste base de données de discours enregistrés. La segmentation de la base de données est effectuée à l'aide d'un dispositif de reconnaissance vocale réglé en mode d'alignement forcé. La segmentation se traduit par des unités telles que les téléphones, les diphones, les mots, les phrases, les syllabes, les morphèmes, les phrases, etc. L'indexation de ces unités est basée sur divers paramètres tels que la hauteur, la durée, la position dans la syllabe et les téléphones voisins. Le processus d'arbre de décision sélectionne les unités les plus appropriées pour former une chaîne d'exécution. Plus la base de données est étendue, plus le discours de sortie est naturel. Cette technique offre le naturel le plus extraordinaire pour la sortie vocale basée sur les données enregistrées.
  2. Synthèse diphone- La base de données de cette technique ne contient que des diphones, ce qui la rend relativement petite. La phonotaxie d'une langue sélectionnée détermine l'ensemble de tous les diphones uniques à considérer. La base de données vocale se compose d'un seul enregistrement de chaque diphone. Diverses techniques de traitement numérique du signal comme PSOLA, MBROLA, le codage prédictif linéaire sont utilisées pour superposer la phrase cible sur ces unités diphones. L'utilisation de la synthèse de diphones est limitée à la recherche car la parole manque de naturel, sonne très robotique et contient des problèmes sonores.
  3. Synthèse spécifique au domaine La base de données de cette technique se limite aux mots et expressions préenregistrés. L'applicabilité de cette méthode de synthèse est limitée au domaine sur lequel la base de données est générée, par exemple, les annonces de gare, les bulletins météorologiques, les horloges parlantes, etc. La mise en œuvre de cette technologie est simple et en même temps, un niveau élevé de le naturel peut être atteint en raison de phrases de sortie limitées. Pour obtenir un mélange harmonieux de mots avec une parole naturelle, de nombreuses variations linguistiques doivent être prises en compte.

Synthèse formante

Pour de nombreuses applications, le naturel de la parole n'est pas un objectif; au contraire, la fiabilité, l'intelligence et la précision à grande vitesse sont plus importantes. Ceci peut être réalisé en utilisant la synthèse de formants, qui crée une parole synthétisée utilisant la synthèse additive et la modélisation acoustique. Cette méthode, également appelée synthèse basée sur des règles, crée une forme d'onde de parole artificielle en faisant varier des paramètres tels que la fréquence, les niveaux de bruit et la voix.

Il est très peu probable que la parole artificielle et robotisée créée par la technologie de synthèse des formants soit confondue avec la parole humaine. Les problèmes acoustiques, qui sont courants dans les systèmes concaténatifs, sont principalement éliminés dans cette technique. En raison de l'absence d'une vaste base de données d'enregistrements vocaux, ces programmes sont relativement petits car ils trouvent une utilisation dans des systèmes embarqués où la puissance de traitement est limitée.

Il est possible de transmettre une variété de tonalités vocales et d'émotions en dehors des questions et déclarations standard, car les systèmes basés sur le format offrent un contrôle complet sur tous les aspects de la sortie. Par exemple, de nombreux jeux vidéo notables ont utilisé la technologie de synthèse de format pour la parole interactive.

Synthèse articulatoire

La méthode utilisée pour générer des sons de parole basés sur le modèle de l'appareil vocal humain est appelée synthèse articulatoire. Il vise à simuler les articulateurs vocaux d'une ou plusieurs manières. Il offre un moyen d'acquérir une compréhension du développement de la parole et de faire des recherches en phonétique.

La coarticulation est un effet naturel dans un tel modèle, et il devrait être possible de traiter correctement en théorie les propriétés de la source glottale, la relation du tractus vocal avec les cordes vocales, et comment le système sous-glottal, le tractus nasal et les cavités sinusales influencent la génération de discours de type humain grâce à ce modèle.

La synthèse articulatoire comprend généralement deux composants distincts: le tractus vocal, qui est divisé en plusieurs sous-composants, et les régions transversales correspondantes utilisées de manière paramétrique pour la réflexion des caractéristiques des cordes vocales. Dans le modèle acoustique, une ligne de transmission électrique analogique se rapproche de chaque champ de section transversale.

La simulation du tractus vocal est sujette aux changements apparaissant dans les fonctions de zone concernant le temps. La configuration cible attribuée à chaque son détermine le rythme du mouvement des voies vocales. S'il est correctement construit, le synthétiseur articulatoire peut reproduire tous les effets pertinents dans le développement de fricatives et plosives et la modélisation des transitions de coarticulation pour reproduire les processus impliqués dans la production de la parole réelle.

Au milieu des années 1970, aux laboratoires Haskins, Philip Rubin, Tom Baer et Paul Mermelstein ont créé le premier synthétiseur articulatoire couramment utilisé pour les expériences en laboratoire.

Synthèse basée sur HMM

Il s'agit d'une synthèse statistique paramétrique en suivant les «modèles de Markov cachés». HMM modélisez simultanément le spectre de fréquences, la fréquence fondamentale et la longueur de la parole dans cette méthode. Les formes d'onde de parole créées sur le critère de vraisemblance maximale sont créées à partir des HMM eux-mêmes.

Un modèle de Markov caché (HMM) en biologie computationnelle est une technique mathématique principalement utilisée pour la modélisation de séquences biologiques. Une séquence est modélisée comme une sortie d'une méthode stochastique discrète dans son implémentation, qui avance à travers un ensemble d'états séquentiels qui sont «cachés» à l'observateur.

Synthèse sinusoïdale

La synthèse sinusoïdale, ou voix sinusoïdale, est une méthode de synthèse de la parole en substituant des sifflets à tonalité pure aux formants (bandes d'énergie proéminentes). Philip Rubin a créé le premier logiciel de synthèse d'onde sinusoïdale (SWS) pour la production automatisée de stimuli pour des expériences perceptuelles aux laboratoires Haskins dans les années 1970.

La parole sinusoïdale est un phénomène particulier où certaines des caractéristiques de la parole sont assumées par un petit nombre de sinusoïdes réunis - auxquels elles ne ressemblent pas du tout à bien des égards. Une intelligibilité élevée peut être obtenue en utilisant trois sinusoïdes qui suivent la fréquence et l'amplitude des trois premiers formants de la parole.

Synthèse basée sur l'apprentissage profond

Contrairement à l'approche basée sur HMM, la méthode basée sur l'apprentissage profond mappe explicitement les caractéristiques linguistiques aux caractéristiques acoustiques avec des réseaux de neurones profonds qui se sont avérés extrêmement efficaces dans l'apprentissage des caractéristiques inhérentes aux données. Les gens ont suggéré divers modèles dans la longue tradition d'études qui suivent des méthodes basées sur le Deep Learning pour la synthèse vocale.

Un outil utile pour la synthèse vocale est devenu l'apprentissage en profondeur capable d'exploiter de grandes quantités de données d'entraînement. Récemment, de plus en plus de recherches sur les techniques d'apprentissage en profondeur ou même sur les systèmes de bout en bout ont été effectuées, et un succès de pointe a été obtenu.

IA ML DL1
Source de l'image: fichier d'origine: Avimanyu786 Version SVG: Tukijaaliwa, AI-ML-DL, CC BY-SA 4.0

Septembre 2016 a marqué le début de WaveNet par DeepMind, un modèle génératif profond de formes d'onde audio brutes. Il a montré que les modèles basés sur l'apprentissage en profondeur peuvent modéliser des formes d'onde brutes et fonctionner correctement à partir de caractéristiques acoustiques telles que les spectrogrammes ou des caractéristiques linguistiques pré-traitées spécifiques pour générer une expression.

Avantages des systèmes de bout en bout

  • Capacité limitée d'analyse de texte à l'aide d'un seul système.
  • Quantité limitée d'ingénierie des fonctionnalités.
  • Conditionnement riche des attributs existants et adaptation facile vers les plus récents.
  • Augmentation du naturel et de l'intelligélabilité
  • Plus robuste que les modèles à plusieurs étages.

Inconvénients des systèmes de bout en bout

  • Existence d'un problème d'inférence lente.
  • Des données moindres se traduisent par une parole de sortie moins robuste.
  • Capacité de contrôle limitée par rapport à l'approche concaténative.
  • La prosodie plate est développée avec la moyenne des données d'entraînement.

Défis impliqués dans la synthèse vocale

  1. Hébergement de mots prononcés différemment ayant la même orthographe, en fonction du contexte.
  2. Inférence sur la façon d'élargir un non. basé sur le mot, le nombre et la ponctuation environnants. Par exemple, 1465 peut être «mille quatre cent soixante cinq» ou peut aussi être lu comme «un quatre six cinq», «quatorze soixante cinq» ou «quatorze cent soixante-cinq».
  3. Ambiguïté dans les abréviations. Par exemple, «in» pour «pouces» doit être différencié du mot «in».
  4. L'approche basée sur le dictionnaire (rechercher chaque mot dans le dictionnaire et remplacer l'orthographe par la prononciation détaillée dans le dictionnaire pour choisir la bonne prononciation de chaque mot) du processus de texte en phonème échoue complètement pour tout mot qui peut être trouvé dans le dictionnaire.
  5. Approche basée sur des règles (pour évaluer leurs prononciations en fonction de leur orthographe, des règles de prononciation sont appliquées aux mots, ou l'approche consistant à `` apprendre à lire '') du processus de texte en phonème échoue car le schéma prend en compte des orthographes ou prononciations inhabituelles car la sophistication des règles augmente considérablement.
  6. Difficulté à évaluer de manière fiable les systèmes de synthèse vocale en raison d'un manque de normes de performance objectives généralement acceptées.
  7. Décalage du contour de hauteur de la phrase, selon qu'il s'agit d'une expression affirmative, interrogative ou exclamative.

Pour l'article précédent sur le robot à roues Mecanum, Cliquez ici.

Lisez aussi: