Affaire Ummo : enregistrement audio

Affaire Ummo

Enregistrement audio: analyses & réflexions

 

A. Préambule

Il n'entre pas dans les objectifs du RECO, pour le moment, d'enquêter de manière assidue sur le dossier Ummo. En effet, bien qu'intégré dans la problématique OVNI, il nous parait difficile d'effectuer un travail exhaustif sur le sujet. Cependant, chaque fois que nous aurons l'occasion de travailler sur des données "tangibles", et entrant dans le cercle de nos humbles compétences, nous vous proposerons les résultats de nos interventions ponctuelles dans ce dossier.

Pour le lecteur qui ne connait rien de cette affaire "Ummo", je ne peux que lui conseiller de consulter la page "Ummo" du site RR0 qui relate les faits sans "coloration". De là, le lecteur intrigué pourra utiliser un moteur de recherche et y entrer le mot "ummo". Il y a quantité de liens sur le sujet et je ne tiens pas à en privilégier certains en particulier. RR0 ne traite pas le dossier Ummo en particulier et se borne à présenter le cas sans état d'âme.

 

B. Introduction

Le 20 février, j'ai eu le plaisir de rencontrer Monsieur Jean Pollion, exégète du langage ummite et auteur d'un livre sur le sujet : "Ummo, de vrais extraterrestres". Il s'agissait davantage d'une visite amicale que d'une rencontre pour une interview, ce qui, je l'espère, se fera un jour prochain. En bref, nous avons fait connaissance et l'ambiance était cordiale et conviviale.

Evidemment, nous avons un peu discuté de l'affaire Ummo et nous en sommes venus à parler de ce fameux coup de téléphone qui eût lieu en 1969, en Espagne. Je connaissais cet extrait mais M. Pollion me dit qu'un extrait de 30 sec. était disponible sur le site Ummo-Sciences. Sur le chemin du retour, je me dis que c'était peut-être l'occasion de revenir sur cet enregistrement...

 

C. Au sujet des vocoders

En 1996, j'avais reçu un extrait de cet appel téléphonique qui avait été enregistré par l'un des intervenants-témoins-récipiendaires, Monsieur Farriols. Il s'agissait d'une cassette audio diffusée sur TF1 lors de l'émission "J'y crois, j'y crois pas", animée par la très charmante Tina Kieffer. Cela doit dater de fin 94. A l'époque, je travaillais encore en studio d'enregistrement et en utilisant des filtres (éq.) et des "noise gate", j'étais parvenu à éliminer une certaine quantité de bruit. Le son de la voix sur l'extrait de 11 secondes ne me paraissait pas si extraordinaire que ça. Un vocoder aurait pu faire ça, même dans les années 60, même avant. Cependant il avait été dit dans l'émission de Madame Kieffer que la technologie "vocoder" n'était pas disponible à l'époque.

On connait le vocoder depuis quelques années déjà. Le vocoder a été inventé par l'américain Homer Dudley, employé de Bell Laboratories, dans le milieu des années 30. Mais l'idée principale émergea en 1928. Techniquement, mais simplement, le vocoder fusionne une voix humaine avec une autre source sonore mais électronique celle-là. Cette "fusion" donne lieu à une transformation général du signal. Chaque "source" peut être contrôlée et manipulée en volume, en fréquence, en forme d'onde, etc.

Exemple : Je prends un extrait de la voix commentant l'ouverture de notre Canal Audio (voir page "audio" du site) qui dit "Bienvenue sur le Canal Audio du RECO". Je l'insère dans un vocoder et lui attribue un son d'un synthétiseur quelconque qui joue la note RE. Une seule note. Cela donne ceci: une voix robotoïde. Un musicien pourrait même, aujourd'hui, "faire chanter" cette voix en lui administrant un accord ou une mélodie. Une source polyphonique (plusieurs notes ou sons joués en même temps). Cet effet technique est utilisé en masse dans les productions musicales et ce depuis les années 70. Les sons du milieu des années 30 n'étaient sans doute pas comparables à ceux d'aujourd'hui. Les lampes ont cédé la place aux transistors et autres processeurs.

Par la suite, Dudley continua sur sa lancée et inventa le "Voder" (Voice Operating Demonstrator) qui, lui, générait une voix à partir de l'électronique. Cet appareil fut dévoilé lors de la Foire Internationale de New-York en 1939-1940. La première voix artificielle était née. Aujourd'hui, les utilisateurs d'ordinateurs multimédia connaissent des logiciels comme CoolSpeech ou autres qui peuvent parler. Cela donne ceci : voix ordinateur. Mais le Voder de Dudley, lui, donnait ceci : enregistrement de la machine originale (merci à Bell Labs)

En 1964-65, une musicienne et compositrice américaine du nom de Wendy Carlos, essaya cet "instrument" dans le pavillon de Bell Laboratories, lors de la Foire du Monde de New-York, et fût fascinée par les possibilités et les horizons qui s'ouvrirent à elle. Et c'est grâce à elle que, sept ans plus tard, nous avons tous pu être sous le charme de la musique du film "Orange Mécanique" et entendre ce que Wendy appellait le synthétiseur qui chante dans la plage intitulée "Timesteps". Cette musique avait été composée bien avant mais lorsque Stanley Kubrik l'entendit, il contacta Wendy pour l'inviter à Londres et discuter des modalités d'insertion de sa musique dans le film désormais culte qu'est Clockwork Orange. Par la suite, dans les années 70, le groupe allemand Kraftwerk lançait véritablement la musique électronique dans le grand public, à grands renforts de synthétiseurs, de vocoders et d'instruments bizarroïdes fabriqués maison.

 

D. De la possibilité de "bidouiller" une voix

En dehors des techniques coûteuses, il existe des moyens bien simples pour altérer une voix. C'est bien connu, "quand on n'a pas le sous, il faut des idées". Cette phrase est l'adage de bien de petits groupes de musiciens pop, rock, etc. Quels étaient les moyens qui auraient pu être utilisés pour donner cette voix "nasillarde" que l'on peut entendre sur l'enregistrement de Farriols en 1969? J'en ai testé un :

La méthode de l'harmoniciste blues : prenez un ampli de guitare avec overdrive (distorsion), connectez y un microphone et pincez-vous le nez. Parlez dans le micro en changeant le timbre de votre voix. Cela donne un effet similaire à la voix de l'enregistrement mais avec davantage de bruits et de risques d'effets Larsen que l'on ne distingue pas dans l'enregistrement.. On peut remplacer la distorsion par un effet supplémentaire, connu sous l'appellation de pédale "wah-wah", si chère au guitariste Jimmy Hendrix. Si on ne bouge pas le pied sur la pédale, on ne modulera pas le son mais le spectre sera modifié. Cela coïncide à l'oreille mais ce n'est pas exactement ça. Par exemple, j'ai essayé de reproduire la phrase "suplicamos perdon" que l'on peut trouver dans l'extrait audio. Je me suis pincé le nez et ai couvert ma bouche d'un tissu. J'ai tenté d'imiter la voix originale. Le micro employé est un Neumann M-269 du début des années 70. Il s'agit d'un micro professionnel dont j'ai dû réduire la qualité pour approcher la texture "téléphonique" originale. J'ai ajouté un filtre de distorsion qui simule une distorsion à tube comme on en trouve beaucoup à l'époque. Afin de coller au plus à la réalité, j'ai échantillonné le bruit de fond original et l'ai mixé à ma tentative de fraude (sourire). Cela donne ceci : écouter le fichier fabriqué. Vous pouvez ensuite comparez avec le fichier original. Vous pouvez visualiser cette différence à l'aide du graphique ci-dessous. Il s'agit d'une vue comparative de la forme d'onde. N'oublions pas que le fichier original est le résultat d'un enregistrement par microphone d'une voix téléphonique. Il y a donc deux intermédiaires analogiques alors que dans le cas de la "fabrication maison", il n'y en a qu'un. Ecouter le vrai et le faux enchaînés.

La partie en bleu est le fichier que j'ai fabriqué. La partie en rouge est l'original. Que peut-on remarquer? Les événements de gauche sont plus larges que ceux de droite. Cela signifie que je traîne plus sur les voyelles que la voix originale. Le bruit de fond est plus présent à gauche qu'à droite car le mixage "bruit - voix" n'a pas tenu compte des proportions. Simple question de volume de mixage. En dehors de cela, il n'y a pas grand chose de différent...

A part peut-être l'emploi d'un Voder ou d'un Vocoder, aucune des solutions testées n'est pleinement satisfaisante (même si fort encourageantes comme montré ci-dessus) car je n'ai pas le matériel de l'époque à disposition. On peut simplement envisager cela possible car faisable techniquement. Il est temps de "labourer" cet extrait audio afin de voir si des éléments intéressants peuvent s'y cacher.

 

E. Analyse descriptive de l'enregistrement présenté par le site Ummo-Sciences

 

Etape 1 : conversion de format

Conversion d'un fichier mp3 stéréo compressé à 128 kbps vers un fichier "wav" 16 bits, stéréo, vitesse d'échantillonnage : 44.1 khz Après simple écoute on peut distinguer 3 voix différentes et une certaine quantité d'événements audio. Il apparaît clairement que le fichier original a été amélioré par un traitement plus ou moins récent, corrigeant principalement les fréquences. Utilisation d'un "loudness"? L'opération de conversion est indispensable pour manipuler le fichier. Toutefois, son incidence sera de faible importance dans les éléments que nous allons examiner. Les artefacts provoqués par cette opération sont excessivement rares et seraient de suite identifiables comme tels. mais la conversion a été effectuée sans problèmes (il suffit d'écouter ou de regarder la spectro). Il aurait été préférable d'avoir le support original et de le digitaliser soi-même mais, là encore, cela n'aurait eu que peu d'incidence sur les éléments envisagés.

Le canal gauche est représenté par la ligne du dessus et le droit se trouve en dessous. On remarque que les deux tracés sont identiques et qu'il s'agit donc d'une source audio convertie en stéréo. La compression mp3 peut faire varier très légèrement la stéréo.

 

Etape 2 : application d'un filtre

A l'aide d'un égaliseur graphique à 30 bandes, je vais enlever une partie des fréquences afin de réduire les améliorations qui ont vraisemblablement été apportées au fichier original. Trop de basses et moyennes-basses fréquences. J'ai donc éliminé toutes les fréquences liées au souffle et autres bruit de fond indésirable. Le but est de rendre audible les éléments pouvant avoir une signature accoustique que l'on retrouve dans le réel (voix, mécanisme, machinerie, bruits environnementaux courants). N'oublions pas qu'il s'agit d'un appel téléphonique ayant eu lieu en 1969. J'avais quatre ans. Le son était principalement axé sur les fréquences médium.

On peut voir, sur l'affichage spectrographique ci dessous, que le bruit (représenté en une espèce de brouillard bleu et mauve) a été sensiblement atténué par rapport à l'étape 1 et que le signal (voix et bruits provoqués) est mis en évidence. L'enregistrement est désormais prêt à être écouté et examiné. Sur le site "Ummo-Sciences", il y a une transcription qui donne ceci : "No formulen preguntas... preguntas... preguntas... preguntas... sus hermanos reunidos en su domicilio a mis hermanos. Suplicamos perdón. Suplicamos perdón. Señor, desconecto comunicación. Señor, desconecto". Les premiers mots sont faibles et le signal s'améliore à mesure que l'on fixe ou on approche un micro sur un autre combiné téléphonique (cornet d'écoute supplémentaire?). On peut entendre les entrechocs. Lorsque la voix non identifiée commence "sus hermanos", une autre voix prononce "reunidos" avec un ton interrogatif. Cette voix est de timbre et d'amplitude différente. Elle est plus claire et plus forte. Je me suis donc penché sur cet extrait.

 

Etape 3 : Séléction du segment A

Ici, j'ai donc sélectionné le segment audio "reunidos en su domicilio a mis hermanos" et je l'ai sauvegardé en tant que fichier individuel afin de l'écouter plus particulièrement et de le traiter.

Dans la vue spectrale ci-dessous, il est maintenant possible de voir à quelle syllabe, à quel son correspond tel "peak". Un petit mot d'explication concernant les graphiques utilisés : l'axe vertical représente l'échelle des fréquences et l'axe horizontal représente la ligne du temps. En ce qui concerne les couleurs, elles indiquent l'amplitude de la fréquence au moment donné. Les teintes rouges et oranges indiquent une amplitude moyenne. Les teintes jaunes et blanches indiquent une amplitude importante. Tandis que le mauve et le bleu annoncent une faible amplitude.

On remarque bien deux voix disctinctes : le "reunidos" empiète sur le "en su..." que l'on entend plus faiblement. Le "reunidos" est plus clair. Les deux phrasés se superposent. A près le "su", une fraction de seconde plus tard, on peut entendre un "click" puis un blanc. Le souffle et le bruit ont diminué en volume et ceci de plus de 50%. Il y a même clairement une coupure (100% silence) de quelques millisecondes. Elle apparait sur la vue spectographique ci-dessous, sous le mot "-click-" écrit en rouge. Ce qui est écrit en blanc correspond à une voix. Ce qui est écrit en jaune pâle correspond à une autre "voix". On peut aussi voir un deuxième chevauchement, plus tard, lorsque la voix faible commence la phrase " ...a mis hermanos...". On entend clairement une espèce d'interjection, d'honomatopée ou d'un commencement de formulation auto-interrompu qui empiète sur le "a". Elle est notée "è..." en blanc.

 

Etape 4 : diminution de la vitesse du segment A

Afin d'entendre et d'isoler plus particulièrement les différents éléments de ce segment, j'ai ralenti la vitesse de 30 %. Ou plutôt, j'ai étiré l'extrait de 30 %. Ceci a pour effet de changer le "pitch" et le "tempo". La voix est plus grave et plus lente de 30%. Imaginez un tissu élastique sur lequel vous tirez. Il sera plus long mais moins large.

Cette opération confirme les points soulevés dans l'étape précédante et met en relief l'événement "-click-" - "blanc". Ensuite, apparaît un bruit de fond inhabituel et occupant des fréquences et des amplitudes différentes de celles du souffle de l'enregistrement lui-même.

 

Etape 5 : selection du segment A'

Ce click est intéressant car il s'en suit une "coupure" de son de lors de quelques millisecondes, d'une altération du fond et de l'apparition d'un bruit "mécanique", visible sur le nouveau segment qui est délimité par la fin de "su" et le "do.." de "domicilio". Passons en mode "scientifique" de la vue spectrale.

Une fois ce nouveau segment sélectionné, je le sauvegarde en tant que fichier individuel comme je l'ai fait dans l'étape 3 et pour des raisons identiques d'écoute et d'examen. Et comme pour l'étape 3, cela nous permet de mieux visualiser ce qui se passe. On remarque plus clairement encore la coupure, puis le click, puis l'apparition d'un bruit nouveau, que j'ai nommé ici "mechanical noise". Il perdure après. Avant le click, on peut voir qu'il ne se passe pas grand chose au dessus de 2500 hz (couche vert-jaune et couche rouge). Après celui-ci, on voit qu'un bruit supplémentaire intervient, il est de moyenne à faible intensité et se distingue du bruit "ambiant" ou du souffle de couleur mauve. Il sera ensuite couvert par la voix qui reprend le "...do(m).." de "domicilio".

Penchons nous davantage sur ce nouvel élément et passons à l'étape suivante.

 

Etape 6 : isolement du bruit

A présent, je vais isoler le bruit contenu dans le segment A' en procédant comme dans les étapes 3 et 5.

Le bruit mécanique est d'autant plus visible et audible maintenant, même si la vitesse me semble trop élevée pour tenter d'identifier, éventuellement, l'origine de ce bruit que je baptise le "mecanoise". Voir graphique ci-dessous. L'extrait sonore commence maintenant un peu avant le "click" et se termine avant que la voix non-identifiée prononce "domicilio". Cliquez ici pour entendre le bruit. Je rappelle qu'il est toujours 30% plus lent et plus grave qu'il ne l'est dans le fichier original.

Une action "mécanique" est audible et l'est plus encore lorsque l'on diminue encore la vitesse de 70%. Cliquez ici pour entendre le "mecanoise" ainsi ralenti. La taille de l'objet qui produirait pareil son serait assez impressionnante mais, à la vitesse originale, il ne peut s'agir que d'un objet ou d'un système de petite taille. Cliquez ici pour entendre ce bruit à vitesse réelle (attention, ça va vite). Dans la version ralentie, on peut même identifier que le bruit du click initie un second "mecanoise" un peu plus haut en fréquence. Il s'agit là d'un bruit de structure en mouvement. Mouvement qui, dans la réalité, doit être hyper-rapide.

Dans le contexte général, ce bruit se place à un niveau différent des autres. Il occupe une autre place dans le panorama audio. Il n'est ni au même plan que la voix "non identifiée", ni au même plan que la voix, bien humaine celle-là, disant "reunidos". Il a malgré tout tendance à s'intégrer au fond sonore de la voix non identifiée mieux qu'avec celui de la voix humaine.

 

F. Constatations

Cette petite analyse n'a pas la prétention de se substituer à une analyse accoustique professionnelle mais elle met en évidence des éléments simples qui pourraient présenter un certain intérêt pour la compréhension générale de l'événement, ici le coup de téléphone. Ceci dit, nous pouvons maintenant faire la synthèses des deux ou trois petites choses que nous avons apprises.

Identification des voix : il est à mon sens indiscutable que l'on entend trois voix principales et une secondaire qui se noie dans le fond sonore. Cette dernière a certainement une radio ou une télévision pour source. La possibilité d'un "fantôme" (phénomène se produisant parfois en réengistrant sur une bande - il reste des éléments de l'enregistrement précédant) est également envisageable. Il est surtout présent dans les premières secondes. La première voix, celle que je nomme "non-identifiée", commence l'extrait sonore. La seconde voix apparaît deux fois dans l'extrait. Elle prononce le mot "reunidos" alors que la voix "non identifiée" se fait clairement entendre à un niveau plus faible. Ensuite elle intervient à nouveau en empiétant sur le début de "a mis hermanos". Cette voix pourrait appartenir à une jeune dame. La troisième voix (égalisée idem étape2, et amplifiée de 10 db) est localisée à 35.8 seconde. Il s'agit d'une voix mâle au débit très rapide et interrompue par la fin de l'extrait. Malgré quelques manipulations, ce passage reste inintelligible mais la scansion et la prononciation ne semblent pas être espagnoles. On note donc au moins 2 personnes dans la pièce et une source au téléphone.

Identification des bruits "objets" : en début de lecture, on peut entendre que le micro est manipulé et s'entrechoque avec le combiné. Ensuite, et comme observé dans l'analyse, des bruits mécaniques (?) se font entendre après un click et une diminution importante du volume du bruit de fond. Vu la rapidité et la fréquence des bruits, ceux-ci ne peuvent avoir été émis que par une source de petite taille. Mais un processus mécanique (voire electro-mécanique) apparait après le "reunidos" prononcé par la voix n° 2. Il parait être initié par une sorte de "click" (interupteur, curseur, potentiomètre cranté?). Il est visible par le "peak" montré dans l'étape 6. La piètre qualité de l'enregistrement, sa numérisation, son traitement et sa conversion en mp3 sont autant de facteurs d'altération de l'original. Il faut donc s'attacher à des segments précis et significatifs de l'original.

 

G. Réflexions

Je n'ai jamais lu nulle part qu'il y avait plusieurs voix sur l'enregistrement de la conversation de 1969. La transcription parue sur Ummo-Sciences ne mentionne pas ce fait et donne un texte suivi comme s'il émanait d'une seule personne. Il faudra désormais prendre ce fait en compte.

Il y a cette séquence "click-blanc-mecanoise". Le bruit que j'ai nommé "mecanoise" n'est pas réellement identifiable à ce stade mais il a au moins le mérite d'exister. Cette séquence suit l'intervention de la voix 2. Replaçons nous dans le contexte.

La voix un commence : "No formulen preguntas..." très faiblement car le micro est en train d'être fixé..."preguntas..." bruit de fond... "preguntas...preguntas..." bruit "sus hermanos" - et là, la voix 2 empiète sur la voix précédente -"reunidos?" - "en su" - click-blanc-mecanoise - "domicilio a" - intervention voix 2 exclamative mixée à la voix 1 "è" -"mis hermanos"... accélération du débit de parole... "Suplicamos perdón. Suplicamos perdón. Señor, desconecto comunicación. Señor, desconecto" ... L'enregistrement se termine par une "voix inintelligible mais humaine".

En français, la voix demande : "Ne posez pas de questions... questions... questions... questions... Vos frères..." et là, la voix 2 semble poser une question, interrompant presque la voix du téléphone: "(ceux qui sont) réunis?". La voix 1 continue sa phrase: "(qui se trouvent) dans votre domicile"... le click et le blanc interviendraient entre le "votre" et "domicile" sans perturber la voix 1 qui, après un temps d'arrêt, reprend : "Nous vous demandons pardon. Nous vous demandons pardon. Monsieur, je déconnecte la communication. Monsieur, je déconnecte"... puis une "voix plus proche, masculine, et plus claire se fait entendre de manière inintelligible". Elle est interrompue par la fin de l'enregistrement.

On peut noter que le traditionnel cliquetis de fin de communication n'est audible à aucun moment. Aucune tonalité téléphonique liée au réseau local. Pas de bruit typique de central, excepté, peut-être des voix dans le bruit de fond (shadows, ghosts, radio, interferences???).

 

H. Conclusions

En guise de conclusion, j'aimerais répondre, lorsque c'est possible, aux questions que l'on peut se poser.

Il n'est pas dans mes objectifs de creuser davantage cet événement du dossier Ummo mais si des accousticiens ou autres pratiquants des métiers liés à la phonation voulaient se pencher là-dessus ne fût-ce qu'une journée, il y aurait sans doute d'autres choses à dire.

Je ne prétends pas avoir réalisé une analyse des plus pointues, dans le sens scientifiques du terme. J'ai essayé de mettre certaines choses en évidence en utilisant l'outil informatique et, plus spécifiquement, un logiciel audio largement utilisé chez les pro's et les moins pro's. Il s'agit de CoolEdit Pro commercialisé par Syntrillium.

Je n'ai pas voulu prendre le risque de faire des analyses spectrales poussées car cela me ferait aller au-delà de mes compétences. Pas plus que je n'ai désiré interprêter ou bâtir des hypothèses même si je me suis permis une extrapolation dans la question 3. Mais elle est annoncée comme telle et non comme une vérité.

J'espère que ce petit travail pourra servir à ceux qui se posent des questions. Il n'a aucun caractère définitif et j'encourage vivement toutes les autres analyses et vérifications de données.

Je ne suis pas à l'abri de commettre des erreurs.

 

Thierry Wathelet
le 20 février 2004