Méthodes Temporelles en Acoustique


Réseaux de transducteurs - Retournement temporel - Problèmes inverses - Deep Learning


Soutenance d'Habilitation à Diriger des Recherches du Conservatoire National des Arts et Métiers - Spécialité Acoustique

Présentée par Éric BAVU,
Laboratoire de Mécanique des Structures et des Systèmes Couplés,
Cnam, Paris

11 Décembre 2019

Parcours académique

Parcours Académique

  1999-2001 : Classes Préparatoires aux Grandes Écoles
Admis à l'ENS Cachan (29°) et à l'École Polytechnique (30°)
  2001-2005 : Physique Fondamentale
Licence, Maîtrise, Agrégation externe de Sciences Physiques (30°) , M2 ATIAM (Major)
  2005-2008 : Thèse de doctorat en cotutelle  
Institut Jean le Rond d'Alembert / Groupe d'Acoustique de l'Université de Sherbrooke UPMC : Mention Très Honorable / USherbrooke : Mention Excellent
  2008-2009 : Post-doctorat CNRS  
Équipe Physique des Ondes pour la Médecine
  2009-2019 : Maître de Conférences
Laboratoire de Mécanique des Structures et des Systèmes Couplés

Indices bibliographiques

Indices Bibliographiques

Encadrement / Publications

Expertises / Reviews / Jurys

Sociétés savantes

Expertise d'articles et de projets

Jurys

1 comité de sélection (poste de MCF)
7 jurys de thèses (4 en tant qu'évaluateur, 3 en tant qu'encadrant)
2 comités de suivi de thèses
≈ 3 jurys de diplômes d'ingénieur par an depuis 2009

Contrats de Recherches

Contrats de Recherches

Contrats de Recherches

En tant que participant

LOC-BIOAC (2016-2018) : Projet Région Pays de Loire
LICORVE (2009-2012) : Projet FUI
PARABAS (2009-2010) : Projet ANR Blanc
DARMUS (2008-2009) : Projet FUI

En tant que porteur/coordinateur

(2019-2022) : Projet ANR ASTRID
Mais aussi ...

  • 3 projets ANR/ANRS déposés en tant que porteur (1 retenu en liste complémentaire, 1 retenu et financé)
  • 6 participations à des dépôts de projets ANR (1 retenu en liste complémentaire)
  • Participation au dépôt de projet ANR "Thèses IA" 2019 (projet "AHEAD")

Enseignements/Responsabilités

Enseignements et Responsabilités

Activités Pédagogiques

Enseignements au Cnam

  Formations de Bac+1 à Bac+5

Ingénieur en cours du soir, Parcours Acoustique
40%
Diplôme d'État d'Audioprothésiste
46%
Ingénieur en Aéronautique (alternance)
8%
DUT Mesures Physiques (alternance)
6%

  • Cours du soir + Formation initiale + Apprentissage + Formation Ouverte à Distance
  • Responsabilité opérationelle de 5 UE
  • Tutorat ingénieurs en cours du soir et en apprentissage
  • Nouvelles vidéos de cours chaque année
  • Volume horaire ≈ 250 h / an

Open Science : ressources éducatives libres

(2012-2014) : Projet UNIT Électroacoustique
Partenaires :

Responsabilités administratives

  • 2010-2017 : Membre élu du Conseil de Département ISME au Cnam
  • Depuis 2018 : Membre élu du Conseil Scientifique du Cnam

Thématiques de Recherche

Thématiques de Recherche

Méthodes Temporelles en Acoustique



Projets de recherche présentés :

  •   Imagerie acoustique instationnaire en environnement défavorable

  •   Élastographie ultrasonore par imagerie de cisaillement supersonique

  •   Localisation de sniper : synthèse de champ supersonique et problème inverse

  •   Localisation de drones par antennes microphoniques compactes

  •   Deep Learning pour la reconnaissance sonore

  •   Deep Learning pour la localisation de sources en environnement défavorable

Imagerie acoustique instationnaire

Imagerie acoustique en environnement défavorable

Problématique

Comment réaliser de l'imagerie acoustique en environnement réverbérant, en présence de sources de bruit perturbatrices ?

Méthodes développées au LMSSC

Solution proposée

Antenne hémisphérique double couche


Projection sur la base des harmoniques sphériques

Séparation de champs pression-pression

Projection sur la base des harmoniques sphériques
$$(k+n) \text{ pair}$$
$$p_{\text{M}}( r_s, \theta_s,\phi_s,t) \approx \displaystyle \sum\limits_{n=0}^{n=N} \sum\limits_{k=-n}^{k=n} p_{n}^{k}(r_s,t) Y_{n}^{k}(\theta_s,\phi_s)$$

$$p_{\text{M}}( r_s, \theta_s,\phi_s,t) \approx \color{#ee0031}{ p_{\text{div}}( r_s, \theta_s,\phi_s,t) } + \color{#51a652}{ p_{\text{stat}}( r_s, \theta_s,\phi_s,t) } $$

$$p_{n}^{k}(r_s,t) = \mathscr{F}^{-1} \left[ \color{#ee0031}{{a}_{n}^{k}(\omega) \cdot h_{n}^{(2)} \left(\frac{\omega}{c} r_s \right)} \right. \left. + \color{#51a652}{\text{ } {b}_{n}^{k}(\omega) \cdot j_{n} \left(\frac{\omega}{c} r_s \right)} \right]$$

Calcul du champ divergent

$$p_{\text{div}}( r_s, \theta_s,\phi_s,t) \approx \displaystyle \sum\limits_{n=0}^{n=N} \sum\limits_{k=-n}^{k=n} \color{#ee0031}{A_{n}^{k}(r_s,t)} Y_{n}^{k}(\theta_s,\phi_s)$$

$$\color{#ee0031}{A_{n}^{k}(r,t) = \mathscr{F}^{-1}\left[\dfrac{\mathscr{F}\left[p_{n}^{k}(r_{s_1},t)\right] \cdotp j_{n} \left(\dfrac{\omega}{c} r_{s_2}\right) - \mathscr{F}\left[p_{n}^{k}(r_{s_2},t)\right] \cdotp j_{n} \left(\dfrac{\omega}{c} r_{s_1} \right)}{h_{n}^{(2)} \left(\dfrac{\omega}{c} r_{s_1}\right) \cdotp j_{n} \left(\dfrac{\omega}{c} r_{s_2}\right) - h_{n}^{(2)} \left(\dfrac{\omega}{c} r_{s_2}\right) \cdotp j_{n} \left(\dfrac{\omega}{c} r_{s_1}\right)} \cdotp h_{n}^{(2)} \left(\dfrac{\omega}{c} r \right)\right]}$$

Séparation de champs pression-vitesse

Projection sur la base des harmoniques sphériques
$$(k+n) \text{ pair}$$
$$p_{\text{estim}} (r_{s_m}, \theta_s,\phi_s,t) \approx \sum\limits_{n=0}^{n=N} \sum\limits_{k=-n}^{k=n} \gamma_{n}^{k}(r_{s_m},t) Y_{n}^{k}(\theta_s,\phi_s)$$ $$v_{r,\text{estim}} (r_{s_m}, \theta_s,\phi_s,t) \approx \sum\limits_{n=0}^{n=N} \sum\limits_{k=-n}^{k=n} \chi_{n}^{k}(r_{s_m},t) Y_{n}^{k}(\theta_s,\phi_s)$$

$$p_{\text{M}}( r_s, \theta_s,\phi_s,t) \approx \color{#ee0031}{ p_{\text{div}}( r_s, \theta_s,\phi_s,t) } + \color{#51a652}{ p_{\text{stat}}( r_s, \theta_s,\phi_s,t) } $$

$$p_{\text{div}}( r_s, \theta_s,\phi_s,t) \approx \displaystyle \sum\limits_{n=0}^{n=N} \sum\limits_{k=-n}^{k=n} \color{#ee0031}{A_{n}^{k}(r_s,t)} Y_{n}^{k}(\theta_s,\phi_s)$$

Calcul du champ divergent

$$\color{#ee0031}{A_{n}^{k}(r,t)} = \dfrac{c}{r_{s_m}} \cdotp \mathscr{G}_n^{(0)}(t) {\ast} \gamma_{n}^{k}(r_{s_m},t) + \mathscr{G}_n^{(1)}(t) {\ast} \dfrac{\partial \gamma_{n}^{k}}{\partial t}(r_{s_m},t) + \dfrac{\rho_0 c}{n} \cdotp \mathscr{G}_n^{(0)}(t) {\ast} \dfrac{\partial \chi_{n}^{k}}{\partial t}(r_{s_m},t)$$

où $\mathscr{G}_n^{(0)}(t)$ et $\mathscr{G}_n^{(1)}(t)$ sont des réponses impulsionnelles finies, dans l'intervalle $t \in \left[0;2{r_{s_m}}/{c}\right]$.

Imagerie par retournement temporel

● Séparation de champs : Obtention d'un champ anéchoïque

● Antenne double couche hémisphérique : Cavité à retournement temporel double couche

● Utilisation de la formulation de Helmholtz-Kirchhoff modifiée et du puits à retournement temporel avec formule exacte

$$\color{#8e52a5}{p_{\text{TR}}(\vec{r}, t) = \iint\limits_S \left(G(\vec{r_{s}}, \vec{r}, t) {\ast} \dfrac{\partial{p_{\text{M}}(\vec{r_{s}}, T-t)}}{\partial{n_{s}}} \right. - \left. \dfrac{\partial{G(\vec{r_{s}}, \vec{r}, t)}}{\partial{n_{s}}} {\ast} p_{\text{M}}(\vec{r_{s}}, T-t) \right)\mathrm{d}S}$$

$$\color{#8e52a5}{p_{\text{TR}}(\vec{r}, t) = \iint\limits_S \left(G(\vec{r_{s}}, \vec{r}, t) {\ast} \dfrac{\partial{p_{\text{M}}(\vec{r_{s}}, T-t)}}{\partial{n_{s}}} \right. - \left. \dfrac{\partial{G(\vec{r_{s}}, \vec{r}, t)}}{\partial{n_{s}}} {\ast} p_{\text{M}}(\vec{r_{s}}, T-t) \right)\mathrm{d}S}$$ $$p_{\text{TRS}}(\vec{r}, t) = \color{#8e52a5}{p_{\text{TR}}(\vec{r}, t)} + \color{#c1002a}{2 \pi c \cdot G(\vec{r_{o}}, \vec{r}, +t) {\ast} \left( \displaystyle \int\limits_{0}^{t} \color{#8e52a5}{p_{\text{TR}}(\vec{r_o}, t')}dt' \right)}$$

Expériences et Résultats



Séparation de champs sur l'antenne
RSB = 5 dB
- - - : Signal de référence (salle anéchoïque)
▬ Signal mesuré en environnement bruité et réverbéré
▬ Signal obtenu après séparation de champs
Imagerie par retournement temporel
RSB = 5 dB

Sans séparation de champs ni puits :

Avec séparation de champs et puits double couche :

Champ de référence en salle anéchoïque :

Bilan

Avantages de la méthode

● Inspection locale de structures

● Robuste au bruit ($RSB \gtrapprox -5 $dB)

● Robuste à la réverbération ($T_R \lessapprox 4.5$ s)

● Cavité et puits à RT double couche !

● Reconstruction du champ instationnaire temporel

Limites de validité

● Séparation de champs BF :
$k r_s \lessapprox N$ avec $N = 7$ $ \Rightarrow f \lessapprox 2500$ Hz

● Pb avec les sources stationnaires à bande limitée et les sources étendues

Sources supersoniques

Sources supersoniques

Localisation acoustique de snipers

Snipers en milieu urbain

● Tir à longue portée (supersonique)
● Utilisation de silencieux ou champ lointain : pas d'onde de bouche
● Environnement urbain : multiples réflexions
● Signaux très impulsionnels (adapté au retournement temporel)
Tir supersonique (grande distance) :

Tir subsonique (grande distance) :

Cadre de l'étude / Méthodes

Couloir urbain (laboratoire, tirs réels, simulations numériques)

● Microphones disposés dans la rue, au sol

● Rétropropagation par retournement temporel

Retournement temporel et cône de Mach

Champ de pression à 1 cm de l'axe du tir :

Après rétropropagation par retournement temporel :

Solution proposée

Rétropropagation par retournement temporel des mesures microphoniques
● Calcul du champ retourné temporellement dans $N$ plans transverses
● Extraction de la position où le kurtosis est maximum dans chaque plan
Calcul de la trajectoire du projectile par algorithme RANSAC







Pression quadratique du champ rétropropagé

Kurtosis du champ
rétropropagé

Problème inverse : Bilan

Avantages de la méthode

● Méthode robuste et reproductible

● Non supervisée

● Précision : $0.5$° / $0.5$ cm

● Exploite les caractéristiques du signal, de l'environnement, et de la trajectoire

Limitations

● Nombre et distribution spatiale des microphones

● Nécessite un profil 3D d'environnement

● Temps de calcul

Synthèse de champs supersoniques

Comment synthétiser physiquement un front d'onde conique possédant la signature temporelle d'une onde de Mach en laboratoire sans projectile ?
Utiliser un réseau de haut-parleurs miniatures
"Ligne à retard" supersonique inspirée de mes travaux post-doctoraux sur l'élastographie ultrasonore ShearWave™

Ligne de haut-parleurs miniatures

● 4 haut-parleurs par cellule, minimalement invasive

● Assemblage des cellules pilotées indépendamment

● Lignes "Durandal" : 256 haut-parleurs, pilotage par protocole MADI

Filtrage inverse de chacune des cellules

Validations expérimentales

Scan 3d du champ autour du réseau de haut-parleurs (salle semi-anéchoïque)

Scan 2d du champ : réflection et diffraction sur un coin de "rue"

Localisation acoustique de drones

Localisation de drones sur antennes compactes

Problématique

Localiser un drone en mouvement à l'aide d'antennes compactes distribuables sur site

Solution proposée

Approche pression/vitesse particulaire sur antennes compactes :

Conception d'antenne compacte

32 MEMS numériques, 8 cm d'envergure

Résultats

Extraction pression-vitesse temps réel


\[ \begin{cases} \rho_0 c \times v_x(t) = p(t) \times \cos(\theta) \cos(\phi) \\ \rho_0 c \times v_y(t) = p(t) \times \sin(\theta) \cos(\phi) \end{cases} \]

$ \Rightarrow $ Estimation de $\theta$ et $\phi$ grâce à un algorithme RANSAC
Localisation 3D temps réel obtenue après RANSAC

Localisation de drones : Bilan


● Antennes compactes peu coûteuses

● Algorithme temps réel exploitant la géométrie de l'antenne

● Approche distribuée

● Couplage avec détection, filtrage spatial, et identification de drone


● Sensibilité des microphones

● Approche "modèle" champ lointain

● Valide en milieu ouvert seulement

Deep Learning pour l'acoustique

Deep Learning pour l'acoustique

Questions de recherche

Data-driven


L'approche "données" peut-elle représenter une alternative intéressante aux méthodes "modèles" en acoustique ?

Physics-driven


Comment améliorer les approches de Deep Learning en s'inspirant de méthodes utilisées en traitement du signal et en acoustique ?

Time domain


Comment exploiter des données "brutes" temporelles (joint feature learning) pour la localisation et la reconnaissance de sources ?

Un domaine en plein essor

Nombre de publications : Deep Learning + Acoustics
(source : ISI web of Science)
Nombre de publications : Deep Learning + Acoustics + Localization
(source : ISI web of Science)
Nombre de publications : Deep Learning + Acoustics + Time domain
(source : ISI web of Science)

Antennes microphones intelligentes

Problématique

  • Étudier l'apport du Deep Learning pour la localisation de sources sonores
  • S'affranchir des modèles :
    • d'environnement de mesure
    • de sources
    • de capteurs (directivité, sensibilité, réponse en fréquence)
    • d'antennes

  Jeux de données

  • Bases de données simulées pour la localisation de sources :
    • flexibilité sur la géométrie d'antenne
    • champ libre, champ réverbéré
    • calcul rapide de RIR sur GPU avec TensorFlow (usage détourné)
    • $\approx$ 100000 positions de sources / salle
    • $\approx$ 60000 sources images / position de source

  • Bases de données physiques sur antennes réelles :
    • utilisation du spatialisateur 3D Spherebedev
    • Synthèse de champ ambisonique à l'ordre 5
    • Calibration intrinsèque de l'antenne !

BeamLearning : réseau

Réseau de convolutions à trous

Objectifs :
● Optimisation de filtres multi-résolution
● Filtres courts, réseau résiduel de convolutions séparables en profondeur

DOA 2D



● De la classification en secteurs angulaires ...
● à la régression en champ libre (RSB = 15 dB) ...
● ... ou en espace réverbérant ($T_R = 0.5 s$ , RSB = 15 dB) :

Robustesse au bruit de fond


● Apprentissage en environnement réverbérant
($T_R = 0.5 s$) :
● Comparaison avec des méthodes existantes
(MUSIC et SRP-PHAT) :

DOA 3D



● Apprentissage en environnement réverbérant
($T_R = 0.5 s$) :

Localisation de sources par Deep Learning : Bilan


● Précision comparable aux méthodes modèles

● Robustesse à la réverbération

● Robustesse au bruit

● Calibration intrinsèque + exploitation diffraction

● Inférence rapide sur architecture légère ($\approx 10 \times$ par rapport à MUSIC !)


● Bases de données conséquentes

● Apprentissage long

● Infrastructure GPU pour l'apprentissage

Perspectives de Recherche

Perspectives de recherche

Localisation et reconnaissance de drones à faible signature par Deep Learning


(2019-2022) : Projet ANR ASTRID
 

Synthèse ambisonique d'environnements virtuels

Objectifs

  • Spatialisateur 3D pour synthèse ambisonique d'environnements virtuels
  • Calcul rapide sur GPU de RIRs encodées dans le domaine ambisonique

  • Correction temps réel de la réponse de la salle de spatialisation

Deep Learning pour les problèmes inverses

  • Commence à être utilisée en géophysique et en imagerie médicale
  • Similitudes entre réseaux résiduels et équations aux dérivées partielles
  • Complétion de données, imagerie

  • Détermination d'impédance de paroi

Calibration "one shot" d'antennes microphoniques

  • Antennes de microphones MEMS : démocratisation

  • Pas de méthode standardisée de calibration sur antenne
  • Utilisation d'une antenne paramétrique

Malentendant virtuel

  • Audiométrie vocale sur buste Kemar porteur de prothèse auditive

  • Reconnaissance vocale par TimeScaleNet

  • Simulation de pertes auditives et tests de corrections et d'algorithmes de prothèses

Étudiants et collègues ayant contribué à ces développements : MERCI !










Annexes

Annexes

TimescaleNet architecture

Biquadratic RNN cell

  • Equiv. to direct-form I of standard DSP biquad filters
  • $(b_i^{(0)}, b_i^{(1)}, b_i^{(2)}, a_i^{(1)}, a_i^{(2)} )$ constrained : stable bandpass filter
  • Forward-backward filtering (bidirectionnal RNN)

Biquadratic RNN cell :
parametrization

  • Learnable bandpass filter, with 2 learning variables
  • $K^{(i)} = \tan\left(\dfrac{\pi f_c^{(i)}}{f_s} \right) , Q^{(i)}$
  • Direct influence of central frequencies and quality factors





\[ \begin{cases} b_i^{(0)} = \left(K^{(i)}/Q^{(i)}\right)\times \nu^{(i)} \\ b_i^{(1)} = 0 \\ b_i^{(2)} = - b_i^{(0)} \\ a_i^{(1)} = 2 \times \left[ \left(K^{(i)}\right)^2 - 1 \right] \times \nu^{(i)} \\ a_i^{(2)} = \left[1 - \left(K^{(i)}/Q^{(i)}\right) + \left(K^{(i)}\right)^2\right] \times \nu^{(i)} \end{cases} \] with $ \nu^{(i)} = \left[1 + K^{(i)} / Q^{(i)} + \left(K^{(i)}\right)^2\right]^{-1} $

Biquadratic RNN cell :
stability

Stability of the learnt IIR filters is always ensured without any further constrainsts

BiquadNet Output

  • Deterministic calculation of a log-energy computed on overlapping windows for the 128 outputs
  • Mixing of channels using a pointwise convolution
  • Selu nonlinearities, Layer Normalization
A "tailored" time-frequency representation Magnitude response of the 128 channels, obtained after convergence for the Speech Commands Dataset

FrameNet Atrous convolutions

  • Small kernels (width : 3), non causal Wavenet-like
  • Large receptive field: increasing dilation factors : $(1,2,4,8)$

Google Speech Commands Dataset v2

  • 105 829 utterances of 35 words recorded by 2,618 speakers
  • One-second audio clips consisting of only one word
  • 16 bits PCM / 16 kHz raw audio
  • Served a competition hosted by Kaggle, on a 10 words recognition task : "Yes", "No", "Up", "Down", "Left", "Right", "On", "Off", "Stop", and "Go" along with the "silence" and "unkwnown" classes
  • Data split 80:10:10 (training / validation / testing)

Training procedure

  • Cross-entropy loss, Adaptive Moment Estimation (Adam) optimizer + additional learning rate schedule
  • Implemented and tested using Tensorflow libraries, on 4 Nvidia GTX 1080Ti GPU cards, mini-batches of 70 raw waveforms, 45 epochs

Confusion Matrix

Performances

Data Cardinality Accuracy Macro-Precision Macro-recall Macro $F_1$ score
Speech Evaluation Set $4916$ ${94.87 \pm 0.24 \%}$ ${94.91 \pm 0.22 \%}$ ${94.88 \pm 0.26 \%}$ ${94.9 \pm 0.24 \%}$
Speech Testing Set $5157$ ${94.78 \pm 0.26\%}$ ${94.87 \pm 0.25 \%}$ ${94.87 \pm 0.25 \%}$ ${94.87 \pm 0.25 \%}$
  • Very homogeneous results across the words
  • One of the best results on this dataset

Comparisons with other models and variation of input features

Model Input Accuracy
TimeScaleNet Raw audio $\mathbf{94.87 \pm 0.24 \%}$
TimeScaleNet Frozen BiquadNet w. Patterson's cochlear model $92.4 \%$
FrameNet log-mel spectrogram, 128 frequency bins $89.7 \%$
cnn-trad-fpool3 (Sainath et al. 2015) 40 dimensional MFCC map $92.62 \pm 0.21 \%$
cnn-trad-fpool3 (Sainath et al. 2015) log-mel spectrogram, 128 frequency bins $88.12 \pm 0.14 \%$
res15 (Tang et al. 2018) 40-dimensional MFCC map on $20$ Hz $/$ $4$ kHz bandpass filtered signal $\mathbf{95.8 \pm 0.484 \%}$

Comparisons with hand-crafted perceptual models

Patterson's cochlear model, with Glasberg and Moore parameters :
Learnt BiquadNet's model, with clustered frequency bands :
Learnt frequency patterns encode very well formants, vowels and nasals, fricatives or plosives. Self-adapts to the corpus of the dataset.

Comparisons with hand-crafted perceptual models


Computational efficiency and accuracy

Sainath et al. (tConv, 2015) and Variani et al. : $\approx 400$ kernel-length for 1D convolutions


For one second of raw audio signal :
Model # of parameters (first layer) # of operations (first layer) Accuracy Mean comp. time for one learning iteration
IIR-TimeScaleNet (BiquadNet + FrameNet) $\mathbf{256}$ $\mathbf{32.8\times10^6}$ $\mathbf{94.87 \pm 0.24 \%}$ $105$ ms
FIR-TimeScaleNet (tConv + FrameNet) $51200$ $1.68\times 10^9$ $92.72 \pm 0.11 \%$ $\mathbf{7}$ ms

Equivalent FIR kernel lengths

Suggests that the choice of a conv1d kernel length is only a compromise. IIR approach allows to avoid this difficult choice.
IIR : Computationaly efficient approach + physically and perceptually interpretable learning variables .

Environmental sound recognition (ESC-10 dataset)

Self-adaptation to dataset corpus (center frequency)

Self-adaptation to dataset corpus (quality factor)