Réseaux de transducteurs - Retournement temporel - Problèmes inverses - Deep Learning
Présentée par Éric BAVU,
Laboratoire de Mécanique des Structures et des Systèmes Couplés,
Cnam, Paris
11 Décembre 2019
1 comité de sélection (poste de MCF)
7 jurys de thèses (4 en tant qu'évaluateur, 3 en tant qu'encadrant)
2 comités de suivi de thèses
≈ 3 jurys de diplômes d'ingénieur par an depuis 2009
LOC-BIOAC (2016-2018) : Projet Région Pays de Loire
LICORVE (2009-2012) : Projet FUI
PARABAS (2009-2010) : Projet ANR Blanc
DARMUS (2008-2009) : Projet FUI
Formations de Bac+1 à Bac+5
$$p_{\text{M}}( r_s, \theta_s,\phi_s,t) \approx \color{#ee0031}{ p_{\text{div}}( r_s, \theta_s,\phi_s,t) } + \color{#51a652}{ p_{\text{stat}}( r_s, \theta_s,\phi_s,t) } $$
$$p_{n}^{k}(r_s,t) = \mathscr{F}^{-1} \left[ \color{#ee0031}{{a}_{n}^{k}(\omega) \cdot h_{n}^{(2)} \left(\frac{\omega}{c} r_s \right)} \right. \left. + \color{#51a652}{\text{ } {b}_{n}^{k}(\omega) \cdot j_{n} \left(\frac{\omega}{c} r_s \right)} \right]$$
$$\color{#ee0031}{A_{n}^{k}(r,t) = \mathscr{F}^{-1}\left[\dfrac{\mathscr{F}\left[p_{n}^{k}(r_{s_1},t)\right] \cdotp j_{n} \left(\dfrac{\omega}{c} r_{s_2}\right) - \mathscr{F}\left[p_{n}^{k}(r_{s_2},t)\right] \cdotp j_{n} \left(\dfrac{\omega}{c} r_{s_1} \right)}{h_{n}^{(2)} \left(\dfrac{\omega}{c} r_{s_1}\right) \cdotp j_{n} \left(\dfrac{\omega}{c} r_{s_2}\right) - h_{n}^{(2)} \left(\dfrac{\omega}{c} r_{s_2}\right) \cdotp j_{n} \left(\dfrac{\omega}{c} r_{s_1}\right)} \cdotp h_{n}^{(2)} \left(\dfrac{\omega}{c} r \right)\right]}$$
$$p_{\text{M}}( r_s, \theta_s,\phi_s,t) \approx \color{#ee0031}{ p_{\text{div}}( r_s, \theta_s,\phi_s,t) } + \color{#51a652}{ p_{\text{stat}}( r_s, \theta_s,\phi_s,t) } $$
$$p_{\text{div}}( r_s, \theta_s,\phi_s,t) \approx \displaystyle \sum\limits_{n=0}^{n=N} \sum\limits_{k=-n}^{k=n} \color{#ee0031}{A_{n}^{k}(r_s,t)} Y_{n}^{k}(\theta_s,\phi_s)$$
où $\mathscr{G}_n^{(0)}(t)$ et $\mathscr{G}_n^{(1)}(t)$ sont des réponses impulsionnelles finies, dans l'intervalle $t \in \left[0;2{r_{s_m}}/{c}\right]$.
Sans séparation de champs ni puits :
Avec séparation de champs et puits double couche :
Champ de référence en salle anéchoïque :
● Microphones disposés dans la rue, au sol
● Rétropropagation par retournement temporel
Speech Evaluation Set | $4916$ | ${94.87 \pm 0.24 \%}$ | ${94.91 \pm 0.22 \%}$ | ${94.88 \pm 0.26 \%}$ | ${94.9 \pm 0.24 \%}$ |
Speech Testing Set | $5157$ | ${94.78 \pm 0.26\%}$ | ${94.87 \pm 0.25 \%}$ | ${94.87 \pm 0.25 \%}$ | ${94.87 \pm 0.25 \%}$ |
TimeScaleNet | Raw audio | $\mathbf{94.87 \pm 0.24 \%}$ |
TimeScaleNet | Frozen BiquadNet w. Patterson's cochlear model | $92.4 \%$ |
FrameNet | log-mel spectrogram, 128 frequency bins | $89.7 \%$ |
cnn-trad-fpool3 (Sainath et al. 2015) | 40 dimensional MFCC map | $92.62 \pm 0.21 \%$ |
cnn-trad-fpool3 (Sainath et al. 2015) | log-mel spectrogram, 128 frequency bins | $88.12 \pm 0.14 \%$ |
res15 (Tang et al. 2018) | 40-dimensional MFCC map on $20$ Hz $/$ $4$ kHz bandpass filtered signal | $\mathbf{95.8 \pm 0.484 \%}$ |
IIR-TimeScaleNet (BiquadNet + FrameNet) | $\mathbf{256}$ | $\mathbf{32.8\times10^6}$ | $\mathbf{94.87 \pm 0.24 \%}$ | $105$ ms | FIR-TimeScaleNet (tConv + FrameNet) | $51200$ | $1.68\times 10^9$ | $92.72 \pm 0.11 \%$ | $\mathbf{7}$ ms |