Il deep learning trasforma le registrazioni mono in suoni avvolgenti

 

Se si ascolta un uccello cantare da un albero vicino lo si può identificare in modo relativamente rapido grazie alla sua posizione approssimativa e senza guardare. Ascoltare il rombo di un motore di un'auto mentre si attraversa la strada di solito non solo ci avverte di un pericolo ma ci può dire immediatamente se la vettura è dietro di noi. La capacità umana di localizzare un suono nello spazio tridimensionale è straordinaria. Il fenomeno è ben compreso: è il risultato della forma asimmetrica delle nostre orecchie e della distanza tra loro.

 

Ma mentre i ricercatori hanno imparato come creare immagini 3D che ingannano facilmente i nostri sistemi visivi, nessuno ha trovato un modo soddisfacente per creare suoni 3D sintetici che ingannino in modo convincente i nostri sistemi acustici.

 

Oggi tutto sembra destinato a cambiare grazie al lavoro di Ruohan Gao presso l'Università del Texas e Kristen Grauman di Facebook Research. I due hanno usato un trucco che gli umani sfruttano anche per insegnare a un sistema di intelligenza artificiale per convertire normali suoni mono in un suono 3D piuttosto buono: i ricercatori lo chiamano suono 2.5D.

 

Il trucco per riprodurre artificialmente il suono 3D è riprodurre l'effetto che tutta la geometria ha sul suono. Un modo per misurare la distorsione è con la registrazione binaurale. Questa è una registrazione fatta posizionando un microfono all'interno di ciascun orecchio, che può raccogliere queste piccole variazioni.

 

Analizzando le variazioni, i ricercatori possono quindi riprodurle utilizzando un algoritmo matematico noto come funzione di trasferimento relativa alla testa. Ciò trasforma qualsiasi normale paio di cuffie in straordinarie macchine audio 3D.

 

Poiché le orecchie di tutti sono diverse, ognuno sente il suono in un modo diverso. Quindi, creare la funzione di trasferimento relativa alla testa di una persona significa misurare la forma delle orecchie della persona prima di eseguire una registrazione. E anche se ciò può essere fatto in laboratorio, nessuno ha capito come farlo in natura.

 

Il trucco che utilizzano Grauman e Gao è determinare quale direzione proviene un suono dall'uso di segnali visivi (come spesso fanno anche gli umani). Quindi, dato un video di una scena e una registrazione audio mono, il sistema di apprendimento automatico elabora da dove provengono i suoni e quindi distorce il tempo intero e le differenze di livello per produrre quell'effetto per l'ascoltatore.

 

Scrivi commento

Commenti: 0