Статьи
Як вважати звук з пачки з-під чіпсів, або що таке «візуальний мікрофон»
- попередники технології
- Візуальний мікрофон - рішення вчених з MIT
- розвиток технології
- Потенціал візуальних мікрофонів
Зберегти і прочитати потім -
«Візуальний мікрофон» - це техніка, що дозволяє відновити аудиоряд з беззвучної відеозапису. Сьогодні ми розповімо не тільки про неї, а й інших методах і технологіях, які дозволяють дистанційно зчитувати і відновлювати музику або мова.
фото m01229 CC
попередники технології
Одним із способів записати звук на відстані є лазери. Так звані лазерні мікрофони використовують для зчитування вібрацій, викликаних звуковими хвилями. Наприклад, «захопити» звук таким чином можна з поверхні віконного скла, якщо в кімнаті розмовляють люди або грає музика. Інтерферометр фіксує «рух» поверхні по зміні оптичної довжини шляху відбитого променя. Після чого ці відхилення за допомогою спеціальних алгоритмів перетворять в звуковий сигнал.
У мережі є аудіозаписи, які показують, що «лазерні мікрофони» дозволяють відновлювати звук з досить гарною якістю. Однак такий підхід має свій недолік, пов'язаний зі складністю установки приладу.
Також «записати звук на відстані» можна за допомогою мікрохвильового випромінювання малої інтенсивності, яке використовується в засобах зв'язку. подібні технології застосовували в НАСА для уловлювання і розпізнавання слабких радіосигналів в космосі.
рупорна антена через стіну будівлі направляє в кімнату мікрохвилі з частотою 30-100 ГГц. Якщо в приміщенні кажуть люди або грає музика, звукові хвилі можна вважати по мікровібрацію легкий предметів і матеріалів - у «захопленому» вигляді вони набувають амплітудну модуляцію. Ця інформація потім використовується для відновлення звуку, що впливає на об'єкт. Причому цим об'єктом може бути будь-який одяг, тому такий метод дозволяє «перехоплювати» навіть звук серцебиття.
Візуальний мікрофон - рішення вчених з MIT
Вчені з MIT запропонували інший спосіб зчитування звуку на відстані. Вони довели, що можливо відновити звук на підставі відеозапису. Для цього потрібно записати відео об'єкта за допомогою камери для високошвидкісної зйомки і проаналізувати мікроскопічні вібрації, викликані поширенням звукових хвиль.
На підставі відео будується керована піраміда зображень , яка представляє собою набір фільтрів, «розбивають» кожен кадр відеозапису на комплексні піддіапазони, які відповідають різним точкам на досліджуваному об'єкті.
Вчені розробили спеціальний алгоритм (і виклали його у відкритий доступ), який обчислює в кожній з виділених точок інтенсивність звукових вібрацій. Локальні сигнали усереднюються, і на їх підставі формується один загальний сигнал, що визначає те, як звукові хвилі впливають на об'єкт. Цей сигнал проходить через фільтр верхніх частот Баттерворта з порогом зрізу 20-100 Гц. Після чого з'являється можливість відновити аудіозапис.
За словами керівника дослідження Ейба Девіса (Abe Davis), візуальний мікрофон дозволяє отримати аудіозапис менш хорошої якості, в порівнянні з активними методиками (наприклад, з використанням лазерів), проте він має свої переваги. Їх система не вимагає додаткового обладнання і будь-яких детекторів - потрібна тільки високошвидкісна відеокамера. При цьому поверхня, з якої буде «читатися звук», не зобов'язана бути дзеркальною або гладкою, як того часто вимагають лазерні мікрофони .
Команда Ейба пробувала вважати звук з паперового пакета, пачки з-під чіпсів і алюмінієвої фольги. Вони легкі, тому звукові вібрації на них були найбільш помітні, а результуючий сигнал менш зашумлен. Серед тестових об'єктів також було домашнє рослина і цегла, який, за словами вчених, «проявив» себе краще, ніж вони очікували.
Команда зробила відео, в якому показала, як «звучать» ті чи інші об'єкти:
Вчені відзначають, що планують продовжити роботу в цьому напрямку і дослідити можливість відтворення аудіо з будь-яких відеозаписів, а не тільки підготовлених спеціально за допомогою високошвидкісної камери.
розвиток технології
Інші вчені намагаються поліпшити технологію, запропоновану групою з MIT. Наприклад, в минулому році Іранські дослідники представили алгоритм, який прискорює витяг звуку з «високошвидкісного відеозапису» і підвищує його якість.
На різні області об'єкта звук впливає по-різному. Інтенсивність вібрації залежить від матеріалу, з якого виготовлений предмет, його форми, частоти впливає звуку і відстані до джерела. Наприклад, при зйомці відео на частоті в 20 кГц звукові хвилі переміщаються приблизно на 17 мм між двома фреймами. Тому об'єкти, що знаходяться далі від джерела звуку, реагують із затримкою.
Всі ці фактори змушують різні області об'єкта вібрувати з різною силою. Тому вчені при аналізі зображень з камери враховують тільки ті зони, які роблять найбільший внесок у формування результуючого сигналу - найменш «зашумлені» блоки. При цьому частоти, їх формують, мають різні фазові зрушення, щоб виключити послаблює інтерференцію.
Іранські дослідники відзначають, що завдяки цьому їм вдалося підвищити якість відтвореного звуку, а також прискорити обробку зображення, в порівнянні з вихідним алгоритмом MIT. Вони кажуть, що їх система здатна обробляти зображення і відновлювати звук в реальному часі.
Потенціал візуальних мікрофонів
В цілому технологія поки є експериментальної і про повноцінну комерційної реалізації мови не йде. Але їй вже пророкують потенційне застосування в сфері правопорядку - поліція зможе отримувати більше інформації з камер відеоспостереження.
Є й інші варіанти: подібні системи дозволять аналізувати те, як поводиться звук в студіях звукозапису і концертних холах, щоб визначити їх акустичні властивості. Інше застосування - використовувати систему в космічній галузі для вивчення звуків в космосі. До слова, резиденти Hacker News вже припустили , Що в майбутньому «візуальні мікрофони» дозволять раз і назавжди розгадати загадку висадки на Місяць.