Японская студия Qosmo разработала нейросеть Imaginary Soundscape, которая способна автоматически добавлять озвучку к фотографиям и картинам. На сайте проекта пользователю достаточно загрузить любое изображение — программа проанализирует его и подберет подходящее звуковое сопровождение исходя из тех данных, на которых ее обучали.
Например, если загрузить на сайт проекта фотографию переполненной людьми городской улицы, нейросеть подберет в качестве звуковой дорожки шум толпы; добавив фото станции метро, пользователь услышит звук проезжающего поезда; снимок пляжа программа озвучит шумом морских волн.
Лучше всего нейросеть справляется с изображениями, где запечатлены относительно простые ситуации и сюжеты, — точность близится к 100%. Для каждой картинки система подбирает одну из 1 500 различных звуковых дорожек, которые являются общественным достоянием.
Ознакомиться с возможностями нейросети можно на сайте проекта.