Приветствую давно никто не делал топиков в данном разделе, обратил внимание что много всего нового нового придумали с последнего поста в данном разделе. (целых 5 лет прошло)
И я решил поднять такую тему как изменение голоса нейросетью. А точнее написать гайд.
Нейросети давно шагнули за пределы роботизированной озвучки. Может передавать эмоции, дефекты речи и тд. Благодаря данной теме вы все сами сможете попробовать и возможно взять на вооружение для озвучивания второстепенных персонажей.
Многие из вас видели фильм "Злостные гои: Окончательное решение" от Gottlieb Films, многим он пришелся не по вкусу мягко говоря но это были проблемы больше сюжетной линии, но в фильме есть 1 интересный момент человек озвучивает один, но если этого не знать выглядит как многоголосая озвучка. Давайте разберемся как это делается с технической стороны вопроса.
Я хочу говорит чужим голос что для этого надо?
Для этого вам потребуется 2 программы:
- Программа для изменения голоса в потоке (нейросеть)
- Виртуальный кабель
Программа для изменения голоса в потоке (нейросеть)
Где нам взять нейронку:
Заходим на страницу данной программы на GITHUB
Находим строчку:
Тыкаем в нее, и попадаем в архив с множеством версий.
Выбор версии зависит от личных предпочтений, и операционной версии компьютера.
Если в названии программы MAC это для макбуков, если WIN это для виндоус соответственно.
Далее в посте будет рассматриваться работа с версией для винды.
Скачиваем к примеру последнею версию на данный момент: MMVCServerSIO_win_onnxdirectML-cuda_v.1.5.3.15.zip (Для скачивания надо нажать логотип стрелочки направленой вниз правее от версии программы)
После скачивания разархивируем архив в папку предварительно созданную на компьютере. (в любом разделе диска)
После того как файлы окажутся в папке на ПК программу можно запустить:
Для этого среди файлов надо найти файл START_HTTP.BAD (не путаем с START_HTTPS.BAD) Запускаем.
Для удобство дальнейшего использования можно создать ярлык данного файла на рабочий стол.
При запуске программы откроется окно с Командной строкой винды. Его закрывать нельзя на протяжении всего времени использования программы, но можно сворачивать.
После прогрузки команд откроется сама программа.
В программе по умолчанию будут Японские голосовые модели, они едва ли подходят для Русского и других западных голосов. (Их можно удалить)
Нам нужны Русские голосовые модели.
Где взять голоса?
Мы их или сами создаем, или ищем в интернете.
Так как создание голосовой модели трудоемкий процесс и можно написать еще один пост на данную тему, мы этот вопрос пока что опустим и будем рассматривать вариант с использованием готовых голосовых моделей.
Готовые голосовые модели можно взять с телеграмм канала АРБУЗИК
Выбираем подходящею нам голосовую модель (в комментариях к файлам есть итоговый пример голоса) и скачиваем 2 файла формата: .pth .intex
Сохраняем в удобное для себя на компьютере место рядом с папкой программы, или создаем папку в корневой папке программы но за стабильность работы я не могу ручаться, ибо так не пробовал.
Виртуальный аудиокабель:
Заходим на сайт VB-AUDIO
На главной скачиваем версию для своей операционной системы (доступно WIN и MAC)
Скачивается в виде архива .zip
Так же разархивируем его в удобное для вас место
Среди скачанных файлов ищем VBCABLE_Setup_x64 и запускаем его через правую кнопку мыши от имени администратора.
В открывшимся окне нажимаем кнопку установки.
После установки необходимо перезапустить компьютер.
После перезагрузки в строке Пуск где у вас отображаются системные значки. Необходимо выбрать: значок наушников или колонки правой кнопкой мыши и в сплывшем окне выбрать пункт: Звуки
В открывшемся окне необходимо выбрать вкладку Воспроизведение
Среди доступных устройств для воспроизведения звука у вас появиться новое устройство CABLE imput которое будет использоваться по умолчанию для воспроизведения.(компьютер не будет воспроизводить звук)
Необходимо выбрать свое устройство для воспроизведения звука и назначить его кнопкой "По умолчанию" как основное.
Теперь все необходимое для работы с программой есть.
Работа с нейронкой:
Необходимо запустить нейронку через ранее созданный ярлык на рабочем столе, или в корневой папке.
После запуска программы для добавления скачанных голосов (мы их в посте качали с ТГ АРБУЗИК)
Нажимаем кнопку edit находиться в верхнем блоке "шапке программы" в правом нижнем углу.
Выбираем свободный слот где нет голосовой модели (если вы не удаляли японские голоса некоторые слоты будут заняты)
В свободном слоте нажимаем на кнопку upload
В открывшемся окне в строке VoiceChangerType должен быть выбран пункт RVC
В строку Model загружаем файл .pth от голосовой модели
В строку intex загружаем файл .intex от ЭТОЙ ЖЕ голосовой модели
Далее после заполнения всех полей появиться кнопка upload нажимаем на нее.
Закрываем окно Edit.
Голосовая модель появиться в "шапке программы" с синей подложкой.
Нажимаем на голосовую модель.
С "шапки программы" спускаемся и далее работаем в основном окне программы.
С личного опыта советую поставить в строке F0 Det.: параметр crepe_tiny
В параметре CHUNK: выбираем задержку записи (чем мощнее компьютер тем меньший параметр задержки можем поставить) К примеру если видеокарта мощнее GTX1050 можно ставить задержку от 320.
Чем меньше задержка тем быстрее будет обрабатываться голос и выходить на воспроизводящие устройство.
В параметре EXSTRA ставим 16384
В параметре imput выбираем свой микрофон в который вы говорите.
В параметре output выбираем виртуальный кабель CABLE imput
В параметре monitor выбираем свои наушники если хотите себя слышать и знать когда нейросеть проговорила все что вы сказали, работает с задержкой в соответствии с параметром который вы задавали в CHUNK.
Можно использовать голосовую модель!
Нажимаем кнопку START
рядом с иконкой голосовой модели есть окно статистики, после нажатия старт ждем пока параметр RES упадет до 130-300MS это задержка если больше то голосовая модель еще загружается или ей мешают сторонние программы.
Говорим микрофон и слушаем свой голос с помощью наушников которые добавлены в параметр monitor.
Настраиваем голос до приемлемых для себя параметров с помощью ползунков GIAN TUNE INTEX все настройки будут строго индивидуально, так как голоса у всех разные.
Добиваемся похожести голоса согласно параметрам исходного голоса модели.
Женским голосовым моделям мужчинам все равно придеться чуть подыгрывать.
Использование в озвучке фильмов, и тд.
При запущенной нейронке с выставлеными параметрами и нажатой кнопки start открываете свою программу для записи голоса, или как вы там озвучиваете все по разному.
Находите через что захватывать голос и выбираете там CABLE imput и программа будет записывать голос из нейронки (не забывайте про задержку)
Что вы вернуться к своему голосу в окне захвата голоса выбираете свой микрофон. Программу закрывать не обязательно. Можно менять голос не выходя из нейронки и программы в которой вы работаете.
Нейронка сохранит ваши эмоции, дефекты речи и тд. Результат может выглядеть очень убедительным.
Ссылка которая может пригодиться для визуального ознакомления с программой и демонстрацией использования (видеогайд):
Смотреть на YouTube
Всем удачи в экспериментах!