Я бы вам порекомендовала для облегчения своей работы использовать нейросеть. Сейчас чаще всего и применяют ее, чтобы
клонировать голос. Потому что выходит очень удобно, недорого и самое главное быстро. Я как-то обрабатывала видео и у меня на клонирование голоса ушло всего лишь 10 минут. Но еще зависит от того какой длины аудио. А вы когда-нибудь работали с искусственным интеллектом или нет? Если нет, то для начала я бы вам рекомендовала попробовать сначала нейросеть бесплатно. Мне кажется, что такая возможность есть в интернете. А потом если вы ее поймете, то можете и приобрести полноценную версию. Чтобы нейросеть всегда была под рукой.