Нужна нейросеть, чтобы сравнить 2 голоса. Программировать умею, плюсы и питон знаю хорошо, есть предтоповое железо чтобы трейнить, только нужно узнать название технологий или алгоритмов, которые нужны, чтобы получить эту задачу, и я смогу сама написать это все дело. Нужны только названия. Т.е. на вход идут 2 файла с голосом, которые говорят разные слова, на выходе получаем [0, 1), вероятность того, что говорит один и тот же человек. Или может уже есть готовое решение? Тоже не откажусь.
>>228438617 (OP) Голос это по сути временной ряд. Тебе нужны точно рекурентные сети(хотя и сверточные подойдут). Я бы присмотрелся к LSTM сетям. Ну а по поводу препроцессинга данных, тут уж сам решай. В конечном итоге они должны быть нормализованы между 0 и 1 и подаваться векторами. По библиотеки, рекомендую Keras, но так как ты заявляешь что программист то Tensor Flow. По сути одна это апи к другой.
>>228438617 (OP) >Программировать умею, плюсы и питон знаю хорошо, есть предтоповое железо чтобы трейнить, только нужно узнать название технологий или алгоритмов, которые нужны, чтобы получить эту задачу, и я смогу сама написать это все дело. Нужны только названия. Пиздец. Ладно, моё поколение программистов просто гуглит вместо того, чтобы знать. Но эти зумеры ёбаные, похоже, даже гуглить не умеют - они обо всём будут на дваче спрашивать. Я просто хуею, джентльмены.
>>228439184 Я не работал со звуком, но работал с многими другими данными. Самое важно, это подготовка данных, как я писал выше, сеть кушает вектор нормализованных значений от 0 до 1. Я так подозреваю, что тебе потребуется разложить твой звук на график зависимости звукового давления от времени (осциллограмма) или график амплитуд гармонических составляющих разных частот (спектрограмма). Потом нормализовать это дело в каждый момент времени от 0 до 1 и подавать в сетку. Всё. Ну и на выходе там выбрать функцию расчета ошибки, это читай уже про "Обучение с учителем" . Почитай еще вот это https://habr.com/ru/post/462527/
Т.е. на вход идут 2 файла с голосом, которые говорят разные слова, на выходе получаем [0, 1), вероятность того, что говорит один и тот же человек.
Или может уже есть готовое решение? Тоже не откажусь.