Потому что в жизни мы слышим себя "изнутри".
А записан голос "снаружи".
Там и здесь - разная акустика, отсюда и разница в результатах.
Потому, что он слегка искажен, а иногда и сильно искажен, если звуковая аппаратура невысокого качества. Ну и еще тембр голоса немного не тот в динамиках, потому что свой собственный голос мы воспринимаем еще и "внутренним слухом", то есть, часть звука идет "изнутри" - распространяется по костям черепа и так далее.
Но лучше я вам опишу свой опыт.
Сделал для своей рок-группы новые звуковые колонки. Долго рассчитывал, экспериментировал. В общем, добился качественного звучания. И тут мне в руки попал студийный ленточный микрофон МЛ-51. И вот, я его подсоединяю к своей аппаратуре - УНЧ 2х200 ватт, эти новые колонки с кинотеатральными динамиками 2А9 + 2 х 4А28, самодельный микшерский пульт с динамическим диапазоном 128 дБ ... и узнаю свой голос из колонок!
Далее, записал через этот микрофон свой голос на студийный магнитофон (тоже самодельный) на скорости 38 и ... эффект узнавания пропал! Ладно, поднимаю скорость записи до 300-500 см/сек и снова узнаю свой голос, но уже в записи!
То есть, если аппаратура высочайшего класса, то свой голос вы узнаете!
Существует несколько ресурсов, которые в состоянии автоматизировать работу, которую надо сделать механически, - то есть прослушать текст, а потом каждое слово набрать вручную на клавиатуре. И при этом соблюдать все знаки препинания. Один из таких ресурсов называется "Голосовой блокнот". И, если Вы умеете задавать вопросы в Интернете, нет ничего проще найти это приложение, скачать его и пользоваться на здоровье.
Для выделения из аудио файла определенной полосы нужно работать с фильтрами частот. Если Вы новичок в данном деле то попробуйте встроенную в программу Nero утилиту.
Придется долго и кропотливо колдовать с частотами пока не отсеете все не нужное.
Для выделения двух голосов шаманить придется два раза.
Потому что мы слышим иначе. Чисто технически.
Когда говорят другие, то среда передачи звука - воздух. Когда говорим мы сами - то среда передачи не только воздух, но и кости черепа. И даже не сказать, через что в основном идёт воспринимаемый нами звук... У которых, естественно, совсем другая "частотная характеристика тракта". Но когда мы свой голос записываем на магнитофон, то среда передачи опять воздух. То есть не та, через которую мы слышим себя сами.
Вот поэтому.