Облачная речь Google очень неточная и пропускает слова по чистому аудио

ZhouW спросил: 03 ноября 2018 в 08:11 в: google-cloud-speech

Я использую облачную речь Google через Python и считаю, что многие транскрипции неточны и пропускают несколько слов. Это простой сценарий, который я использую для возврата стенограммы аудиофайла, в данном случае 'out307.wav':

client = speech.SpeechClient()with io.open('out307.wav', 'rb') as audio_file:
    content = audio_file.read()audio = speech.types.RecognitionAudio(content=content)config = speech.types.RecognitionConfig(
    enable_word_time_offsets=True,
    language_code='en-US',
    audio_channel_count=1)response = client.recognize(config, audio)for result in response.results:
    alternative = result.alternatives[0]
    print(u'Transcript: {}'.format(alternative.transcript))

Это возвращает следующую стенограмму:

чтобы сделать это, напряженность и подозрения, кроме

Это очень далеко от того, что говорит само аудио (я загрузил его на https://vocaroo.com / I / s1zdZ0SOH1Ki). Звук .wav и очень чистый, без фонового шума. Это хуже, чем в среднем, так как в некоторых случаях транскрипция будет полностью правильной для 10-секундного аудиофайла, или он может пропустить всего пару слов. Что я могу сделать, чтобы улучшить результаты?

0 ответов