语音识别通常有以下流程:
l 接收语音,比如通过电话等方式
l 对接收到的语音做处理,将声音转化为电子信号
l 通过模拟数字转换器将模拟形式的连续电子信号转换为数字形式的离散信号
l 转换成数字信号后,模型便可以将音频转换为文本了
Python 库
pip install SpeechRecognition
将音频文件转换为文本
l 导入语音识别库
l 初始化识别类,以便识别语音。
l 支持语音识的音频文件格式:wav, AIFF, AIFF-C, FLAC Wav,AIFF,AIFF-c,FLAc.在这个例子中我们使用wav文件.
l 我用的是一段电影音频剪辑,里边说的话是:"I don’t know who you are,I don’t know what you want, if you’re looking for ransom,I can tell you I don’t have money"
l 默认情况下,谷歌识别器读取的是英语。
具体代码如下所示:
#import library import speech_recognition as sr # Initialize recognizer class (for recognizing the speech) r = sr.Recognizer() # Reading Audio file as source # listening the audio file and store in audio_text variable with sr.AudioFile('I-dont-know.wav') as source: audio_text = r.listen(source) # recoginize_() method will throw a request error if the API is unreachable, hence using exception handling try: # using google speech recognition text = r.recognize_google(audio_text) print('Converting audio transcripts into text ...') print(text) except: print('Sorry.. run again...')
好啦,这样我们就可以实现语音的转换啦,对于刚入门的小伙伴会不会感觉特别神奇呢?其实python本身就是一个超级神奇的编程语言,掌握以后,一切不可能实现可能尽在自己手中哦~