語音芯片識別系統(tǒng)寫入語音的原理怎么實(shí)現(xiàn)
我們經(jīng)常用到的語音芯片識別系統(tǒng)是什么原理,為什么我們對著手機(jī)講話,手機(jī)就能把我們說的話能準(zhǔn)確的轉(zhuǎn)化成文字呢?語音識別和指紋識別、人臉識別,在流程上大體是差不多的,比如我們說了一句話“理解萬歲”,手機(jī)會先通過麥克風(fēng)收集到我們說話的聲音,因?yàn)槲覀冋f話的聲音屬于是模擬信號,所以收集到我們的聲音之后,要先把模擬信號轉(zhuǎn)換成數(shù)字信號,然后對這個信號進(jìn)行處理,這個處理的過程和我們軍訓(xùn)類似,沒有軍訓(xùn)之前,大家的站姿、走路的姿勢都是千差萬別的,軍訓(xùn)的時候,大家的站姿、走路姿勢基本上是一致的,所以我們說話收集到的聲音也是一個道理。
我們說話的時候,除了有噪音,每個人說話聲音的大小、快慢都是不一樣的,經(jīng)過處理之后,讓這些聲音大體上、在聲音大小、語速快慢都是差不多的,這樣做可以讓后面的識別更加容易,然后就要開始提取語音信號的特征信息,在提取特征信息之前,要先把語音信號給切成一小塊一小塊,然后再分別提取每一小塊的特征信息,比如聲調(diào)這些特征信息,提取完語音信號的特征信息,就要先把這個語音信號放到一個聲學(xué)模型里面,這個聲學(xué)模型里面就有所有文字的發(fā)音,然后在聲學(xué)模型里面找到和我們說話聲音最匹配的發(fā)音之后,再把它放到另一個語言模型里面,這個語音模型里面就放了,各種我們說的話、看到的句子、古詩、文言文等等,語音識別系統(tǒng)就在這個里面找,看哪個句子的發(fā)音最接近于“理解萬歲”的發(fā)音,這就是語音芯片識別系統(tǒng)的大致原理。