" g9 b( T* }* w& \* _狗兒不用訓練都知道主人的喜怒哀樂。科學有一種蠻幹的精神,就好像幾個世紀前一位學者說:「只要給我一根棍子和一個支點,我就可以撐起地球。」科學家好像只要發現了一點什麼或是找到了一個工具,就可以拚了命的往下鑽,往下做。
C: ^5 Y7 ^' j6 A o9 e ~3 Ptvb now,tvbnow,bttvb我的實驗室是在做語音訊號處理的研究,主要是語音辨識。語音辨識簡單地說就是要讓機器(或電腦)聽得懂人講的話。
& f& \3 R% M- W% _- n2 ^www2.tvboxnow.comwww2.tvboxnow.com- R" j* i# d& j9 ]! w# O9 i! _/ A o9 `/ z
語音辨識的過程是這樣的:首先把人講話的聲音訊號取樣,做傅利葉轉換,經過一個精心設計的濾波器之後,取得一組特徵參數,然後把這組特徵參數與資料庫中已存有的大量的人的聲音資料做對比,因為資料庫中的聲音訊號是已知發什麼音的,所以對比出來最接近的那個聲音就是要辨識的答案了。
' ?, V4 N R& o8 x) Y1 L聲音取樣的過程就是把事情極度複雜化的過程,也可以說是錯誤的開始。以取樣頻率48kHz來算,5秒鐘的聲音就會被取樣成240,000個數字,這麼多的數字當然也只有電腦看得懂了。把聲音變成了人無法掌握的形式之後,再想出各種方法去處理它。
# C. Y% g N2 J' ztvb now,tvbnow,bttvb如去除背景雜音、語者辨識、建立人的聲道模型等,即使如此到最後還得算機率,即這段聲音是哪個答案的可能性最大,這個音不太可能是哪個音。算完之後發現結果還不行,再套上語言模型,終於把辨識率拉到可以接受的程度。
8 p5 a8 E! s2 g4 v) z6 T: g' @TVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。最後辨識的結果是,你講的是這個音,可能是這個字。如果在限定領域的條件下做語音辨識的話,正確率大概在70%到90%之間。什麼是限定領域?就是你講話的內容只能限定在某個範圍(如體育)之內,超出這個範圍(如你聊到了政治)辨識成功率就直落了。
$ r Z" h6 { w J( R別說這是愚公移山,這應該用「蠻幹」兩個字來形容才對。要達成這個目的怎麼會用這麼笨的方法?因為這是科學所能提供的最「聰明」的方法了。科學既提供不了更好的辦法,科學家們就只好用笨方法,蠻幹下去了。
: j3 ~) s- x4 J4 {! `狗兒不用訓練都知道主人的喜怒哀樂,植物有他心通功能,科學卻只想的到要電晶體來聽懂人講的話。 |