近日,中科院自動化所聽覺模型與認知計算團隊面向嘈雜背景下的視覺感知問題,提出具有同層側向激勵和抑制的卷積脈沖神經網絡模型,在多個標準數據集上表現出較好地識別性能和噪音魯棒性。該論文已被IJCAI 2020大會接收。
如果有人朝你扔過來一個球,通常你會怎么辦?——當然是馬上把它接住。
這個問題是不是很簡單?但實際上,這一過程是最復雜的處理過程之一:首先,在復雜的背景環境下,球進入人的視野,被視網膜捕捉到后,經視覺通路發送到大腦處理視覺信息的腦區,進行更加徹底的圖像分析。同時視皮層與其他腦區協作,判斷物體的種類,預測它的行進軌跡,最終通過傳出神經控制肌肉的運動,決定人的下一步行動:舉起雙手、接住球。上述過程只在零點幾秒內發生,幾乎完全是下意識的行為,也很少會出差錯。
為了讓計算機模仿這一過程,首先需要讓計算機做到像人類那樣“看”,尤其是在嘈雜背景下像人類那樣快速準確地“看”,成為了近年來視覺感知這一研究領域備受關注的關鍵問題之一。
近年來,基于梯度反向傳播的脈沖神經網絡(SNN)訓練方法逐漸興起。在這種訓練方法下,SNN能夠在保留神經元內部動力學的同時獲得較好的性能。
在此基礎上,自動化所聽覺模型與認知計算團隊模仿刻畫視聽覺系統神經元側向作用的數學模型動態神經場,提出了具有側向作用的SNN——LISNN,用于圖像識別任務。并且在測試中,根據側向作用的動力學特點,人為加入噪聲以驗證側向作用對網絡魯棒性的提升。
在生物神經系統的感受器中存在著臨近神經元間的相互抑制和相互激勵。其中,側向抑制最初為解釋馬赫帶效應而提出,即人們在明暗變化邊界上常常會在亮處看到一條更亮的光帶而在暗區看到一條更暗的線條(見圖1)。這種側向作用后來在鱟、貓等多種動物的不同感覺系統中被證實并應用在仿生的計算模型中。
圖1. 馬赫帶效應示意(圖引wiki)
LISNN的結構如圖2所示,前端是兩層具有卷積感受野的脈沖神經元層,每層后面有一層平均池化層,后端是兩層全連接的脈沖神經元層。具有卷積感受野的脈沖神經元在模型中承擔特征提取的功能,類似于感受器的作用,因此只在這層結構中使用側向作用。在側向作用機制下,每個脈沖神經元的膜電位都額外受鄰域內的其他神經元上一時刻狀態的影響。在目前已有的使用側向作用的計算模型中,側向作用系數往往是固定的和神經元間距離相關的函數,而LISNN中的側向作用系數則可以通過反向傳播進行學習。
圖2 LISNN模型結構示意圖
該研究工作分別在靜態數據集MNIST與Fashion MNIST、動態數據集N-MNIST上對LISNN的性能進行了驗證。輸入數據以特定方式編碼為一定長度的脈沖序列,每個時刻的序列規模與原圖像(或事件點坐標范圍)相同。模型在MNIST和N-MNIST數據集上均取得了和已有最好性能相近的結果;在Fashion-MNIST數據集上則取得了SNN中的最好性能。本模型與已發表模型的性能對比見表1-3。
除此之外,團隊還選擇在MNIST和Fashion MNIST的測試集中加入不同水平的高斯噪聲和脈沖噪聲,以進一步測試側向作用對網絡魯棒性的提升。圖3展示了部分原始圖片和加噪后的圖片。
圖3 (a)三行依次為原始MNIST測試集圖片、加入高斯噪聲后的圖片、加入脈沖噪聲后的圖片
(b)三行依次為原始Fashion MNIST測試集圖片、加入高斯噪聲后的圖片、加入脈沖噪聲后的圖片
圖4中,灰線和藍線分別代表LISNN和沒有側向作用的SNN在添加了高斯噪聲的測試集上的準確率;黃線和橙線分別代表LISNN和沒有側向作用的SNN在添加了脈沖噪聲的測試集上的準確率。在大部分情況下,LISNN的性能損失都小于沒有側向作用的SNN,尤其是在訓練集中沒有添加噪聲數據的情況下。
圖4 (a)模型在無噪聲的MNIST訓練集上訓練。(b)模型在無噪聲的Fashion MNIST訓練集上訓練
(c)模型在有高斯噪聲的MNIST訓練集上訓練。(d)模型在有高斯噪聲的Fashion MNIST訓練集上訓練
與傳統的神經網絡算法相比,所提算法能取得較好的性能并自然地實現對噪聲干擾的抗性,具有一定理論研究價值和工程實用價值。
機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫療 物聯網 機器人排名 機器人企業 機器人政策 教育機器人 迎賓機器人 機器人開發 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖 |