計算機視覺(CV)和自然語言處理(NLP)早先是兩個較為獨立的研究領域。CV 重點關注如何用計算機代替人眼對目標完成識別、跟蹤、測量等任務,對圖像進行處理;NLP 則研究計算機如何處理、運用自然語言,包括語言生成、問答、對話等任務。近年來,以深度神經網絡為代表的機器學習和模式識別技術被廣泛應用于 CV 和 NLP 領域,取得了目前最先進的效果。
近年來,研究者們試圖將動作控制也引入到「視覺-語言」任務的框架中。吳琦將此類任務命名為 V3A(Vision, Ask, Answer, Act),在給定視覺輸入后,我們希望機器能夠提出問題、回答問題、并通過和人以及機器之間的語言交流執行某些動作。
例如,「Vision+Ask」的任務包含視覺問題生成、根據問題生成查詢、圖像描述等;「Vision+Answer」的任務包含視覺問答、視覺對話等;「Vision+Act」的任務包含指稱表達、視覺對齊(visual grounding)、語言引導的視覺導航、具身視覺問答、具身指稱表達等。
資料獲取 | |
服務機器人在展館迎賓講解 |
|
新聞資訊 | |
== 資訊 == | |
» 人形機器人未來3-5年能夠實現產業化的方 | |
» 導診服務機器人上崗門診大廳 助力醫院智慧 | |
» 山東省青島市政府辦公廳發布《數字青島20 | |
» 關于印發《青海省支持大數據產業發展政策措 | |
» 全屋無主燈智能化規范 | |
» 微波雷達傳感技術室內照明應用規范 | |
» 人工智能研發運營體系(ML0ps)實踐指 | |
» 四驅四轉移動機器人運動模型及應用分析 | |
» 國內細分賽道企業在 AIGC 各應用場景 | |
» 國內科技大廠布局生成式 AI,未來有望借 | |
» AIGC領域相關初創公司及業務場景梳理 | |
» ChatGPT 以 GPT+RLHF 模 | |
» AIGC提升文字 圖片滲透率,視頻 直播 | |
» AI商業化空間前景廣闊應用場景豐富 | |
» AI 內容創作成本大幅降低且耗時更短 優 | |
== 機器人推薦 == | |
服務機器人(迎賓、講解、導診...) |
|
智能消毒機器人 |
|
機器人底盤 |