2020年5月底OpenAI發(fā)布了有史以來最強(qiáng)的NLP預(yù)訓(xùn)練模型GPT-3,最大的GPT-3模型參數(shù)達(dá)到了1750億個(gè)參數(shù)。論文《Language Models are Few-Shot Learners》長達(dá)74頁已發(fā)布在arXiv。
有網(wǎng)友估算最大的GPT-3模型大小大約有700G,這個(gè)大小即使OpenAI公開模型,我們一般的電腦也無法使用。一般需要使用分布式集群才能把這個(gè)模型跑起來。雖然OpenAI沒有公布論文的花費(fèi),不過有網(wǎng)友估計(jì)這篇論文大約花費(fèi)了上千萬美元用于模型訓(xùn)練。
如此驚人的模型在模型的設(shè)計(jì)上和訓(xùn)練上有什么特別之處嗎?答案是沒有。作者表示GPT-3的模型架構(gòu)跟GPT-2是一樣的,只是使用了更多的模型參數(shù)。模型訓(xùn)練也跟GPT-2是一樣的,使用預(yù)測(cè)下一個(gè)詞的方式來訓(xùn)練語言模型,只不過GPT-3訓(xùn)練時(shí)使用了更多的數(shù)據(jù)。
既然這樣,那這只怪獸特別之處是什么?GPT-3論文的核心在于下圖:
商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書館機(jī)器人 導(dǎo)引機(jī)器人 移動(dòng)消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺(tái)機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |