2003年,身在加拿大的科學家約書亞·本吉奧(Yoshua Bengio)提出了一種新的算法理念,他將這稱之為神經網絡語言模型——Nerual Network Language Models。整整十年后的2013年,Google提出了基于神經網絡的語言模型Word2Vec,這也在隨后作為很多自然語言處理領域的重要初始化輸入,得到很大的應用。
又過了整整十年,預訓練模型已經獲得了快速發展,從而展現出了巨大的技術魅力。目前,人工智能正在從文本、語音、視覺等單模態智能,向著多種模態融合的通用人工智能方向發展。多模態統一建模,目的是增強模型的跨模態語義對齊能力,打通各個模態之間的關系,使得模型逐步標準化。
目前,技術的突出進展來自CLIP(匹配圖像和文本)和BEiT-3(通用多模態基礎模型)?;诙囝I域知識構建統一、跨場景、多任務的多模態基礎模型,已成為人工智能重點方向。未來,大模型作為基礎設施,將實現圖像、文本、音頻統一知識表示,并朝著能推理、能回答問題、能總結、做創作的認知智能方向演進。
趨勢解讀
基于深度學習的多模態預訓練是認知智能快速發展的重要推動力。構建多場景、多任務的預訓練大模型將加速模型標準化進程,為人工智能模型成為基礎設施創造條件。深度學習模型的不斷完善、互聯網海量真實數據的積累和生成式預訓練的廣泛應用,使得人工智能模型在自然語言理解、語音處理、計算機視覺等領域的交叉應用取得顯著進展。
2022年,技術上的突出進展來自于BEiT-3多模態基礎模型,該模型在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。BEiT-3通過統一的模型框架和骨干網絡(backbone)建模,能夠更加輕松地完成多模態編碼和處理不同的下游任務。另一方面,CLIP(Contrastive Language-Image Pre-training)的廣泛應用也促進了多模態模型的技術發展。CLIP作為基于對比學習的預訓練模型,負責從文本特征映射到圖像特征,能夠指導GAN或擴散模型(diffusion model)生成圖像。在文生圖領域, Stable Diffusion也使用了CLIP,它能夠通過文本提示調整模型,并借助擴散模型改善圖像質量。
與此同時,開源極大促進了多模態的融合和預訓練模型的發展。通過開源來降低模型使用門檻,將大模型從一種新興的AI技術轉變為穩健的基礎設施,已成為許多大模型開發者的共識。
多模態預訓練模型的發展將重塑人工智能商業模式,并為人們的生產生活方式帶來積極影響。對個人而言,類似CLIP的多模態模型,將使更多非技術出身的人能夠表達自己的創造力,無需再借助工具和編程專業能力。對企業來說,多模態預訓練模型將成為企業生產效率提升的關鍵。商業模式上,具備大數據、算力資源和模型開發能力的科技企業,將會成為模型服務的提供方,幫助企業將基礎模型的能力與生產流程融合起來,實現效率和成本最優。
認知智能的發展,不會局限在文本或圖像等單一的模態上。未來,如何針對不同模態建立更高效的模型架構和統一的骨干網絡,使得大模型能夠廣泛地支持各種下游任務將成為主要挑戰。在此基礎上,更多的挑戰來自于挖掘不同模態(如圖像-文本,文本-自然語言,視頻-文本)數據間的相關信息,并巧妙設計預訓練任務,讓模型更好捕捉不同模態信息之間的關聯。
語音、視覺和多模態預訓練模型將加速人工智能向通用基礎模型方向演進。在這個過程中,深度學習與強化學習相互促進發展,融合大量行業知識,模型將具備在不斷變化的環境中快速適應的靈活性。建立統一的、跨場景、多任務的多模態基礎模型會成為人工智能發展的主流趨勢之一。隨著技術的不斷成熟,大模型在開發成本、易用性、開發周期、性能上會更具優勢,給產品化和商業化帶來更多可能性。
(達摩院)