<del id="h717l"></del>

<address id="h717l"></address>
<pre id="h717l"><ruby id="h717l"><b id="h717l"></b></ruby></pre>

        <pre id="h717l"><ruby id="h717l"></ruby></pre>

        <p id="h717l"><ruby id="h717l"><b id="h717l"></b></ruby></p>
        <pre id="h717l"></pre>
        <track id="h717l"></track>

            <big id="h717l"></big>
            物聯網

            趨勢洞見 | 多模態預訓練大模型

            2025China.cn   2023年01月18日

            2003年,身在加拿大的科學家約書亞·本吉奧(Yoshua Bengio)提出了一種新的算法理念,他將這稱之為神經網絡語言模型——Nerual Network Language Models。整整十年后的2013年,Google提出了基于神經網絡的語言模型Word2Vec,這也在隨后作為很多自然語言處理領域的重要初始化輸入,得到很大的應用。

            又過了整整十年,預訓練模型已經獲得了快速發展,從而展現出了巨大的技術魅力。目前,人工智能正在從文本、語音、視覺等單模態智能,向著多種模態融合的通用人工智能方向發展。多模態統一建模,目的是增強模型的跨模態語義對齊能力,打通各個模態之間的關系,使得模型逐步標準化。

            目前,技術的突出進展來自CLIP(匹配圖像和文本)和BEiT-3(通用多模態基礎模型)?;诙囝I域知識構建統一、跨場景、多任務的多模態基礎模型,已成為人工智能重點方向。未來,大模型作為基礎設施,將實現圖像、文本、音頻統一知識表示,并朝著能推理、能回答問題、能總結、做創作的認知智能方向演進。

            趨勢解讀

            基于深度學習的多模態預訓練是認知智能快速發展的重要推動力。構建多場景、多任務的預訓練大模型將加速模型標準化進程,為人工智能模型成為基礎設施創造條件。深度學習模型的不斷完善、互聯網海量真實數據的積累和生成式預訓練的廣泛應用,使得人工智能模型在自然語言理解、語音處理、計算機視覺等領域的交叉應用取得顯著進展。

            2022年,技術上的突出進展來自于BEiT-3多模態基礎模型,該模型在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。BEiT-3通過統一的模型框架和骨干網絡(backbone)建模,能夠更加輕松地完成多模態編碼和處理不同的下游任務。另一方面,CLIP(Contrastive Language-Image Pre-training)的廣泛應用也促進了多模態模型的技術發展。CLIP作為基于對比學習的預訓練模型,負責從文本特征映射到圖像特征,能夠指導GAN或擴散模型(diffusion model)生成圖像。在文生圖領域, Stable Diffusion也使用了CLIP,它能夠通過文本提示調整模型,并借助擴散模型改善圖像質量。

            與此同時,開源極大促進了多模態的融合和預訓練模型的發展。通過開源來降低模型使用門檻,將大模型從一種新興的AI技術轉變為穩健的基礎設施,已成為許多大模型開發者的共識。

            多模態預訓練模型的發展將重塑人工智能商業模式,并為人們的生產生活方式帶來積極影響。對個人而言,類似CLIP的多模態模型,將使更多非技術出身的人能夠表達自己的創造力,無需再借助工具和編程專業能力。對企業來說,多模態預訓練模型將成為企業生產效率提升的關鍵。商業模式上,具備大數據、算力資源和模型開發能力的科技企業,將會成為模型服務的提供方,幫助企業將基礎模型的能力與生產流程融合起來,實現效率和成本最優。

            認知智能的發展,不會局限在文本或圖像等單一的模態上。未來,如何針對不同模態建立更高效的模型架構和統一的骨干網絡,使得大模型能夠廣泛地支持各種下游任務將成為主要挑戰。在此基礎上,更多的挑戰來自于挖掘不同模態(如圖像-文本,文本-自然語言,視頻-文本)數據間的相關信息,并巧妙設計預訓練任務,讓模型更好捕捉不同模態信息之間的關聯。

            語音、視覺和多模態預訓練模型將加速人工智能向通用基礎模型方向演進。在這個過程中,深度學習與強化學習相互促進發展,融合大量行業知識,模型將具備在不斷變化的環境中快速適應的靈活性。建立統一的、跨場景、多任務的多模態基礎模型會成為人工智能發展的主流趨勢之一。隨著技術的不斷成熟,大模型在開發成本、易用性、開發周期、性能上會更具優勢,給產品化和商業化帶來更多可能性。

            (達摩院)

            標簽:達摩院 多模態預訓練大模型 我要反饋 
            進博會專題
            西克
            專題報道
            【產品推薦】Basler blaze ToF相機850 nm版
            【產品推薦】Basler blaze ToF相機850 nm版

            在散射光下具有更穩定的表現,提升在散射光下的穩定性可在室內實現更精確的3D成像:憑借低功耗和降低的發熱量,新的blaze

            【產品推薦】西克全新磁致伸縮線性編碼器DAX
            【產品推薦】西克全新磁致伸縮線性編碼器DAX

            DAX提供多種外形結構,不僅適用于液壓缸中活塞桿的定位,還能勝任各類工業設備中的外置式線性位置測量;另配有豐富的定位磁鐵

            【產品推薦】??禉C器人IDH3013系列手持讀碼器
            【產品推薦】??禉C器人IDH3013系列手持讀碼器

            ??禉C器人推出的IDH3013系列手持讀碼器,分辨率1280*1024。產品整體具有良好的易用性,具備讀取標記良好DPM

            公交车强奷蹂躏屈辱系列小说
            <del id="h717l"></del>

            <address id="h717l"></address>
            <pre id="h717l"><ruby id="h717l"><b id="h717l"></b></ruby></pre>

                  <pre id="h717l"><ruby id="h717l"></ruby></pre>

                  <p id="h717l"><ruby id="h717l"><b id="h717l"></b></ruby></p>
                  <pre id="h717l"></pre>
                  <track id="h717l"></track>

                      <big id="h717l"></big>