知名百科  > 所屬分類  >  其他科技   

書生通用大模型

“書生通用大模型”是上海人工智能實驗室、商湯科技商湯科技、香港中文大學和上海交通大學于2021年11月17日聯合發布的新一代通用視覺技術系統。該系統旨在系統解決人工智能視覺領域的任務通用化、場景通用化、數據高效化等一系列瓶頸問題。《書生》自2021年發布以來,經過多次升級,從國內首個覆蓋各種視覺任務的通用大型模型,到包含視覺、語言和三個維度的大型模型體系。基于學者模型,上海人工智能實驗室的聯合團隊獲得了CVPR 2023年最佳論文獎,這是近40年來中國學術機構首次簽署論文。

在2023世界人工智能大會全會上,“學者號”升級為“學者號通用大模型系統”,包括“學者號多模態”、“學者號普宇”和“學者號天際線”三個基礎模型,以及首個面向大模型開發應用的全鏈條開源系統。此后,上海人工智能實驗室聯合中國大模型語料庫數據聯盟成員單位,開源發布了“學者萬卷”1.0多模態預訓練語料庫。

目錄

發展歷史 編輯本段

2021年11月17日,上海人工智能實驗室攜手商湯科技商湯科技、香港中文大學、上海交通大學共同發布了新一代通用視覺技術系統“書生通用大模型”,旨在系統解決人工智能視覺領域的任務通用化、場景通用化、數據高效化等一系列瓶頸問題。其技術報告《書生通用大模型:一種新的學習范式塔一般愿景》在arXiv平臺上發布。

2022年9月,在世界人工智能大會(WAIC)科學前沿全體會議期間,上海人工智能實驗室發布了更通用的人工智能模型“學者2.0”。“學者2.0”的通用圖像模型基于動態稀疏卷積網絡,可根據不同的視覺任務自適應調整卷積位置和組合方式,從而靈活、準確地適應不同的視覺任務。“學者2.0”積累了大量以中文為核心的翻譯數據,提出了異步多分支訓練技術,構建了以中文為核心的通用翻譯模型,支持161種語言。

2023年3月14日,商湯科技發布了多模態多任務通用大型模型“書生通用大模型(INTERN)2.5”。“學者2.5”擁有30億個參數,通用可視化開源平臺OpenGVLab已開放“學者2.5”的多模態通用模型。

2023年6月7日,商湯科技、上海AI Lab聯合香港中文大學、復旦大學、上海交通大學發布千億級參數化大語言模型“學者普語”(InternLM)。“學者普宇”擁有1040億個參數,并在包含1.6萬億token的多語言高質量數據集上進行訓練。綜合評價結果顯示,“學者普語”不僅在知識掌握、閱讀理解、數學推理、多語種翻譯等多項測試任務中表現出色,而且綜合能力較強,因此在綜合考試中表現突出,并在多項中國考試中超過ChatGPT,包括中國高考各科目數據集(高考)。

2023年7月6日,在2023世界人工智能大會暨科學前沿全會開幕式上,上海人工智能實驗室攜手商湯科技、香港中文大學、復旦大學、上海交通大學、清華大學發布了全新升級的“學者通用大模型系統”,包括學者多模態、學者普宇、學者天際線三個基礎模型,以及首個面向大模型開發應用的全鏈條開源系統。

2023年8月14日,上海人工智能實驗室宣布與中國大模型語料庫數據聯盟成員單位合作,共同發布“學者萬卷”1.0多模態預訓練語料庫。目前(截至2023年12月18日)分為文本數據集、圖形數據集和視頻數據集三部分。開源數據總量超過2TB,包括5億多文本、2200萬圖文文檔和1000個視頻節目,涵蓋科技、文學、媒體、教育和法律等領域。

基礎原理 編輯本段

通用視覺技術系統INTERN由七個模塊組成,包括三個基礎設施模塊:通用視覺數據系統、通用視覺網絡結構和通用視覺評估基準,以及四個用于區分上游和下游的訓練階段模塊。

在“書生通用大模型”的四個訓練階段中,前三個階段位于技術鏈上游,在模型的表示普適性上下足了功夫;第四級位于下游,可用于解決各種下游任務。

第一階段重點培養“基本能力”,即讓他們廣泛學習基本常識,為后續學習階段打好基礎;第二階段是培養“專家能力”,即多個專家模型學習某一領域的專業知識,使每個專家模型都能掌握該領域的技能并成為專家;第三階段是培養“通用能力”。隨著各種能力的整合,“學者”在所有技能領域都表現出出色的水平,并具有快速學習新技能的能力。

在循序漸進的前三個培訓階段中,“學者”在循序漸進的學習過程中具有高度的通用性。當它進化到第四階段時,系統將具有“遷移能力”。此時,“學者”所學的通用知識可以應用于特定領域的不同任務,如智慧城市、智慧醫療、自動駕駛等。,實現廣泛賦能。

“學者”在圖文跨模態領域的突出表現來自于視覺、語音和多任務建模能力的有效整合,即Intermage-G通用視覺模型、用于文本理解的超大規模語言預訓練模型(LLM)和用于多任務的Uni-epider模型。

其中,Intermage-G通用視覺宏大模型可以基于動態稀疏卷積算子自適應地調整卷積的位置和組合,從而為多功能視覺感知提供了有力的表示。超大型語言模型通過在超大型富文本語料庫上進行預訓練來提供強大而可靠的文本特征。uni-epider通用任務解碼建模通過將不同模式的數據編碼到統一的表示空間中,將不同的任務統一到同一任務范式中,從而可以使用相同的架構和共享的模型參數同時處理各種模式和任務。

此外,《書生》創新性地引入了任務級稀疏激活機制,使其具備高效的多任務協同能力。在主流視覺圖像分類數據集ImageNet上,僅基于公開數據,該模型就達到了90.1%的Top-1準確率。

“學者”模型可以全面覆蓋四個視覺核心任務:分類、對象檢測、語義分割和深度估計。在ImageNet等26個下游場景中,學者模型具有普適性,提高了這些長尾小樣本可視化場景的性能。借助“學者”通用視覺技術系統,行業能夠以極低的下游數據獲取成本快速驗證多個新場景,有利于解鎖和實現人工智能的長尾應用。依托“學者”的特色表達能力,它還實現了多任務學習、小樣本學習和脫離分布檢測的能力。針對各類細分質檢場景,準確率可達99.5%以上,打破了AI技術在工業質檢領域大規模應用的壁壘。

功能特性 編輯本段

書生多式聯運:學者多模態將語言、圖像、視頻等多種模態無縫融合,首次通過自然語言實現視覺任務的定義,具備多模態交互和跨模態生成能力。多模態模型擁有200億個參數,支持350萬個語義標簽。學者多模態有三個核心能力:開放世界理解、跨模態生成和多模態交互。

書生2.5的多模態通用大模型具有AIGC“從文本創建圖片”的能力,可以根據用戶提出的文本創建需求,使用擴散模型生成算法生成高質量、自然逼真的圖像。例如,在“學者2.5”的幫助下,它幫助自動駕駛技術的研發,并通過生成各種真實的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓練數據。,然后訓練自動駕駛系統對拐角情況場景的感知上限。

同時,它可以在自動駕駛和家用機器人等一般場景中輔助完成任務:在自動駕駛和家用機器人等一般場景中,“學者”可以輔助處理各種復雜任務。例如,在自動駕駛場景中,它可以大大提高對場景的感知和理解能力,準確輔助車輛判斷紅綠燈、路標等信息的狀態,為車輛的決策規劃提供有效的信息輸入。例如,在“學者2.5”的幫助下,它幫助自動駕駛技術的研發,并通過生成各種真實的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓練數據。,然后訓練自動駕駛系統對拐角情況場景的感知上限。

在自動駕駛和家用機器人等一般場景中,“書生”可以輔助完成任務:在自動駕駛和家用機器人等一般場景中,“書生”可以輔助處理各種復雜任務。例如,在自動駕駛場景中,它可以大大提高對場景的感知和理解能力,準確輔助車輛判斷紅綠燈、路標等信息的狀態,為車輛的決策規劃提供有效的信息輸入。例如,在“學者2.5”的幫助下,它幫助自動駕駛技術的研發,并通過生成各種真實的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓練數據。,然后訓練自動駕駛系統對拐角情況場景的感知上限。

書圣璞玉:學者普語是國內首個支持8K上下文長度的官方語言模型。學者Pu Yu擁有1040億個參數,并在包含1.8萬億token的高質量語料庫上進行訓練。

學者普宇開發了具有70億個參數的輕量級版本InternLM-7B,以及貫穿數據、預訓練、微調、部署和評估五個環節的全鏈工具系統。在40個評估集的全維評估中,InternLM-7B表現出出色而均衡的性能,創造了7B級模型的新世界紀錄。上海人工智能實驗室教授林達華表示:“通過開源開放,我們希望助力大模型的創新和應用,讓更多領域和行業在大模型變革的浪潮中受益。”

在數據鏈路方面,通過OpenDataLab開放了包含30多種模態的5500個公共數據集,其中以自然語言開放了超過10000億token的高質量語料庫。在預訓練中,面向輕量級語言模型的訓練框架InternLM-Train開源,支持從8張卡到1024張卡的并行訓練,并提出了Hybrid-Zero的獨特技術。在微調階段,全流程微調工具開源,支持SFT和RLHF,還支持訓練模型進行復雜符號計算和工具調用,通過代碼解決復雜的數學計算問題。在部署過程中,部署推理工具鏈LMDeploy是開源的。它支持10億到1000億個參數化語言模型的高效推理,其性能超越了HuggingFace、Deepspeed和vLLM等主流推理框架。在評測階段,開放評測平臺OpenCompass上線,支持大模型一站式全方位評測,包含40多個評測集和30萬個評測主題。通過全自動分布式評測,可以有效復現開源模型的性能。

蜀圣天記:“學者天空”是全球首個城市級NeRF(神經輻射場)三維大規模模型,擁有千億級參數,并在全球首次實現100平方公里城市實景的4K高精度建模和編輯。

同時支持全范圍高精度實時渲染,首次實現城市級NeRF百平方公里全范圍1k分辨率、30幀實時渲染、4k分辨率離線渲染。此外,它還支持城市級編輯、風格轉換等功能,并提供豐富的超越和重建功能,包括城市編輯功能,如移除、構建和旋轉城市建筑,以及調整城市風格變化,如照明和季節。Scholar Sky提供了一個訓練、渲染和交互的一體化系統,并實現了一個覆蓋算法、算子、計算系統和用戶交互的城市級NeRF系統,為訓練、渲染、交互和應用提供了基礎。

為滿足行業實際需求,上海AI Lab開放了學者天空的核心算法和訓練策略,用戶可根據自身應用場景復現大模型能力。核心算法和模型訓練策略是學者天空實現當前能力的關鍵。在本次開源中,學者Skyline首次公開了多分支GridNeRF模型的核心算法及其匹配訓練策略。在特定的場景中,研究人員和從業者可以使用開源內容來重現和實現學者Skyline相關的能力。

舒萬圣卷:學者萬卷語料數據聯盟成員的內容積累和上海ai實驗室的數據處理能力,“學者萬卷”為學術界和產業界提供大規模多模態預訓練語料。

“學者萬卷”1.0的多模態預訓練語料分為文本數據集、圖形數據集和視頻數據集三部分,開源數據總量超過2TB。其中,文本數據是從不同來源(如網頁、百科全書、書籍、專利、教科書、試題等)清洗后的預訓練語料。數據總量超過5億文檔,數據規模超過1TB,涵蓋科技、文學、傳媒、教育、法律等多個領域。圖形數據主要來自公共網頁,經過處理后形成圖形交錯文檔。文檔總數超過2200萬,數據大小超過140GB(不含圖片),涵蓋新聞事件、人物、自然景觀、社會生活等多個領域。視頻數據主要來自中央廣播電視總臺和上海文光集團,包括新聞、電影和其他類型的節目圖像。視頻文件總數超過1000個,數據大小超過900GB,涵蓋軍事、文學、體育、自然、真實世界、知識、視頻藝術、媒體、食品、歷史、科教等。

交互特點  編輯本段

跨模態生成:通過聯合學習,學者多模態可以實現模式之間的相互轉換。研究人員試圖讓學者多模根據張大千的《湖山清夏圖》創作一首七言絕句。驗證結果表明,經過聯合學習,學者多模態具有良好的從圖像到文本的跨模態生成能力,在中國具有深厚的文化積淀。在生成文本的同時,書生多模也給出了創作思路:根據畫面,確定描繪美麗的自然風光畫面;從畫面中尋找能表達詩人思想感情的元素,如畫中的巍峨山峰、云霧繚繞、蒼松蒼松;根據元素構思一首詩;最后根據詩的節奏和格律加以完善。學者多模還特別描述了第四句的靈感來源:他借用了唐代詩人韋莊的名句“春水比天亮,畫船聽雨眠”。

多模態交互:學者多模態繼承了上一代學者在常規預定義視覺任務中的表現,但也創新了人機交互的方式。用戶可以通過光標點擊、聊天等方式準確傳達指令。Scholar multimodal降低了人工智能任務的門檻,并使人工智能成為可供數千人使用的生產工具。多模態理解、生成和交互能力正成為大模型新一輪進化的重要方向。

書圣璞玉:上下文窗口的長度很長:上下文窗口的長度從2K增加到8K,具有理解長輸入、擴展復雜推理和進行長時間多輪對話的能力。

強大的多語言和結構化表達能力:新模型支持20多種語言,還可以通過表格和圖表總結和呈現復雜信息。

多維度能力全面提升:在42個主流評測集上性能均有提升。

書生通用大模型書生通用大模型

數學邏輯能力強:提高數值計算、函數運算、方程求解等數學能力。2023年高考數學選擇題中,正確率提高了70%以上。

強大的安全性和對準能力:它可以更可靠地遵循人類指令,安全性也明顯提高。

蜀圣天記:從單一渲染到使用GirdNeRF的自由擴展:

NeRF是一種新的三維重建和表征技術,可以用少量數據實現三維重建,廣泛應用于對象級三維建模。為實現城市級大規模實景建模,2021年12月,上海AI Lab首次提出CityNeRF,將不同高度的衛星和近景影像有效融合,率先將NeRF建模技術從物體級擴展到城市級。通過采集單個建筑物的飛行圖像,可以實現一定規模的真實場景渲染和重建。在CityNeRF的基礎上,上海AI實驗室進一步開發了第二代CityNeRF技術,即GridNeRF。

基于網格表示和NeRF表示相結合的GridNeRF支持模型的多層次擴展,為大規模城市級建模奠定了技術基礎。第二代CityNeRF從捕捉單個建筑物擴展到收集整個區域的細節。與第一代CityNeRF技術只能在單個建筑物周圍進行渲染不同,最新技術可以實現在整個區域內上下飛行,平移和穿梭,建模效率更高。

真實三維建模的新范例:基于“算法+計算系統+算子”的系統化解決思路,并通過其采用的漸進渲染、并行訓練和多分支策略,在實際應用中,Scholar Sky已成為集訓練、渲染和交互于一體的系統,開創了城市級真實場景三維建模的新范式。

雙枝模型結構,捕捉場景細節;GirdNeRF由兩個分支組成,其中Grid分支將場景分解為地面特征平面和垂直特征軸,即將城市場景分解為更小的粒度,然后通過NeRF分支使用輕量級MLP網絡重構訓練視角,生成高質量的渲染圖像。同時,通過一種化整為零的策略,采用漸進渲染的方式更好地支持大規模場景渲染,為無限城市場景的重構提供了可能。

合理化跳轉空白:Scholar Sky可以在算法的光線收集階段準確預測對實際重建無效的采樣點,從而“合理化跳躍”。Scholar Sky擁有數千億個參數,preamble的采樣數量和計算效率對模型的訓練和渲染性能至關重要。而且算法模型會提前終止不必要的渲染,不僅可以更好地減少渲染計算量,提高計算效率,還可以將前導的采樣數量減少90%以上,降低計算復雜度和渲染成本。

平行培訓和多分支戰略;在訓練策略方面,學者天璣通過PlaneParallel和ChannelParallel模型的并行訓練,將訓練任務分成多個部分,并在多臺計算機上同時完成,提高了訓練速度。同時設計了多分支模型和相應的BranchParallel訓練策略,將模型分成多個部分,每個部分負責處理圖像的一部分,以使模型適應不同的場景和尺度。這些策略有助于減少訓練時間和資源需求,使模型更好地理解和編輯城市場景,并將渲染效率提高1000倍。

舒萬圣卷:基于語料庫數據聯盟構建的語料庫,上海AI Lab對部分數據進行了細粒度清洗、去重和對齊值處理,形成了多模態預訓練語料庫“學者萬卷”1.0,具有多元融合、精細加工、值對齊、易用高效四大特點。

在多元融合方面,“學者萬卷”1.0包含文本、圖形、視頻等多模態數據,涵蓋科技、文學、傳媒、教育、法律等多個領域,在訓練和提升模型的知識內容、邏輯推理和泛化能力方面效果顯著。

在精細化處理方面:學者萬卷1.0經歷了語言篩選、文本抽取、格式標準化、基于規則和模型的數據過濾和清洗、多尺度去重、數據質量評估等多個精細化數據處理步驟。,因此可以更好地滿足后續模型預訓練的需要。

在價值對齊方面:在“學者萬卷”1.0的建設過程中,研究人員重點關注內容與中國主流價值觀之間的對齊,并通過算法和人工評估相結合的方式提高語料庫的純度。

在易用性和效率方面,研究人員在“學者萬卷”1.0中采用了統一的格式,并提供了詳細的領域描述和工具指導,使其既易用又高效,可以快速應用于語言和多模態模型等大型模型的預訓練。

附件列表


0

詞條內容僅供參考,如果您需要解決具體問題
(尤其在法律、醫學等領域),建議您咨詢相關領域專業人士。

如果您認為本詞條還有待完善,請 編輯

上一篇 虛擬地址    下一篇 OFO小黃車

同義詞

暫無同義詞
主站蜘蛛池模板: 欧美zoozzooz性欧美| 欧美大bbbxxx视频| 污视频网站在线| 在线观看日韩视频| 伊人久久久久久久久久| t66y最新地址一地址二地址三| 精品国产人成亚洲区| 成人免费夜片在线观看| 向日葵app下载视频免费| 一级黄色大毛片| 精品97国产免费人成视频| 奶交性视频欧美| 亚洲综合日韩在线亚洲欧美专区| 99爱在线精品免费观看| 污网站在线观看| 国产精品夜间视频香蕉| 亚洲亚洲人成综合网络| 国产探花在线视频| 日本成人在线看| 国产hs免费高清在线观看| 中文字幕不卡在线播放| 秋霞免费手机理论视频在线观看| 女人18毛片水真多免费播放| 人妻av一区二区三区精品| 91麻豆国产级在线| 欧美国产一区二区三区激情无套| 国产狂喷潮在线观看在线观看| 久久精品日日躁夜夜躁欧美| 裸体跳舞XXXX裸体跳舞| 巨胸喷奶水视频www免费视频| 人妖系列免费网站观看| 3d动漫精品成人一区二区三| 欧美一级爽快片淫片高清在线观看| 国产成人无码一区二区三区| 久久99精品免费视频| 皇后羞辱打开双腿调教h| 国产露出调教91| 亚洲AV永久无码精品网站在线观看 | 热热色原原网站 | 欧美在线一级精品| 国产成人av在线影院|