国产精品亚洲YOURPORN,日韩欧美一区二区三区不学,欧美大鸡巴性爱网站,91精品视频成人网

  • <noscript id="4bm7e"><optgroup id="4bm7e"><div id="4bm7e"></div></optgroup></noscript>
    <i id="4bm7e"></i>
    1. 北理工團隊研發(fā)出首個視覺提示遙感多模態(tài)大模型


      ffc59cd064c64a1fb85fe36e3b2518dc.png

      2025年1月,北京理工大學前沿交叉科學院數(shù)據(jù)流體團隊研發(fā)出首個視覺提示遙感多模態(tài)大模型,相關成果以“EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing”為題,發(fā)表在國際頂級期刊《IEEE Transactions on Geoscience and Remote Sensing (TGRS)》。

      EarthMarker為遙感通用大模型EarthGPT的延續(xù),首次實現(xiàn)了遙感領域中基于視覺提示的多模態(tài)大模型,支持多粒度的視覺提示和自然語言聯(lián)合提示,實現(xiàn)了多粒度解譯遙感圖像,并可靈活切換遙感圖像解譯粒度,如圖像、區(qū)域和點粒度。此外,本文提出了首個遙感視覺提示大規(guī)模多模態(tài)數(shù)據(jù)集,包含約365萬多模態(tài){圖像-點-文本}和{圖像-區(qū)域-文本}配對數(shù)據(jù),數(shù)據(jù)集已全部開源。

      EarthMarker可完成復雜視覺推理任務,尤其在遙感目標關系分析任務中性能超越GPT-4V。如圖1所示,EarthMarker展示出驚人的分析能力:其首先總結了視覺提示所標識區(qū)域分別為機場環(huán)境中的不同要素, 接著對相同類別的區(qū)域進行了聚類分析,并推理出這些標注區(qū)域在機場環(huán)境中的不同功能。

      702508c9cc424437bc58f7174751cc97.png

      圖1 EarthMarker完成復雜推理任務:遙感關鍵標關系分析(黃色高亮部分表示錯誤)

      綜合來講,EarthMarker具備多才多藝的能力。如圖2所示,EarthMarker可實現(xiàn)多粒度(如圖像級、區(qū)域級和點級)遙感圖像解譯,擅長于各種視覺任務,包括場景分類、指定對象分類、圖像描述、關系分析等。

      467847c8e7544a1abaee10dc96130c21.png

      圖2 EarthMarker具備多粒度遙感圖像解譯能力,可實現(xiàn)多任務推理

      EarthMarker的總體架構如圖3所示,提出了一種共享視覺編碼機制,以增強視覺提示、整體圖像和文本指令之間的交互理解。此外,文中設計了跨域三階段學習策略,使得EarthMarker具備了空間感知和聯(lián)合指令跟隨能力。該研究貢獻了視覺和語言聯(lián)合提示多模態(tài)理解框架,并構建遙感多模態(tài)聯(lián)合提示指令數(shù)據(jù)集,展示出了極大的應用潛力。

      01ff12f771fc41838105f511adff7741.png

      圖3 EarthMarker總體架構

      EarthMarker更多信息詳見:

      論文鏈接:https://ieeexplore.ieee.org/document/10817639

      開源鏈接:https://github.com/wivizhang/EarthMarker

      同系列模型:

      EarthGPT:國內(nèi)首個遙感大模型,100萬圖文指令數(shù)據(jù)集已全部開源!

      論文鏈接:https://ieeexplore.ieee.org/document/10547418

      開源鏈接:https://github.com/wivizhang/EarthGPT

      Popeye:首個海洋船舶視覺語言模型

      論文鏈接:https://ieeexplore.ieee.org/document/10738390


      分享到: