【資料圖】
編程客棧()4月23日 消息:繼Meta的「分割一切」之后,又一個顛覆CV的模型來了!近日,威斯康辛麥迪遜、微軟、港科大等機構(gòu)的研究人員提出SEEphpM模型,通過不同的視覺提示和語言提示,一鍵分割圖像、視頻。
論文地址:https://arxiv.org/pdf/2304.06718.pdf
SEEM模型是一種新型的分割模型,這一模型可以在沒有提示的開放集中執(zhí)行任何分割任務(wù),比如語義分割、實例分割和全景分割。
此外,它還支持任意組合的視覺,文本和引用區(qū)域提示,允許多功能和交互式的引用分割。javascript
在模型架構(gòu)上,SEEM采用了常見的編碼器-解碼器架構(gòu)。其獨特的地方在于具有查詢和提示之間復(fù)雜的交互。
SEEM模型可以通過多模態(tài)提示實現(xiàn)一次性分割所有地方的一切,包括圖像和視頻。這個模型的出現(xiàn)將會對計算機視覺領(lǐng)php域產(chǎn)生深遠的影響,也將會對未來的技術(shù)發(fā)展方向產(chǎn)生指導(dǎo)作用。
Copyright @ 2015-2022 華中晚報網(wǎng)版權(quán)所有 備案號: 京ICP備12018864號-26 聯(lián)系郵箱:2 913 236 @qq.com