DeepSeek 近日話題度正高,最近又宣布將推出全新開源視覺多模態模型「Janus-Pro-7B」,Janus-Pro-7B 能夠閱讀使用者提供的圖片並根據問題給出相應的回答,Janus-Pro-7B 在圖片生成方面的表現也相當不錯。
DeepSeek 推出自家開源多模態模型 Janus-Pro-7B:圖片生成和文字理解都達到新境界
DeepSeek 於昨日公開有關自家全新開源視覺多模態模型 Janus-Pro-7B 的消息,根據 DeepSeek 提供的資訊,Janus-Pro 是一種自回歸框架,將視覺編碼過程拆分為多個獨立路徑,解決先前框架中的侷限性。
單是看上面的敘述可能會覺得很抽象,因此我們來看看 DeepSeek 提供的 Janus-Pro 使用範例。Janus-Pro 在處理圖片內容描述、辨識地標位置、圖片文字辨識、回答常識等情境時都表現出強大的理解能力。
除此之外 Janus-Pro-7B 對於生成圖片也是有一番改進,與原先的 Janus 模型相比,Janus-Pro 對於短 Prompt 的理解更加優秀,生成出的圖片細節和品質都更勝一籌。Janus-Pro 也能理解充滿想像力和創意的 Prompt 並生成邏輯合理且連貫的圖片。
現在 Janus-Pro-7B 已經在 GitHub 上開源,有興趣的朋友可以前往 GitHub 或觀看下方影片瞭解如何自己安裝 Janus-Pro-7B: