开源多模态模型MiniGPT-4,给你从未体验过的图像对话体验,让我们沉浸在与图片的对话中!

在过去的一段时间里,许多开发者已经拥有了 ChatGPT-4 的 API 权限,并且也有很多人提前体验了 ChatGPT-4 Plus。大家都对 ChatGPT-4 强大的逻辑分析和统筹规划能力印象深刻,无论是在论文创作、编写代码还是数据分析方面都表现出色。

不过,我们也不要忘记 ChatGPT-4 作为一个多模态大语言模型的特点,它不仅能够生成文本内容,还能理解图像输入内容,让用户直接与图片进行对话。

OpenAI 曾经向外界演示了 ChatGPT-4 如何通过手绘草图,直接生成网站,让许多观众惊叹不已。此外,ChatGPT-4 还能理解图像中的笑点,识别数学题目并给出解答步骤。

尽管这些功能非常强大,但可惜的是,图像对话功能至今仍未对外开放,除了与 OpenAI 有合作关系的一些企业,大部分人只能体验 ChatGPT-4 的文本对话能力。

然而,一个名为 MiniGPT-4 的项目现在能够让我们实现这个梦想。该项目的目标是将来自预训练视觉编码器的视觉信息与先进的大型语言模型对齐。该项目使用 Vicuna 作为语言解码器,在视觉感知方面使用了与 BLIP-2 相同的视觉编码器,并且语言和视觉模型都是开源的。

项目作者认为,ChatGPT-4 所具备的多模态能力在以前的视觉-语言模型中很少见,这主要是因为 ChatGPT-4 利用了更先进的大型语言模型。为了验证这一想法,团队成员将一个冻结的视觉编码器与一个冻结的 Vicuna 进行对齐,从而创建了 MiniGPT-4。

在研究中,他们发现 MiniGPT-4 具有许多类似于 ChatGPT-4 的能力,例如详细的图像描述生成、从手写草稿创建网站等。而且,MiniGPT-4 还可以根据图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。


GitHub:https://github.com/Vision-CAIR/MiniGPT-4

在线体验:https://miniChatGPT -4.github.io/

视频演示教学:https://youtu.be/-p_6puM_qGY

※ 【自用推荐】Hysteria2协议机场 6.8元/月:点击进入

※ 【自用推荐】IPLC专线机场 8.8元/月:点击进入

※ 【自用推荐】不限时长中转机场 15元/月:点击进入

※ 【自用推荐】超快IPLC专线机场 20元/月:点击进入
※ 【永久免费VPN】可无限白嫖全平台VPN软件:点击进入

※ 【注册即送365天】可无限白嫖全平台VPN软件:点击进入

※ 【9折优惠码:ONEZYH】奈菲/迪士尼/ChatGPT会员:点击进入

※ 【95折优惠码:ONEZYH】苹果ID/GV/小火箭/圈X账号:点击进入

后一页 前一页