【AI时刻】GPT长眼睛了！史诗级功能悄咪咪发布！— OpenAI发布GPT-4V多模态模型

admin 显卡

2023-12-15 0 394

　　3月，在GPT-4的发布之初，OpenAI就表示将在本次的迭代中加入多模态整合，即不仅仅只通过文字输入进行识别分析，还可以通过语音输入、图片输入甚至视频输入进行信息的获取、识别、分析、输出。这项功能让不少用户深深期待，毕竟文字是抽象的，是需要一定的整合能力的，而图片一拍即合，简单自然，不用费劲儿地去描绘眼前的事物。

AI生成

　　我也曾写过一篇文章来描述GPT4的视觉识别系统，但当时其仅在一款叫做“Be My Eyes”的应用上应用，来帮助视觉障碍朋友进行一些基础的物品识别。

【Ai时刻】是谁独享GPT-4的视觉识别系统？让Ai成为视觉障碍者的眼睛

　　在经历法规限制、算力紧张、AI伦理大讨论以及各新进竞争者围追堵截后，北京时间9月26日凌晨，OpenAI悄咪咪发布了其GPT-4V模型，即多模态模型，其中最引人注目的还是视频识别功能，接下来就让我们看看其工作时是什么样的吧。

原视频地址点击图片查看

　　视频中的用户使用官方的ChatGPT iOS客户端进行演示。首先拍摄上传了一张自行车的照片，并询问GPT，如何帮助他将车座放下来。

　　GPT回答让用户找到快速释放杆或螺栓，打开它们，向下滑动座椅到合适高度，然后拧紧固定。并给出了经典的AI分点回答。

　　用户拍照确认了GPT所述的车座释放螺栓位置，GPT给出了肯定。

　　但最让我感到意外的是，其在结尾处，GPT在结尾处询问用户是否有工具，并拍照展示给它，它可以告诉用户用哪个！

　　用户将工具和清单拍给GPT后，GPT给出了肯定，并引导用户使用“工具箱的左边”的标记为DEWALT的4mm六角板子来松开阀座环上的螺栓并调整阀座高度。之后记得把它拧紧。

　　如果前面的自行车识别和车座调节识别都还是开胃菜，这一手“使用”工具真的把我嗅到了，展现出了GPT非常强大的物品识别、认知、分析能力。

　　今晨OpenAI还发表了一篇文章来解释、总结这一能力：OpenAI已经发布了一份详细的19页报告，关于其最新的多模态模型GPT-4V(ision)，这一模型结合了其前身ChatGPT-4的语音和图像更新。该报告提供了大量关于模型开发和能力的信息。

　　GPT-4V是OpenAI于2022年完成训练，并计划在2023年3月开始提供早期访问的新型AI模型。GPT-4V的训练采用了与GPT-4类似的方式，先利用大规模标注数据进行无监督预训练，再通过强化学习的人机交互进行针对性调优。

AI生成

　　这种训练方式源自OpenAI与视障支援组织“Be My Eyes”的合作项目。OpenAI将名为“Be My AI”的视觉描述功能集成到“Be My Eyes”的手机App中，让盲人用户拍照后获得图像内容的语音描述。这种人机协作生成的多模态训练数据，极大地丰富了GPT-4V对真实场景的理解能力。