【AI时刻】GPT长眼睛了!史诗级功能悄咪咪发布!— OpenAI发布GPT-4V多模态模型

2023-12-15 0 394

  3月,在GPT-4的发布之初,OpenAI就表示将在本次的迭代中加入多模态整合,即不仅仅只通过文字输入进行识别分析,还可以通过语音输入、图片输入甚至视频输入进行信息的获取、识别、分析、输出。这项功能让不少用户深深期待,毕竟文字是抽象的,是需要一定的整合能力的,而图片一拍即合,简单自然,不用费劲儿地去描绘眼前的事物。

AI生成

  我也曾写过一篇文章来描述GPT4的视觉识别系统,但当时其仅在一款叫做“Be My Eyes”的应用上应用,来帮助视觉障碍朋友进行一些基础的物品识别。

【Ai时刻】是谁独享GPT-4的视觉识别系统?让Ai成为视觉障碍者的眼睛

  在经历法规限制、算力紧张、AI伦理大讨论以及各新进竞争者围追堵截后,北京时间9月26日凌晨,OpenAI悄咪咪发布了其GPT-4V模型,即多模态模型,其中最引人注目的还是视频识别功能,接下来就让我们看看其工作时是什么样的吧。

原视频地址点击图片查看

  视频中的用户使用官方的ChatGPT iOS客户端进行演示。首先拍摄上传了一张自行车的照片,并询问GPT,如何帮助他将车座放下来。

  GPT回答让用户找到快速释放杆或螺栓,打开它们,向下滑动座椅到合适高度,然后拧紧固定。并给出了经典的AI分点回答。

  用户拍照确认了GPT所述的车座释放螺栓位置,GPT给出了肯定。

  但最让我感到意外的是,其在结尾处,GPT在结尾处询问用户是否有工具,并拍照展示给它,它可以告诉用户用哪个!

  用户将工具和清单拍给GPT后,GPT给出了肯定,并引导用户使用“工具箱的左边”的标记为DEWALT的4mm六角板子来松开阀座环上的螺栓并调整阀座高度。之后记得把它拧紧。

  如果前面的自行车识别和车座调节识别都还是开胃菜,这一手“使用”工具真的把我嗅到了,展现出了GPT非常强大的物品识别、认知、分析能力。

  今晨OpenAI还发表了一篇文章来解释、总结这一能力:OpenAI已经发布了一份详细的19页报告,关于其最新的多模态模型GPT-4V(ision),这一模型结合了其前身ChatGPT-4的语音和图像更新。该报告提供了大量关于模型开发和能力的信息。

  GPT-4V是OpenAI于2022年完成训练,并计划在2023年3月开始提供早期访问的新型AI模型。GPT-4V的训练采用了与GPT-4类似的方式,先利用大规模标注数据进行无监督预训练,再通过强化学习的人机交互进行针对性调优。

AI生成

  这种训练方式源自OpenAI与视障支援组织“Be My Eyes”的合作项目。OpenAI将名为“Be My AI”的视觉描述功能集成到“Be My Eyes”的手机App中,让盲人用户拍照后获得图像内容的语音描述。这种人机协作生成的多模态训练数据,极大地丰富了GPT-4V对真实场景的理解能力。

  GPT-4V的图像理解能力突出,在地标识别、文字识别、人脸检测等任务上展现出较强的水平。具体来说,GPT-4V具备以下主要特征:

-物体检测 – 可以定位图像中的各类日常物体,如汽车、动物、家具等,并可以判断数量和方位

-文本识别 – 具备字符识别能力,可以检测图中的字体和手写文字,并转录成文本

-人脸识别 – 可判断脸部的位置、性别、年龄、种族等面部特征

-验证码识别 – 通过视觉推理可以破解包含文字和图片的验证码

-地理定位 – 可以分析风景图像中出现的地标建筑,判断拍摄地的具体城市或地点。

AI生成

  尽管能力强大,GPT-4V在处理复杂图像时仍存在局限。它在理解图像中的空间关系、处理重叠物体、分离前景背景等方面可能不太准确,也难以捕捉细微的文本和详情。

  此外,GPT-4V的决策过程不透明,结果的可解释性有限。考虑到其破解验证码的能力,OpenAI也在评估其对互联网安全的潜在影响。综上所述,GPT-4V代表了多模态AI的重要进展,同时还面临诸多挑战。OpenAI表示会积极与研究团体合作,推动GPT-4V向着更可控、可解释和负责任的方向发展。

  据悉该功能将于2周以内逐渐面向用户开放,但前提是能正常使用ChatGPT App。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

悠久资源 显卡 【AI时刻】GPT长眼睛了!史诗级功能悄咪咪发布!— OpenAI发布GPT-4V多模态模型 https://www.u-9.cn/diy/graphicscard/167583.html

常见问题

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务