找回密码
 立即注册
首页 业界区 安全 智谱AI视觉模型小白调用教程

智谱AI视觉模型小白调用教程

翁真如 6 天前
借助智谱AI多模态视觉模型,我们可以实现对图片中内容进行识别。官方的教程已经比较详细,这里就不再赘述。
其调用方式主要有如下3种方式:

  • 使用SDK
  • 使用HTTP调用
  • 使用第三方框架
对于SDK需要安装zhipuai包,相关教程可以参考。
这里选择第2种方式,主要是不想安装无关的包。详情可以参考。官方提供了2种方式,直接使用api key或token的方式,对于token需要安装jwt进行加密。
要测试的图片如下:
1.png

可以看到是一只拿着iPhone手机的柴犬,坐在一个日式屋子里。
下面是其相关代码如下:
  1. import requests
  2. api_key = "..."
  3. api_url = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
  4. headers = {
  5.         "Authorization":"Bearer {}".format(api_key),
  6.         "Content-Type":"application/json"
  7. }
  8. payload = {
  9.   "model":"glm-4v-flash",
  10.   "messages":[
  11.     {"role":"user","content":[
  12.       {"type":"image_url","image_url":{"url":"https://b0.bdstatic.com/ugc/aM36M2yNKeS7CZZXT61Jowf35f1772d2c706998acc7124728b4a5b.jpg"}},
  13.       {"type":"text","text":"请详细描述这张图片,包括元素、元素位置、颜色等"}
  14.     ]}
  15.   ]
  16. }
  17. try:
  18.         response = requests.post(api_url,headers=headers,json=payload)
  19.         response.raise_for_status()
  20.         result = response.json()
  21.         if "choices" in result:
  22.                 answer = result["choices"][0]["message"]["content"]
  23.                 print("AI",answer)
  24.         else:
  25.                 print("not response")
  26. except Exception as e:
  27.         print(e)
复制代码
输出结果如下:
  1. 这张图片展示了一只穿着传统和服的柴犬,它正用前爪拿着一部智能手机自拍。以下是图片中的主要元素及其位置的详细描述:
  2. 1. **柴犬**:
  3.    - 主体是一只柴犬,位于图片的中心位置。
  4.    - 柴犬身穿一件传统的日本和服,和服的颜色是浅棕色,上面有花卉图案。
  5. 2. **智能手机**:
  6.    - 柴犬的前爪握着一部智能手机,手机竖直放置,屏幕朝向柴犬的脸部方向。
  7.    - 手机背面有一个明显的苹果标志,表明这是一部iPhone。
  8. 3. **背景**:
  9.    - 背景中有一些典型的日式装饰元素,如纸拉门(滑动门)和一些悬挂的灯笼。
  10.    - 灯笼发出柔和的光线,为整个场景提供了温暖的照明效果。
  11. 4. **灯光**:
  12.    - 图片上方有两个悬挂的球形灯泡,散发出温暖的光芒,增加了画面的温馨感。
  13. 5. **整体氛围**:
  14.    - 整个画面给人一种宁静而优雅的感觉,结合了现代科技与传统文化的元素,形成了一种有趣的对比。
  15. 这张图片巧妙地将一只狗拟人化,让它看起来像是在进行人类的活动——自拍,从而产生了幽默的效果。同时,通过使用传统的日本服饰和
  16. 室内装饰,营造了一种文化氛围。
复制代码
这里选择模型是免费的glm-4v-flash,整个流程可以说非常简单,主要是提示词的编写需要花点心思。可以看到其输出还是比较详细的。
需要注意的是免费的glm-4v-flash模型不支持图片的Base64编码,因此只能使用在线URL进行测试。

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册