借助智谱AI多模态视觉模型,我们可以实现对图片中内容进行识别。官方的教程已经比较详细,这里就不再赘述。
其调用方式主要有如下3种方式:
对于SDK需要安装zhipuai包,相关教程可以参考。
这里选择第2种方式,主要是不想安装无关的包。详情可以参考。官方提供了2种方式,直接使用api key或token的方式,对于token需要安装jwt进行加密。
要测试的图片如下:
可以看到是一只拿着iPhone手机的柴犬,坐在一个日式屋子里。
下面是其相关代码如下:- import requests
- api_key = "..."
- api_url = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
- headers = {
- "Authorization":"Bearer {}".format(api_key),
- "Content-Type":"application/json"
- }
- payload = {
- "model":"glm-4v-flash",
- "messages":[
- {"role":"user","content":[
- {"type":"image_url","image_url":{"url":"https://b0.bdstatic.com/ugc/aM36M2yNKeS7CZZXT61Jowf35f1772d2c706998acc7124728b4a5b.jpg"}},
- {"type":"text","text":"请详细描述这张图片,包括元素、元素位置、颜色等"}
- ]}
- ]
- }
- try:
- response = requests.post(api_url,headers=headers,json=payload)
- response.raise_for_status()
- result = response.json()
- if "choices" in result:
- answer = result["choices"][0]["message"]["content"]
- print("AI",answer)
- else:
- print("not response")
- except Exception as e:
- print(e)
复制代码 输出结果如下:- 这张图片展示了一只穿着传统和服的柴犬,它正用前爪拿着一部智能手机自拍。以下是图片中的主要元素及其位置的详细描述:
- 1. **柴犬**:
- - 主体是一只柴犬,位于图片的中心位置。
- - 柴犬身穿一件传统的日本和服,和服的颜色是浅棕色,上面有花卉图案。
- 2. **智能手机**:
- - 柴犬的前爪握着一部智能手机,手机竖直放置,屏幕朝向柴犬的脸部方向。
- - 手机背面有一个明显的苹果标志,表明这是一部iPhone。
- 3. **背景**:
- - 背景中有一些典型的日式装饰元素,如纸拉门(滑动门)和一些悬挂的灯笼。
- - 灯笼发出柔和的光线,为整个场景提供了温暖的照明效果。
- 4. **灯光**:
- - 图片上方有两个悬挂的球形灯泡,散发出温暖的光芒,增加了画面的温馨感。
- 5. **整体氛围**:
- - 整个画面给人一种宁静而优雅的感觉,结合了现代科技与传统文化的元素,形成了一种有趣的对比。
- 这张图片巧妙地将一只狗拟人化,让它看起来像是在进行人类的活动——自拍,从而产生了幽默的效果。同时,通过使用传统的日本服饰和
- 室内装饰,营造了一种文化氛围。
复制代码 这里选择模型是免费的glm-4v-flash,整个流程可以说非常简单,主要是提示词的编写需要花点心思。可以看到其输出还是比较详细的。
需要注意的是免费的glm-4v-flash模型不支持图片的Base64编码,因此只能使用在线URL进行测试。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |