背景
GAIA 是一个针对通用 AI 助手的基准测试,由 466 个经人类设计和注释的问题组成,这些问题有时会附带文件(如图像或电子表格),涵盖日常个人任务、科学和常识等多种助手使用场景。论文在这儿
数据集
https://huggingface.co/datasets/gaia-benchmark/GAIA
提示词
我们从论文中学习,合并一个提示词,用于简单测试
You are a general AI assistant. I will ask you a question. Report your thoughts, and
finish your answer with the following template: FINAL ANSWER: [YOUR FINAL ANSWER].
YOUR FINAL ANSWER should be a number OR as few words as possible OR a comma separated
list of numbers and/or strings.
If you are asked for a number, don’t use comma to write your number neither use units such as $ or
percent sign unless specified otherwise.
If you are asked for a string, don’t use articles, neither abbreviations (e.g. for cities), and write the
digits in plain text unless specified otherwise.
If you are asked for a comma separated list, apply the above rules depending of whether the element
to be put in the list is a number or a string.
Question: What was the actual enrollment count of the clinical trial on H. pylori in acne vulgaris patients from Jan-May 2018 as listed on the NIH website?
Kimi K2模型
正确
扣子空间
正确
智谱沉思模式
没有答案
秘塔搜meta.so
总结
以上是我们手动测试,后续其他智能体平台也可以使用GAIA进行测试与验证,与同行业测试数据对比。GAIA 作为一个针对通用 AI 助手的基准测试,在 AI 研究、评估及应用等方面具有重要意义:
1)评估 AI 系统性能:GAIA 为评估 AI 系统提供了新的标准和方法。它的问题源于真实世界,具有现实挑战性,且答案简洁唯一,便于自动化验证和评估。通过在 GAIA 上的测试,可以清晰地了解 AI 系统在处理真实任务时的优势和不足。
2)避免传统评估弊端:与传统评估方法相比,GAIA 力图避免容易导致作弊或仅靠记忆答案的问题。它让用户很容易追踪和验证 AI 的推理过程,比如查看模型是否正确浏览网页、查找合适信息,从而确保答案的准确性,使评估结果更真实地反映模型能力。
微服务架构设计
视频直播平台的系统架构演化
微服务与Docker介绍
Docker与CI持续集成/CD
互联网电商购物车架构演变案例
互联网业务场景下消息队列架构
互联网高效研发团队管理演进之一
消息系统架构设计演进
互联网电商搜索架构演化之一
企业信息化与软件工程的迷思
企业项目化管理介绍
软件项目成功之要素
人际沟通风格介绍一
精益IT组织与分享式领导
学习型组织与企业
企业创新文化与等级观念
组织目标与个人目标
初创公司人才招聘与管理
人才公司环境与企业文化
企业文化、团队文化与知识共享
高效能的团队建设
项目管理沟通计划
构建高效的研发与自动化运维
某大型电商云平台实践
互联网数据库架构设计思路
IT基础架构规划方案一(网络系统规划)
餐饮行业解决方案之客户分析流程
餐饮行业解决方案之采购战略制定与实施流程
餐饮行业解决方案之业务设计流程
供应链需求调研CheckList
企业应用之性能实时度量系统演变 如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:
作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。 该文章也同时发布在我的独立博客中-Petter Liu Blog。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |