5 月 23 日,Claude 官方宣布推出下一代 Claude 模型:Claude Sonnet 4 和 Claude Opus 4,直接 在全世界的 AI 圈掀起了新的风暴!
据官方称,Claude Opus 4 是 世界上最好的编程模型,在复杂、长期运行的任务和智能体工作流程中具有持续性能,能够连续工作数小时。据说有家日本公司使用它重构一套复杂的开源项目代码,结果它自主运行了 7 个小时,一直源源不断地生成代码。
好家伙,这持久性,都快能平替我们标准的 8 小时工作制了。以后我上班就打开 AI 工具让它自己生成代码,只要下班前检查一下,就可以愉快下班了,真是充实且摸鱼的一天啊!
Claude 4 一出现,直接为编程、高级推理和 AI 智能体设立了新标准,达到 SOTA!
SOTA(State of the Art)是一个典型的互联网黑话,常用来描述在某一特定领域内当前最佳的技术。
如图,Claude 4 模型在 SWE-bench Verified 上领先,这是一个评估真实软件工程任务性能的基准。
Claude Sonnet 4 模型则是对 Claude Sonnet 3.7 的重大升级,在编程和推理方面表现更优异。虽然在大多数领域不及 Opus 4,但它也吊打了其他大模型,提供了能力和实用性的最佳组合,而且最关键的是 对免费用户开放。
作为一个一直依赖 AI 编程的中毒患者,3.7 已经让我很爽了,4 这个大版本不得起飞了啊?!想想当年的 GPT-3 和 GPT-4 的差距,直接把我的期待值拉满了,下面我带大家一起来试试效果。
叠甲声明,鱼皮并不是专业的测试,更多的只是作为一个用户,分享我自己真实的使用体验。
Claude 实战
Claude 的使用非常简单,直接进入官网(claude.ai)就可以免费使用 Claude Sonnet 4 模型了:
如果你想用 Claude 来编程、生成网站,建议还是选择专业的 AI 开发工具 Cursor,也已经第一时间集成了 Claude 4 系列模型。
下面鱼皮将使用 Cursor 带大家开发 3 个不同类型的网站项目:
工具类网站:文件格式转换工具
休闲娱乐类:连连看小游戏
企业实用类:科技公司官网
有些博主只是单纯测试使用 claude 4 来生成网站的效果,其实并不能体现出大模型进化了多少。而鱼皮针对每个项目将分别采用 claude-3.7-sonnet、claude-4-sonnet 和 claude-4-opus,利用相同的 Prompt 提示词进行生成,从而对比效果。
1、文件格式转换工具
首先准备一段 Prompt,这里我们不使用过于专业的 Prompt,给 AI 足够的发散空间和创作自由,让他们自己来完成任务,更容易看出差距。