作为一名研究人员,我深知模型的使用体验、提示反馈和氛围对于选择日常工具的重要性。如今,OpenAI、Anthropic 和 Google 三大实验室的模型性能已经趋同,用户也逐渐意识到可以尝试其他选择。在 Claude 3.5 发布之前,许多用户就已经因为其出色的编码能力转向 Claude。然而,仅凭 Claude 3 的表现还不足以让我完全放弃 ChatGPT。但从纸面数据来看,Claude 3.5 显然更胜一筹,最终让我做出了切换的决定。
为什么选择 Claude 3.5?
更可靠的表现
当模型能力趋于稳定时,判断其是否符合个人需求变得更为重要。Claude 3.5 在可靠性和一致性上比 ChatGPT 略胜一筹,尤其是在满足我的特定需求方面。虽然我仍会偶尔使用 GPT-4,但 Claude 3.5 的体验让我更容易接受这一转变。
专注于细节的改进
Claude 3.5 在多个小细节上进行了优化,使其更快、更清晰、更一致。这种“蒸馏”技术如今在顶级实验室中越来越流行,而 Anthropic 显然在这方面做得非常出色。
独特的“个性”
Anthropic 的模型以其鲜明的个性著称,而这恰好符合我的偏好。这种风格源于团队对模型的专注微调,每个人都对模型的定位达成了共识。与此相比,OpenAI 的模型规范显得更加公式化和规则化。
Claude 3.5 的核心优势
更诚实的反馈
在 Claude 2.1 发布时,Anthropic 尝试通过减少模型对未知问题的回答来提高诚实性,但这一尝试并未得到广泛认可。然而,这种改进最终成为 Claude 3.5 的核心优势之一——它能够更准确地遵循用户指令,这与其对自身知识的清晰认知密切相关。
后训练方法的优化
许多人认为,模型的进步主要归功于后训练方法的改进,如基于人类反馈的强化学习(RLHF)。Anthropic 在塑造模型个性方面的努力使其在情境化信息方面表现出色,这正是 RLHF 的核心价值所在。
更自然的交互风格
Claude 3.5 的交互风格更加贴近用户的期望:
– 助手型语气:在回答简单问题时,它会主动询问“我应该做 X 吗?”。
– 简洁的表达:与 ChatGPT 有时冗长的回答相比,Claude 3.5 的用词更加精准。
– 高效的任务处理:当被明确要求解决任务时,它会快速删除不必要的占位符文本。
产品体验比较
界面设计与功能
许多人批评 Anthropic 的用户界面不如 ChatGPT,但在我看来,Claude 的界面更加简洁直观。虽然缺少某些 ChatGPT 的功能,但其信息密度更高,用户体验更为流畅。
功能性差距
使用 Claude 时,我确实失去了一些功能,如图像生成和代码运行能力。但相比之下,Claude 3.5 的其他优势仍然让我觉得不虚此行。此外,Anthropic 正在逐步添加这些功能,未来值得期待。
RLHF 的巅峰与未来
RLHF 等后训练方法在当前模型周期中达到了巅峰,但这并不意味着它们是模型进步的唯一驱动力。随着 GPT-5 等新一代模型的发布,讨论焦点将再次回到数据和扩展上。数据始终是模型进步的核心,而精心策划的用户提示数据将成为关键。
在预训练和指令微调方面的改进,使得模型能够更好地适应用户需求。RLHF 作为一个灵活的工具,将继续在模型优化中发挥重要作用,但用户看到的大多数功能改进可能并非直接来自于此。
有关 Claude 3.5 Sonnet 的更多信息,您可以参考 The Zvi 的文章。从 Scale AI 到 ChatBotArena,Claude 在大多数排行榜上都名列前茅。