当前位置: 首页 > 生活百科 > 本文内容

ChatGLM3-6B:超越GPT,成为新一代人工智能助手?大更新后表现对比分析

发布时间:2023-12-03 19:20:01源自:http://www.zuer8.com阅读

近期,聊天机器人 Claude 发布了最新版本的 2.1,其处理能力的提升让人惊叹。Claude 2.1 Pro 现在可以处理高达 200K 的上下文,这相当于 15 万个单词或 500 页文本。此次更新不仅提升了 Claude 的处理能力,还对它的诚实度和真实性进行了严格把关,力求提供更为可靠的服务。然而,与 ChatGPT 相比,Claude 2.1 仍有一定差距,其上下文记忆能力和检索功能的准确度仍有待提高。尽管如此,Claude 2.1 凭借其易用性和灵活性,已经成为许多人的备选方案。

如果问当下最强的 AI 助手是哪个?那毋庸置疑,绝对是 ChatGPT。前不久 ChatGPT 猝不及防地崩了,直接在网上炸出一大批重度用户。靠它完成作业的学生党,一时之间面对论文无从下笔;靠它“续命”的打工人更是连班都不想上了。今年以来,ChatGPT 每隔一段时间就会“暴毙”,号称其最强平替的 Claude 或许是你最可靠的备选方案。上下文翻倍,Claude 2.1 大更新

恰巧,近日 Claude 宣布了一波大更新。以往 Claude 能处理的上下文只有 10 万 token(token 是文本处理中的最小单位,如单词或短语),现在 Claude 2.1 Pro 版能处理高达 200K 上下文。Anthropic 官方表示,200K 上下文约等于 15 万个单词或 500 页文本。此次更新不仅提升了 Claude 的处理能力,还对它的诚实度和真实性进行了严格把关,力求提供更为可靠的服务。

然而,与 ChatGPT 相比,Claude 2.1 仍有一定差距,其上下文记忆能力和检索功能的准确度仍有待提高。尽管如此,Claude 2.1 凭借其易用性和灵活性,已经成为许多人的备选方案。

页文本,你可以上传代码库、财务报表、或长篇文学作品,让 Claude 对它们进行总结、回答问题、预测趋势、比较和对比多个文档。那么它对汉语的处理能力有多强大呢?我们可以通过一个备受争议的例子来说明,即 Yi-34B。该模型发布了支持 200K 超长上下文窗口版本的版本,可以处理约 40 万汉字的超长文本输入,相当于一本《儒林外史》的长度。在语言模型方面,长上下文可以提供更精确的用法和含义,有助于消除歧义,帮助模型生成连贯、准确的文本。例如,“苹果”这个词在“采摘水果”或“新款 iPhone”上出现时,其含义就完全不同了。值得注意的是,在 GPT-4 尚未恢复实时联网功能之前,免费的 Claude 2.0 已经能够实时访问网页链接并总结网页内容,这是 GPT-3.5 所不具备的优点。此外,免费版 Claude 还可以读取、分析和总结你上传的文档,即使面对“打钱”的 GPT-4,它的表现也毫不逊色。我们同时向当前版本的 Claude 和 GPT-4 提交了一份 90 页的 VR 产业报告,并提出了相同的问题。两者的反应速度相差无几,但免费版 Claude 的回答更加流畅,而且答案的质量也更高一些,而 GPT-4 的检索功能则会因为分页和视图的限制而不太“灵光”。

检索仅是小菜一碟,作为提高学习或工作效率的工具,我们需要的是更“聪明”的模型。当我让它们分析VR行业五年后的变化格局,尽管观点相近,但Claude以富有逻辑的分点作答脱颖而出。虽然它能回答上来,但能否回答正确才是关键。过去一年里,我们见证了众多因大型模型“信口开河”而遭受困扰的实例。Anthropic声称Claude 2.1的虚假或幻觉类陈述减少了两倍,但并未提供具体数据,导致英伟达科学家Jim Fan提出质疑:“最简单的实现0%幻觉的解决方案就是拒绝回答每一个问题。”Anthropic还设计了许多陷阱问题来测试Claude 2.1的诚信度。经过多轮测试,当遇到知识盲区时,Claude 2.1更倾向于表达不确定性,而不是编造似是而非的答案来欺骗用户。换言之,如果Claude 2.1的知识图谱中没有“广东的省会不是哈尔滨”,它会说“我不确定广东的省会是不是哈尔滨”,而不会斩钉截铁地表示“广东的省会是哈尔滨”。在Claude看来,这也是其相较于ChatGPT的优势。Claude Pro的月费约为20美元,使用次数是免费版五倍,普通用户可发送的消息数量将根据消息的长度有所不同。剩余10条消息时,Claude会发出提醒。假设您的对话长度约为200个英语句子,每句15-20个单词,那么Claude将占用约4000个字符的空间。

在这个案例中,如果您每小时可以处理100个单词,那么在接下来的8小时内,您可能仅能发送20条消息。对于普通用户来说,Claude 2.1 不仅提供了一个平台,还根据开发者的需求上线了一项名为「工具使用」的测试版功能,该功能允许开发者将 Claude 集成到他们现有的流程、产品和服务 API 中。换句话说,Claude 2.1 可以调用开发者自定义的程序函数或利用第三方服务提供的 API 接口,可以向搜索引擎查询信息以回答问题,连接私有数据库,并从数据库检索信息。您可以定义一套工具供 Claude 使用,并指定请求类型。然后,Claude 将决定需要哪种工具来完成任务并代表他们执行操作,例如使用计算器进行复杂的数值推理,将自然语言请求转换为结构化 API 调用等。

为了更好地服务于 Claude API 的开发者,Anthropic 做出了一系列改进,具体如下:

1. 优化开发者控制台体验和用户界面,以便基于 Claude API 的开发变得更加便捷。

2. 更容易测试新的输入提示(prompt),这有助于模型的持续改进。

3. 让开发者像在沙盒环境中迭代尝试不同的输入提示,并为不同的项目创建多个输入提示。当更改 prompt 时,它们会自动保存在您的账户中,便于随时回溯。

4. 支持将生成的代码集成到软件开发工具包(SDK)中,从而将其应用于实际项目中。

Claude 2.1 为开发者提供了强大的功能,使他们能够更好地与 Claude API 互动,从而提高工作效率和项目的质量。

我们很高兴地宣布,Claude 2.1已经发布!这个版本的引入了「系统提示」功能,这是向 Claude 提供上下文和指令的一种方式,能够使 Claude 在角色扮演时更加稳定地保持其人设,同时在对话中也能展示出个性和创造力。与简单的 Prompt 应用不同,该功能主要是针对开发者和高级用户设计的,它主要通过 API 接口使用,而不是在网页端使用。和 Claude 2.0 一样,Claude 2.1 每输入 100 万 token 需要花费 8 美元,比 GPT-4 Turbo 便宜了 2 美元;输出为 24 美元,比 GPT-4 Turbo 便宜了 6 美元。适用于低延迟、高吞吐量的 Claude Instant 版本每输入 100 万 token 需要收费 1.63 美元,输出为 5.51 美元。

虽然 Claude 2.1 表现非常强大,但仍只能作为 ChatGPT 宕机的替代品,要颠覆 ChatGPT 还需要走一段漫长的路程。以 Claude 2.1 Pro(处理能力为 200K)为例,尽管 Claude 2.1 Pro 在理论上处理能力上要比 128K 的 GPT-4 Turbo 更强,但实际结果显示,在需要回忆和准确理解上下文的能力上,Claude 2.1 Pro 仍然远远落后于 GPT-4 Turbo。

OpenAI

开发者大会之后,Greg Kamradt曾对GPT-4-128K的上下文回忆能力进行了测试。Kamradt使用了Paul Graham(美国著名程序员)的218篇文章凑足了128K的文本量,并在这些文章的不同位置(从文章顶端0%到底部100%随机插入一个事实语句:“在阳光明媚的日子里,在多洛雷斯公园吃三明治是在旧金山的最佳活动。”)。接着,他让GPT-4 Turbo模型检索这个事实语句,并回答有关这个事实语句的相关问题。他采用了业界常用的LangChain AI评估方法对给出的答案进行评估。

评估结果显示,GPT-4 Turbo在73K token长度内保持了较高的记忆准确率。无论信息位于文档的开头还是结尾,它都能检索到。然而,只有当需要回忆的信息位于文档的10%-50%区间时,GPT-4 Turbo的准确率才开始下降。相比之下,Kamradt还获得了Claude 2.1 Pro的内测资格,并对其进行了类似的测试。结果显示,与GPT-4 Turbo相比,Claude 2.1 Pro在文档前部的信息检索效果略逊一筹。

综上所述,尽管GPT-4 Turbo在上下文回忆能力方面表现出色,但其在文档后部的信息检索能力略有不足。而Claude 2.1 Pro在前部信息的检索效果上稍逊于GPT-4 Turbo,但在文档后部表现较好。

然而,Claude 2.1 Pro 的上下文长度效果在24K之前表现良好,远低于GPT-4 Turbo的73K。超过24K后,Claude 2.1 Pro的记忆性能开始明显下滑,90K之后,效果进一步恶化,错误率大幅度上升。值得注意的是,随着上下文长度的增加,GPT-4 Turbo和Claude 2.1 Pro的准确度都在逐步降低。虽然Claude 2.1 Pro的测试范围更广,但在实用性的准确性方面,GPT-4 Turbo仍是Claude 2.1 Pro需要努力的目标。然而,个性化的GPTs、轻松生成图像的DALL·E 3以及语音交流等功能仍然是ChatGPT的宝贵优势。在面对强大的GPT-4 Turbo时,升级后的Claude 2.1 Pro版本也无法抵挡。

文章推荐

猪儿生活 Copyright©2018-2019 All Rights Reserved
免责声明:本站所有图片、文字除注明原创外均来源于互联网,版权归原作者所有,若侵犯到您的权益,请立即联系我们删除,谢谢合作! 琼ICP备2023010869号-5