社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?

深度学习与NLP • 2 月前 • 72 次点击  

来源 | 量子位 ID | QbitAI

Anthropic刚刚官宣:Claude 3来了!

作为OpenAI最强竞争选手,此次它发布的新模型家族,以最强版Claude 3 Opus为代表,“已经实现了接近人类的理解能力”——

在推理、数学、编码、多语言理解和视觉方面,全面超越GPT-4在内的所有大模型,直接重新树立行业基准的那种。

浅看一下这份成绩单,就十分扎眼~



几项数学类评测都是用0-shot超越GPT-4的4-8 shot。

除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供200k上下文窗口,并且接受超过100万token输入

Gemini 1.5 Pro:嗯?



目前可以免费体验第二强Sonnet,Opus最强版供Claude Pro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)



另外,Opus和Sonnet也开放API访问,开发者可以立即使用。

有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。



不过奥特曼可能还在烦马斯克的诉讼……



最新最强大模型发布

此次Claude 3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。



首先,在性能参数上,Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:



还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。



对于这样性能结果,有专业人士表达了自己的看法。

比如爱丁堡大学博士生、 中文大模型知识评估基准C - Eval提出者之一符尧就表示,像MMLU / GSM8K / HumanEval这些基准,已经严重饱和:所有模型的表现都相同。



他认为,真正区分模型性能基准的是MATH and GPQA



另外,在拒绝回答人类问题方面,Claude 3也前进了一大步,拒绝回答的可能性显著降低



在上下文以及记忆能力上,他们用大海捞针(Needle In A Haystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。

结果Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率。而且在某些情况下,它甚至能识别出 “针 “句似乎是人为插入原文的,从而识别出评估本身的局限性。



还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。

其次,在响应时间上,Claude 3大幅缩短,做到近乎实时。

官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。

而中杯Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。

大杯Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。

官方对三款型号的模型也有清晰的定位。

  • 大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;
  • 中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;
  • 小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;

价格方面,最便宜的小杯定价0.25美元/1M tokens输入,最贵的大杯定价75美元/1M tokens输入



对比GPT-4 Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。



第一手实测反馈

既如此,那就先免费来尝尝鲜~

目前官方页面已经更新,Claude展现了「理解和处理图像」这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。

即使是模糊不清的有年代感的手记文档,也能准确OCR识别:



底下写着:你正在使用他们第二大智能模型Claude 3 Sonnet。



然鹅,可能是人太多的原因,尝试了几次都显示“Failed”



不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。

为其提供一些示例,要求它找出数字之间的关系,比如“1 Dimitris 2 Q 3”,意思是3是1和2相加的结果。

结果Sonnet成功解出-1.1加8等于6.9,所以“X”的值应该是6.9:



还有网友发现Sonnet现在也可以读取 ASCII 码了,直呼:这是GPT-4 ++的水平了



在编程任务上,谁写的代码好先不说,Claude 3至少不会像GPT-4一样偷懒。



还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:



初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?



好了,感兴趣的朋友,可以戳下方链接体验啦~

claude.ai/

参考链接:
[1]anthropic.com/news/clau
[2]twitter.com/AnthropicAI

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/167681
 
72 次点击