国际权威“烧脑”模型评测亚军,零一万物Yi-Large擅长处理艰难提示
人工智能在日常生活、工作方面的渗透与日俱增。作为AI领域的中流砥柱,大模型技术正推动着这场智能革命。近期,国内外有关大模型的重磅消息更是层出不穷。
就在上周,GPT-4o的测试版本披着“im-also-a-good-gpt2-chatbot”的外衣神秘登场,在大模型竞技场Chatbot Arena上“大杀四方”,吸引全球眼光。
时隔一周,最新更新的排名中再次上演了一匹黑马逆袭的故事。这次,排名迅速攀升的模型是源自中国大模型公司零一万物所提交的“Yi-Large”千亿参数闭源大模型。
在分类别的排行榜上,Yi-Large 的表现引人注目。它在编程能力、长篇幅提问以及最新推出的"高难度提示词"三个方面的评估中表现突出。这些评估由LMSYS提供,以专业性和高难度闻名,被认为是对大型语言模型最具“烧脑”的公开盲测。
在编程能力(Coding)排行榜上,Yi-Large 的Elo分数超过Anthropic 当家旗舰模型 Claude 3 Opus,仅低于GPT-4o,与GPT-4-Turbo、GPT-4并列第二。
长提问(Longer Query)榜单上,Yi-Large同样位列全球第二,与GPT-4-Turbo、GPT-4、Claude 3 Opus并列。
艰难提示词(Hard Prompts)则是LMSYS为了响应社区要求,于此次新增的排行榜类别。这一类别包含来自 Arena 的用户提交的提示,这些提示则经过专门设计,更加复杂、要求更高且更加严格。LMSYS认为,这类提示能够测试最新语言模型面临挑战性任务时的性能。在这一榜单上,Yi-Large 处理艰难提示的能力也得到印证,与GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。
而在LMSYS盲测竞技场的最新排名中,零一万物的Yi-Large模型以出色的表现,荣登世界模型总榜第7位,并在中国大模型中位列榜首,其表现已超越Llama-3-70B、Claude 3 Sonnet等竞争对手。值得注意的是,在中文分榜中,Yi-Large更是与GPT4o并列世界第一,显示出其在中文处理领域的强大实力。
零一万物因此成为总榜上唯一一家自家模型进入排名前十的中国大模型企业,彰显了中国在人工智能领域的快速发展与实力。在总榜上,GPT系列占据了前10名的四个席位,而零一万物01.AI则以开放金标准正式进军国际顶级大模型企业阵营,紧随OpenAI、Google、Anthropic等知名企业之后。
对于LMSYS盲测有些朋友可能不甚了解,简而言之LMSYS盲测由LMSYS Org(Large Model Systems Organization)推出的一个基准测试平台,它专注于对大型语言模型(LLM)进行评估。这个平台通过一种名为Chatbot Arena的众包方式,匿名随机地对抗测评大型语言模型产品。LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。
在LMSYS的盲测中,系统会随机选择两个不同的大型语言模型与用户进行聊天,并让用户在匿名的情况下选择哪个模型的表现更好。这种评分方式是基于国际象棋等竞技游戏中广泛使用的Elo评分系统。通过用户投票产生的评分结果,可以相对公正地评估大型语言模型的性能。
据美国时间2024年5月20日最新刷新的LMSYS Chatboat Arena盲测结果显示,本次盲测吸引了超过1170万的全球用户参与真实投票,充分证明了该竞技场在人工智能领域的广泛影响力和权威性。
LMSYS Org为了提升Chatbot Arena测试平台的评估质量,采取了一项新措施,即删除重复数据的机制。该机制的目的是为了减少用户在测试中可能产生的冗余输入,例如频繁出现的“你好”等重复性问候语。这些冗余的输入有可能对模型排名的准确性造成干扰。LMSYS Org已经明确表示,经过去除这些冗余查询后生成的榜单,将在不久的将来成为官方默认的排名榜单。
而在去除冗余查询后的总榜中, Yi-Large的Elo得分更进一步,与Claude 3 Opus、GPT-4-0125-preview并列第四。
文章转载自:互联网,非本站原创>
免责声明:本文由用户上传,如有侵权请联系删除!
猜你喜欢
- 05-23
- 05-23
- 05-23
- 05-23
- 05-23
- 05-23
- 05-23
- 05-23
最新文章
- 05-23
- 05-23
- 05-23
- 05-23
- 05-23
- 05-23
- 05-23
- 05-23