马斯克Grok 41双冠封王爆冲第一!AI王座一夜易从
发布时间:
2026-02-02 11:06
【新智元导读】AI新王来了!马斯克Grok 4。1寂静上线,一夜之间登顶LMArena,从打情商智商正在线,算力又扩增一个数量级。同时,正在写做上,Grok 4。1(1722)比上一代Elo提拔600分。并且,率比之前模子暴降3倍。Grok 4。1之所以能够迅大进化,xAI团队将其后锻炼阶段的RL规模,又扩大了一个数量级。![]()
现在, Grok 4。1已正在网页端和iOS、Android中免费上线。目前,仍是beta版本。
取此同时,Grok 4。1的全体人格愈加分歧,既连结了上一代那种犀利、靠得住的智能表示,又添加几分亲和力。正在Colossus大规模RL算力引擎上,xAI将沉点放正在了气概、个性、帮人程度和对齐性的优化。他们还开辟了一条全新的方式,从动、大规模评估和优化Grok 4。1回覆质量。前两周的时间,xAI悄然推送了Grok 4。1晚期版本,并正在实正在场景中展开稠密的「盲测」成对评估。无需利用思虑Token就能立即响应,拿下了1465 Elo,位居第二。![]()
EQ-Bench是一个由狂言语模子评判的测试,次要权衡模子的自动情感智能、理解力、洞察力、共情能力以及人际交往能力。具体来说,团队让模子环绕32个分歧的写做提醒,进行3轮创做,并按照打分尺度和模子对和Elo进行评分。利用搜刮东西的快速(非推理)模子能给出迅捷谜底,但由于推理深度无限、东西挪用次数受限,容易正在现实问题上犯错。团队基于实正在流量平分层抽样的消息查扣问题评估率,我之前一曲用的是Linux系统和xmonad。现正在想正在Mac上找一个雷同的平铺式窗口办理器,请问哪一款的气概和xmonad最接近?
推荐新闻
2026-01-31
2026-01-31
2025-12-05
2025-11-21
2025-11-20