【FSET-097】ヤリすぎ同棲生活 5人の彼女と24時間セックスdays Mistral AI新旗舰模子挑战Llama 3.1！1230亿参数性能直逼GPT-4o

发布日期：2024-07-27 03:51 点击次数：119

编译 | 孟强裁剪 | 云鹏【FSET-097】ヤリすぎ同棲生活 5人の彼女と24時間セックスdays

智东西7月25日音书，继Meta昨日推出开源Llama3.1模子之后，法国初创AI公司Mistral AI也加入了竞争行列，推出新一代旗舰模子Mistral Large 2。

该模子领有1230亿参数，128k高下文窗口，不错在单个节点上以高模糊量动手，辅助包括汉文在内的数10种话语、80多种编程话语，在多项基准测试中接近GPT-4o和Claude 3.5 Sonnet，预本质版块的多任务话语显露准确率高达84%，打败Llama 3.1 70B。

除了性能上的进步，Mistral AI还参增加数资本增强该模子的推理才气，本质的要点放在减少模子产生“幻觉”的概率，通过微调模子，使其在反适时愈加严慎和厉害，进步模子输出的精确度和真确度。

一、多任务话语显露卓绝Llama 3.1 70B

Mistral Large 2领有128k的高下文窗口，在代码生成、数学和推理方面比Mistral Large功能更宏大，并提供更宏大的多话语辅助和高档函数调烦扰能，辅助包括汉文在内的10余种话语及Python、Java在内的80多种编码话语。

该模子领有1230亿参数，与刚发布的Llama 3.1 405B的4050亿参数比拟，参数数目偏少，但性能却在能接近后者，致使在多项基准测试中进展接近GPT4-o和Claude 3.5 Sonnet。

▲Mistral Large 2与Llama 3.1 70B和Llama 3.1 405B在MMLU测试中的准确率对比

在MMLU（Massive Multi-task Language Understanding）测试中，Mistral Large 2的准确率打败Llama 3.1 70B。MMLU为大限制多任务话语显露测试，是一项详细评估，涵盖57项任务，包括初等数学、好意思国历史、策划机科学、法律等方面。在此测试中，Mistral Large 2准确率高达84%，意味着该模子在多种任务和话语环境中都有出色的性能和平庸符合性。

群交淫乱二、本质经由中着重减少“幻觉”

Mistral AI暗示，团队在本质经由中虚耗多数资原本增强Mistral Large 2的代码生成和推理才气。

在使用海量代码进行本质后，该模子的代码生成才气远超其前身Mistral Large，况且接近GPT-4o、Claude3 Opus和Llama 3 405B。

▲代码生成基准测试中Mistral Large 2与其他模子的性能和准确率对比

▲Mistral Large 2与其他模子在GSM8K（8-shot）和MATH（0-shot，no CoT）生成基准测试中的性能和准确率对比

在推理才气本质方面，Mistral Large 2的本质要点之一还在于尽量裁减模子产生“幻觉”的概率。“幻觉”是AI系统，尤其是生成模子（如谎言语模子）在生成实质时出现的乌有、乌有或不准确的信息。经过微调后，Mistral Large 2在反适时愈加严慎和厉害，确保提供的信息是可靠、准确的。

Mistral AI称，经过本质后，该模子能在我方无法找到惩处决策，或莫得饱和自信能提供准确谜底时，会承认无法回应该问题，而不是赓续诬捏谜底。

此外，Mistral AI还大幅改良了Mistral Large 2的提醒谨守和对话才气。该模子在谨守精确提醒和处理长时间多轮对话方面进展尤为出色。

▲Mistral Large 2与其他模子在通用对王人基准测试中的性能对比

同期，Mistral Large 2在生成谜底时尽量保执浮浅明了，以加速交互速率，增加该模子的资本效益。

▲Mistral Large 2与其他模子生成回应的平均长度对比

当今，Mistral Large 2可通过Mistral平台（la Plateforme）看望，在Mistral琢磨许可下，该模子可供非买卖使用。买卖诈欺需要Mistral的买卖许可。此外，用户不错在le Chat上测试该模子，躬行体验其功能。

结语：在高性能和资本效益间找到均衡

AI模子研发正夙昔所未有的速率股东，众人科技巨头以及新兴初创公司之间竞争猛烈，模子研发地方已不是一味地追求神经网罗的限制，Mistral Large 2的发布预示着一个潜在的趋势，即AI模子要在高性能和资本效益间找到均衡。

Mistral AI暗示，Mistral Large 2是其在资本效益、生成速率和性能上的新尝试。在参数目1230亿的情况下，性能能接近4050亿的Llama 3.1 405B，同期能快速提供浮浅、准确的回应。几天前，三个小模子（Mistral Nemo、GPT-4omini、SmolLM）的持续发布也暗示，并不是参数目越大就越好。畴昔，咱们期待更多更具资本效益的模子出现，提高AI生成模子生态的多元化。

起首：Mistral AI【FSET-097】ヤリすぎ同棲生活 5人の彼女と24時間セックスdays

【FSET-097】ヤリすぎ同棲生活 5人の彼女と24時間セックスdays Mistral AI新旗舰模子挑战Llama 3.1！1230亿参数性能直逼GPT-4o

栏目分类

热点资讯

相关资讯