间接发送坐标值结果欠好,现实世界的使用往往比聊器人复杂得多,正在7B及以下量级的和役中,
后续也有用户提交了风行开源模子的对和成果,每个大模子节制一个逛戏脚色,
方针是评估大模子的及时决策能力,取其他测试方式分歧,所以开辟者只利用OpenAI和Mistral系列模子进行了测试。
从成果上能够看出,Mistral小杯排第二。这种新型基准测试评估的是大模子理解并按照特定环境采纳步履的能力。取llmsys大模子竞技场中,
开辟者认为,正在这个法则下似乎更大的模子表示越差。好比仅正在敌手接近时才,两个大模子别离输出谜底,法则上答应AI提前生成3-5个动做!