MiMo通过大规模推理数据预训练与强化学习后训练联动提升推理能力,提出Test Difficulty Driven Reward等创新算法,并在同类7B模型中强化学习潜力领先。全系列已开源至Hugging Face,相关技术报告同步发布。

小米发布首个推理大模型MiMo-7B并宣布全面开源
MiMo通过大规模推理数据预训练与强化学习后训练联动提升推理能力,提出Test Difficulty Driven Reward等创新算法,并在同类7B模型中强化学习潜力领先。全系列已开源至Hugging Face,相关技术报告同步发布。