大模型的回复、思维链中出现多语言混合的问题

这个奖励机制我不明白是怎么实现的,但是使用下来效果很好,相比上一代确实少了很多类似的状况

文章大纲