在人工智能快速发展的今天,我们训练的语言模型变得越来越强大,但用来评估这些模型的工具却往往跟不上步伐。就像开着超跑却用着老式的计时器一样,这种不匹配严重拖累了整个研究进展。最近,来自Reactive AI公司的研究员Adam Filipek发表了一项突破性研究,这项研究于2025年10月发表在arXiv预印本平台(论文编号:arXiv:2510.05485v1),它彻底解决了一个困扰研究者多年的技 ...