DeepMindを退職したエンジニアのLun Wangが、大規模モデルの性能評価に関する記事「LLMの評価体系は機能しなくなり、しかも気づかない」を発表した。私たちは既存モデルの評価は得意だが、これから作るモデルの評価は苦手だ。特にモデルが新たな能力段階に移るとき、その傾向は強い。多くのベンチマークや安全性評価、レッドチーム演習は、次世代モデルが現行モデルの高性能版であることを暗黙に前提としている。しかし、もし...
Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.
