Der frisch bei DeepMind ausgeschiedene Ingenieur Lun Wang hat einen Text zur Leistungsbewertung großer Sprachmodelle veröffentlicht: „Ihre Bewertungsmaßstäbe für LLMs werden versagen, und Sie werden es nicht einmal merken“. Wir können bestehende Modelle gut bewerten, aber kaum die Modelle, die erst noch entstehen sollen – vor allem dann nicht, wenn sie eine neue Fähigkeitsstufe erreichen. Die meisten Benchmarks, Sicherheitsprüfungen und Red-Teaming-Protokolle beruhen auf der Annahme, dass die nächste Modellgeneration nur eine stärkere Version der heutigen ist. Doch wenn...

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.