Ihre Bewertungsmaßstäbe für LLMs werden versagen, und Sie werden es nicht einmal merken
Der frisch bei DeepMind ausgeschiedene Ingenieur Lun Wang hat einen Text zur Leistungsbewertung großer Sprachmodelle veröffentlicht: „Ihre Bewertungsmaßstäbe für LLMs werden versagen, und Sie werden es nicht einmal merken“. Wir können bestehende Modelle gut bewerten, aber kaum die Modelle, die erst noch entstehen sollen – vor allem dann nicht, wenn sie eine neue Fähigkeitsstufe erreichen. Die meisten Benchmarks, Sicherheitsprüfungen und Red-Teaming-Protokolle beruhen auf der Annahme, dass die nächste Modellgeneration nur eine stärkere Version der heutigen ist. Doch wenn...
Der frisch bei DeepMind ausgeschiedene Ingenieur Lun Wang hat einen Text zur Leistungsbewertung großer Sprachmodelle veröffentlicht: „Ihre Bewertungsmaßstäbe für LLMs werden versagen, und Sie werden es nicht einmal merken“. Wir können bestehende Modelle gut bewerten, aber kaum die Modelle, die erst noch entstehen sollen – vor allem dann nicht, wenn sie eine neue Fähigkeitsstufe erreichen. Die meisten Benchmarks, Sicherheitsprüfungen und Red-Teaming-Protokolle beruhen auf der Annahme, dass die nächste Modellgeneration nur eine stärkere Version der heutigen ist. Doch wenn...
Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.