Am 5. Februar 2025 wurde ein neuer, bahnbrechender Test für künstliche Intelligenz (KI) vorgestellt: der „Humanity’s Last Exam“ (HLE). Dieser Test, entwickelt von einem internationalen Team von KI-Forschern, stellt die KI vor 3.000 komplexe Fragen aus über 100 Fachgebieten – von Mathematik und Physik bis hin zu Medizin und Geisteswissenschaften. Das Ziel? Die Grenzen der KI auszuloten und zu sehen, wie nah sie menschlichen Experten in wissenschaftlichen Disziplinen bereits gekommen ist.
Die Ergebnisse sind ernüchternd:
- Selbst die besten KI-Modelle wie DeepSeek-R1, OpenAI-o1 und Gemini 2.0 erreichten weniger als 10% der korrekten Antworten.
- DeepSeek-R1 schnitt im textbasierten Modus mit 9,35% am besten ab, während OpenAI-o1 im multimodalen Modus 9,07% erreichte.
- Die meisten Modelle lagen bei rund 5%, was zeigt, dass die KI noch weit davon entfernt ist, menschliche Expertise zu ersetzen.
Ein besonderes Problem: Fehlkalibrierung
Ein auffälliges Phänomen war die Diskrepanz zwischen Korrektheit und Selbstvertrauen der KI-Modelle. Obwohl sie in weniger als 10% der Fälle richtig lagen, schätzten sie die Zuverlässigkeit ihrer Antworten auf über 80% ein. Dies deutet auf eine mangelnde Fähigkeit hin, die eigenen Grenzen zu erkennen, und ist ein starkes Indiz für Halluzinationen – also falsche, aber selbstbewusst präsentierte Antworten.
Was bedeutet das für die Zukunft der KI?
Trotz der aktuellen Schwächen sind die Forscher optimistisch: Bis Ende 2025 könnten KI-Modelle mehr als 50% der Fragen im HLE korrekt beantworten. Dies wäre ein wichtiger Schritt in Richtung einer KI, die in wissenschaftlichen Disziplinen mit menschlichen Experten mithalten kann. Allerdings betonen die Forscher, dass dies noch kein Zeichen für eine Artificial General Intelligence (AGI) wäre – also eine KI, die in allen Bereichen menschliche Fähigkeiten erreicht oder übertrifft.
Warum ist der HLE so wichtig?
Der Test ist nicht nur eine Messlatte für die aktuellen Fähigkeiten der KI, sondern auch ein wichtiges Werkzeug, um zukünftige Entwicklungen zu bewerten. Er hilft uns, die Risiken und Potenziale der KI besser zu verstehen und geeignete Regulierungen zu entwickeln.
Fazit:
Der „Humanity’s Last Exam“ zeigt, dass KI-Systeme noch lange nicht perfekt sind – aber auch, wie schnell sie sich weiterentwickeln. Es bleibt spannend zu beobachten, wie sich die KI in den kommenden Jahren schlagen wird.
Was denkt ihr? Wann werden KI-Modelle den „Humanity’s Last Exam“ meistern? Und welche Auswirkungen wird das auf Wissenschaft und Gesellschaft haben? Lasst uns diskutieren!
Quelle: Scale AI, Center for AI Safety, arxiV Preprint (2025)
Verfasser: Nadja Podbregar
Datum: 5. Februar 2025