Während die technischen Leistungsbenchmarks für künstliche Intelligenz (KI) nahezu perfekt sind, bedeutet dies nicht notwendigerweise, dass die KI-Tools so arbeiten, wie wir es uns wünschen, sagt Vanessa Parli, stellvertretende Leiterin der Forschungsprogramme am Stanford Institute for Human-Centered AI und Mitglied des AI Index Steering Committee. Sie führt das aktuelle Beispiel von ChatGPT an, das zwar einige dieser Benchmarks gut erfüllt, aber immer noch falsche Antworten gibt, Dinge sagt, die wir nicht wollen und schwer zu interagieren ist.
In der neuesten Ausgabe des AI Index haben unabhängige Forscher über 50 Benchmarks in den Bereichen Vision, Sprache, Sprache und mehr analysiert und festgestellt, dass KI-Tools in der Lage sind, bei vielen dieser Bewertungen extrem hohe Punktzahlen zu erzielen. „Die meisten Benchmarks erreichen einen Punkt, an dem wir nicht viel besser abschneiden können, eine Genauigkeit von 80-90 %“, sagt Parli. „Wir müssen wirklich darüber nachdenken, wie wir, als Menschen und Gesellschaft, mit KI interagieren wollen und von dort aus neue Benchmarks entwickeln.“
Also Read:
Strategic Market Research Report on Outbound Travel Service with Anticipated CAGR of 6%
Im Gespräch erklärt Parli mehr über die Benchmarking-Trends, die sie beim AI Index sieht. Ein Benchmark ist im Wesentlichen ein Ziel, das das KI-System erreichen soll. Es ist eine Möglichkeit, zu definieren, was Sie von Ihrem Tool wollen, und dann darauf hinzuarbeiten. Ein Beispiel ist ImageNet von HAI Co-Director Fei-Fei Li, ein Datensatz von über 14 Millionen Bildern. Forscher führen ihre Bildklassifikationsalgorithmen auf ImageNet als Test für ihr System aus. Das Ziel besteht darin, so viele der Bilder wie möglich richtig zu identifizieren.
Das Team der AI Index hat verschiedene technische Benchmarks analysiert, die in den letzten zwölf Jahren rund um Vision, Sprache usw. erstellt wurden. Sie bewerteten den Stand der Technik in jedem Benchmark-Jahr im Vergleich zum Vorjahr. Für jeden Benchmark haben sie untersucht, ob die Forscher in der Lage waren, die Punktzahl des Vorjahres zu übertreffen, zu erreichen oder ob es keinerlei Fortschritt gab. Unter den mehr als 50 analysierten Benchmarks befanden sich ImageNet, ein Sprachbenchmark namens SUPERGlue, ein Hardware-Benchmark namens MLPerf und mehr als 20 weitere.
Also Read:
Bei den Untersuchungen des AI Index fiel auf, dass die Forscher trotz minimaler Fortschritte in der Überwindung des Standes der Technik im Verlauf der Jahre erhebliche Verbesserungen erzielen konnten. In diesem Jahr gab es bei den meisten Benchmarks keine nennenswerte Weiterentwicklung mehr zu verzeichnen. Das beste Bildklassifikationssystem auf ImageNet erreichte 2021 eine Genauigkeitsrate von 91 %, 2022 konnte lediglich eine Verbesserung um 0,1 Prozentpunkte erreicht werden.
Dies bedeutet für die Forscher, dass sie überprüfen müssen, ob es notwendig ist, neue und umfassendere Benchmarks für die Bewertung von KI-Tools einzuführen. Benchmarks sollten uns dabei helfen, ein Ziel zu definieren und darauf hinzuarbeiten. Es stellt sich jedoch die Frage, welche Ziele wir mit KI erreichen wollen und wie wir diese Technologien optimal für unsere Bedürfnisse nutzen können. Möglicherweise benötigen wir Benchmarks, die uns dabei helfen, die Trade-offs zwischen Genauigkeit und Verzerrungen oder Toxizitäten besser zu verstehen. Vielleicht sollten wir auch soziale Fragen in unsere Überlegungen miteinbeziehen. Es gibt viele Aspekte, die sich nicht durch quantitative Benchmarks messen lassen.
Also Read:
Dennoch gibt es Projekte, die bereits an der Entwicklung aussagekräftigerer Benchmarks arbeiten. HELM, das von Wissenschaftlern des Center for Research on Foundation Models an der Stanford University entwickelt wurde, ist ein Beispiel für einen umfassenderen Benchmark, der nicht nur die Genauigkeit, sondern auch Faktoren wie Fairness, Toxizität, Effizienz und Robustheit berücksichtigt. Wir brauchen weitere solcher Ansätze, die eine bessere Ausrichtung unserer Benchmarks an unseren Ansprüchen ermöglichen.
In Zukunft müssen KI-Entwickler also sicherstellen
Also Read:
In Other News Around the World:
Strategic Market Research Report on Outbound Travel Service with Anticipated CAGR of 6%