Während die technischen Leistungsbenchmarks für künstliche Intelligenz (KI) nahezu perfekt sind, bedeutet dies nicht notwendigerweise, dass die KI-Tools so arbeiten, wie wir es uns wünschen, sagt Vanessa Parli, stellvertretende Leiterin der Forschungsprogramme am Stanford Institute for Human-Centered AI und Mitglied des AI Index Steering Committee. Sie führt das aktuelle Beispiel von ChatGPT an, das zwar einige dieser Benchmarks gut erfüllt, aber immer noch falsche Antworten gibt, Dinge sagt, die wir nicht wollen und schwer zu interagieren ist.

In der neuesten Ausgabe des AI Index haben unabhängige Forscher über 50 Benchmarks in den Bereichen Vision, Sprache, Sprache und mehr analysiert und festgestellt, dass KI-Tools in der Lage sind, bei vielen dieser Bewertungen extrem hohe Punktzahlen zu erzielen. „Die meisten Benchmarks erreichen einen Punkt, an dem wir nicht viel besser abschneiden können, eine Genauigkeit von 80-90 %“, sagt Parli. „Wir müssen wirklich darüber nachdenken, wie wir, als Menschen und Gesellschaft, mit KI interagieren wollen und von dort aus neue Benchmarks entwickeln.“

Also Read:

Strategic Market Research Report on Outbound Travel Service with Anticipated CAGR of 6%

Im Gespräch erklärt Parli mehr über die Benchmarking-Trends, die sie beim AI Index sieht. Ein Benchmark ist im Wesentlichen ein Ziel, das das KI-System erreichen soll. Es ist eine Möglichkeit, zu definieren, was Sie von Ihrem Tool wollen, und dann darauf hinzuarbeiten. Ein Beispiel ist ImageNet von HAI Co-Director Fei-Fei Li, ein Datensatz von über 14 Millionen Bildern. Forscher führen ihre Bildklassifikationsalgorithmen auf ImageNet als Test für ihr System aus. Das Ziel besteht darin, so viele der Bilder wie möglich richtig zu identifizieren.

Das Team der AI Index hat verschiedene technische Benchmarks analysiert, die in den letzten zwölf Jahren rund um Vision, Sprache usw. erstellt wurden. Sie bewerteten den Stand der Technik in jedem Benchmark-Jahr im Vergleich zum Vorjahr. Für jeden Benchmark haben sie untersucht, ob die Forscher in der Lage waren, die Punktzahl des Vorjahres zu übertreffen, zu erreichen oder ob es keinerlei Fortschritt gab. Unter den mehr als 50 analysierten Benchmarks befanden sich ImageNet, ein Sprachbenchmark namens SUPERGlue, ein Hardware-Benchmark namens MLPerf und mehr als 20 weitere.

Also Read:

Embroidery Device Market Size 2023 – 2030 Market Segments by Applications, Types and Regions at a Striking 13.3% CAGR.

Bei den Untersuchungen des AI Index fiel auf, dass die Forscher trotz minimaler Fortschritte in der Überwindung des Standes der Technik im Verlauf der Jahre erhebliche Verbesserungen erzielen konnten. In diesem Jahr gab es bei den meisten Benchmarks keine nennenswerte Weiterentwicklung mehr zu verzeichnen. Das beste Bildklassifikationssystem auf ImageNet erreichte 2021 eine Genauigkeitsrate von 91 %, 2022 konnte lediglich eine Verbesserung um 0,1 Prozentpunkte erreicht werden.

Dies bedeutet für die Forscher, dass sie überprüfen müssen, ob es notwendig ist, neue und umfassendere Benchmarks für die Bewertung von KI-Tools einzuführen. Benchmarks sollten uns dabei helfen, ein Ziel zu definieren und darauf hinzuarbeiten. Es stellt sich jedoch die Frage, welche Ziele wir mit KI erreichen wollen und wie wir diese Technologien optimal für unsere Bedürfnisse nutzen können. Möglicherweise benötigen wir Benchmarks, die uns dabei helfen, die Trade-offs zwischen Genauigkeit und Verzerrungen oder Toxizitäten besser zu verstehen. Vielleicht sollten wir auch soziale Fragen in unsere Überlegungen miteinbeziehen. Es gibt viele Aspekte, die sich nicht durch quantitative Benchmarks messen lassen.

Also Read:

Farm Animal Insurance Market research report gives the information on Industry Analysis database on Farm Animal Insurance Market for period 2023 – 2030 at a CAGR of 9.4%.

Dennoch gibt es Projekte, die bereits an der Entwicklung aussagekräftigerer Benchmarks arbeiten. HELM, das von Wissenschaftlern des Center for Research on Foundation Models an der Stanford University entwickelt wurde, ist ein Beispiel für einen umfassenderen Benchmark, der nicht nur die Genauigkeit, sondern auch Faktoren wie Fairness, Toxizität, Effizienz und Robustheit berücksichtigt. Wir brauchen weitere solcher Ansätze, die eine bessere Ausrichtung unserer Benchmarks an unseren Ansprüchen ermöglichen.

In Zukunft müssen KI-Entwickler also sicherstellen

Also Read:

Dental Bridge and Crown report offers a clear understanding of market penetration by various types, applications, and sales channels with associated future possibilities. This gives the client the ability to choose the category with the greatest development potential based on those growth rates and the accompanying drivers and limitations at a Striking 8.6% CAGR Forecasted from 2023 to 2030

In Other News Around the World:

Strategic Market Research Report on Outbound Travel Service with Anticipated CAGR of 6%

Embroidery Device Market Size 2023 – 2030 Market Segments by Applications, Types and Regions at a Striking 13.3% CAGR.

Farm Animal Insurance Market research report gives the information on Industry Analysis database on Farm Animal Insurance Market for period 2023 – 2030 at a CAGR of 9.4%.

Dental Bridge and Crown report offers a clear understanding of market penetration by various types, applications, and sales channels with associated future possibilities. This gives the client the ability to choose the category with the greatest development potential based on those growth rates and the accompanying drivers and limitations at a Striking 8.6% CAGR Forecasted from 2023 to 2030

Von Michael Lewis

Michael Lewis ist ein anerkannter Schriftsteller und Journalist, der über die Welt der Finanzen, Politik und Sport schreibt. Seine Bücher, darunter "The Big Short" und "Moneyball", wurden für ihre engagierende Geschichten erzählt und aufschlussreich analysiert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert