Künstliche Intelligenz (KI) ist auf dem Vormarsch und wird zunehmend in verschiedenen Bereichen eingesetzt. Jedoch fordern Wissenschaftler weltweit mehr Transparenz hinsichtlich der Bewertung von KI-Systemen. Eine Gruppe von 16 Forschern hat in einer Stellungnahme im Fachmagazin Science umfassende Änderungen in der Bewertung und Berichterstattung von KI-Systemen gefordert, um sicherzustellen, dass die Menschen verstehen, wie effektiv die Systems wirklich sind.
Professor Anthony Cohn von der Universität Leeds warnte, dass ohne mehr Transparenz, Menschen dazu neigen könnten, einem System zu vertrauen, wenn es nicht angemessen eingesetzt wird. Bisher werden KI-Systeme anhand von „Benchmarks“ bewertet, wobei ein großer Datensatz von „Probleminstanzen“ wie beispielsweise ein Satz von Röntgenaufnahmen verwendet wird. Anomalien werden dabei als Anmerkungen hervorgehoben. Das KI-System kann auf einem Teil davon trainiert werden und dann auf einem unbeschrifteten Satz von Instanzen, ohne Anmerkungen, getestet werden, um zu überprüfen, wie gut es in der Lage ist, die richtigen Anmerkungen zu erkennen.
Also Read:
Die Gesamtleistung des KI-Systems wird dann anhand von statistischen Aggregaten gemessen und berichtet, die häufig sehr hohe Leistungsniveaus erreichen können. Diese statistischen Aggregatwerte können jedoch Bereiche mit schlechter Leistung auf „Minderheitsfälle“ verschleiern, was tiefgreifende Auswirkungen auf jede Person hat, die auf die Gesamtstatistik vertraut und glaubt, dass das KI-System in allen Bereichen gleich zuverlässig ist. Dies ist besonders kritisch im Bereich der KI-basierten Diagnose-Systeme im Gesundheitswesen, da diese Systeme bei der Betrachtung von Personen einer bestimmten Ethnie oder demografischen Gruppe auf Probleme stoßen können, wenn diese Fälle nur einen geringen Anteil an seiner „Schulung“ ausmachen.
Das Problem könnte sich jedoch auch in anderen Bereichen zeigen, wie beispielsweise bei einem System, das zur Entscheidung über Kreditkartenanträge eingesetzt wird und möglicherweise gegenüber bestimmten Minderheitsgruppen von Antragstellern verzerrte Bewertungen vornimmt. Die Autoren der Stellungnahme empfehlen daher, dass Forscher sorgfältige und aufschlussreiche Berichte zu den von ihnen verwendeten Probleminstanzen geben sollten. Zudem sollten alle aufgezeichneten Bewertungsergebnisse – sowohl Erfolge als auch Misserfolge – zur Verfügung gestellt werden, damit andere Forscher die Analysen replizieren und Follow-Up-Evaluationen durchführen können.
Also Read:
Die KI-Entwicklung ist derzeit darauf ausgelegt, den aktuellen Stand der Technik zu übertreffen, um veröffentlicht zu werden und Wettbewerbe zu gewinnen. Dies hat jedoch den Nachteil, dass die Forscher sich eher auf eine Verbesserung von Gesamtmessgrößen konzentrieren und kein Interesse an einer sorgfältigen Überprüfung der Systemleistung haben. Dies führt zu einer mangelnden Transparenz und mangelnde Robustheit in der Bewertung von KI-Systemen.
Die Autoren der Stellungnahme haben daher vier neue Leitlinien für eine robuste Bewertung von KI-Systemen festgelegt. Hierzu zählt die Forderung, dass Forscher detaillierte Berichte über die von ihnen verwendeten Probeninstanzen geben, um eine fundierte Analyse von Stärken und Schwächen zu ermöglichen. Alle aufgezeichneten Bewertungsergebnisse sollten verfügbar sein, sodass andere Forscher die Analysen replizieren und Follow-Up-Evaluationen durchführen können.
Also Read:
Die KI-Entwicklung hat in den letzten Jahren enorme Fortschritte gemacht, allerdings gibt es auch zunehmend Bedenken in Bezug auf den Einsatz von KI-Systemen. Insbesondere, wenn der Prozess der Bewertung und Berichterstattung über die Leistung von KI-Systemen intransparent ist. Um das Vertrauen der Öffentlichkeit zu stärken
In Other News Around the World: