Google entwickelt mit ScreenAI KI-Modell für Bildschirminhalte

Google-Forscher haben kürzlich ein bemerkenswertes KI-Modell namens ScreenAI vorgestellt, das die Fähigkeit besitzt, Bildschirminhalte zu verstehen und mit ihnen zu interagieren. Diese Technologie verspricht eine Vielzahl von Anwendungsmöglichkeiten, von automatisierten Tests bis hin zu intelligenten Assistenten und Geräten, die ohne Display auskommen, aber dennoch mit Apps und Websites interagieren können.

Das Herzstück von ScreenAI ist ein Vision Language Model, das visuelle und sprachliche Informationen kombiniert. Es kann UI-Elemente identifizieren, ihre Funktion und Position bestimmen und Fragen dazu beantworten. Darüber hinaus kann es Anweisungen wie „Klicke auf den Suchbutton“ in konkrete Aktionen umsetzen oder den Inhalt eines Bildschirms zusammenfassen.

Die Forscher sehen ein breites Spektrum an potenziellen Anwendungen für ScreenAI, darunter automatisierte Tests von Benutzeroberflächen, Interaktion von Sprachassistenten mit dargestellten Inhalten und eine verbesserte Zugänglichkeit für sehbehinderte Nutzer durch detaillierte Beschreibungen von Interfaces. Weitere Anwendungsbereiche umfassen die Optimierung von Suchmaschinen und Empfehlungssystemen sowie die Datenextraktion aus Dokumenten.

Obwohl ScreenAI bereits vielversprechende Ergebnisse in Benchmarks erzielt hat, betonen die Forscher, dass die Entwicklung noch nicht abgeschlossen ist und es Raum für Verbesserungen gibt. Es bleibt abzuwarten, welche konkreten Produkte oder Dienste auf Basis dieser Technologie entstehen werden, da Google seine Forschungsergebnisse manchmal nicht in konkrete Anwendungen umsetzt, sondern sie beispielsweise nur intern nutzt.

Schreibe einen Kommentar Antworten abbrechen