Kategorien
KI-News

GPT-4V von OpenAI führend in visuellen Fähigkeiten gegenüber Googles Gemini Pro

In zwei bahnbrechenden wissenschaftlichen Arbeiten, veröffentlicht von Tencent Youtu Lab, der University of Hongkong und mehreren renommierten Universitäten und Instituten, wurden die visuellen Fähigkeiten von Googles Gemini Pro und OpenAIs GPT-4V, dem derzeit leistungsfähigsten multimodalen Sprachmodell, ausführlich verglichen.

Die Forschung konzentrierte sich auf verschiedene Dimensionen wie Bilderkennung, Texterkennung in Bildern, Bildinferenzfähigkeiten, Textinferenzfähigkeiten in Bildern, integriertes Bild- und Textverständnis, Objektlokalisierung, zeitliches Videoverständnis und mehrsprachige Fähigkeiten.

Beide Modelle, GPT-4V und Gemini Pro, lieferten beeindruckende Leistungen bei grundlegenden Bilderkennungsaufgaben, Textextraktion aus Bildern und zeigten ein starkes Common-Sense-Verständnis beim Bildverstehen. Bei der Mustersuche und in IQ-Tests schnitt GPT-4V leicht besser ab als Gemini Pro.

In Bezug auf Humor, Emotionen und ästhetisches Urteilsvermögen (EQ-Tests) bewiesen beide Modelle ein gutes Verständnis. Bei komplexen tabellenbasierten Argumentationen und mathematischen Problemlöseaufgaben zeigte GPT-4V im Textverständnis jedoch teils bessere Leistungen im Vergleich zu Gemini Pro.

Gemini Pro punktete hingegen mit besonders ausführlichen Antworten und der Integration von relevanten Bildern und Links. Doch in industriellen Anwendungen, speziell in den Bereichen Embodied Agent und GUI-Navigation, übertraf GPT-4V Gemini Pro.

Insgesamt wird GPT-4V als etwas leistungsfähiger als Gemini Pro eingestuft, wobei mögliche Verbesserungen durch Gemini Ultra und GPT-4.5 in Aussicht stehen. Beide Modelle haben jedoch noch Schwächen im räumlichen visuellen Verständnis, der Schrifterkennung, dem logischen Argumentieren und der Robustheit von Prompts.

Die Forschungsteams sind sich einig, dass sowohl Gemini als auch GPT-4V beeindruckende multimodale KI-Modelle darstellen. Die Entwicklung hin zu einer multimodalen generellen KI erfordert jedoch noch weitere Fortschritte und Innovationen.

Für vertiefte Einblicke und detaillierte Vergleiche siehe: https://the-decoder.de/gemini-pro-vs-gpt-4-visuelle-faehigkeiten-im-vergleich/

Schreibe einen Kommentar