Что умеет GPT-4V?
В сети появился подробный отчет о возможностях GPT-4V (Vision). Собрали самое интересное:
– Понимает текст и формулы, таблицы на фотографиях
– Распознаёт объекты и их взаимосвязи, предсказывает следующее событие в сцене
– Разбирается в медицинских ситуациях по изображениям с компьютерной томографии
– Обводит объекты и даёт им координаты
– Считает число объектов, но получается не всегда удачно
– Разбирается в головоломках и оптических иллюзиях
– Различает человеческие эмоции
– Находит различия, дефекты, оценивает повреждение.
Теперь есть автоматический ответ на скрины от коллег с подписью «Что это?».