Apple раскрыла потенциал будущих ИИ-инструментов экосистемы
Компания опубликовала исследования, демонстрирующие ИИ-модели, которые могут создавать 3D-объекты всего из пары фотографий и анализировать видеопотоки в реальном времени без специальных команд. Исследовательская команда Apple представила два новых инструмента искусственного интеллекта, которые могут существенно расширить возможности экосистемы Apple Intelligence. Модели Matrix3D и StreamBridge, описанные в недавних публикациях на официальном блоге Machine Learning, демонстрируют серьезный прогресс компании в области компьютерного зрения и обработки видео. Matrix3D представляет собой универсальную модель для фотограмметрии — технологии создания трехмерных объектов из двумерных изображений. В отличие от традиционных методов, требующих сотни снимков, Matrix3D справляется с задачей, используя всего 2−3 фотографии. Это значительно упрощает процесс и открывает новые возможности для пользователей. Технология работает по принципу «все в одном», объединяя несколько этапов в единый процесс. Модель одновременно определяет глубину, положение объектов и синтезирует новые ракурсы благодаря унифицированной архитектуре. Такой подход не только ускоряет работу, но и повышает точность результатов. При обучении Matrix3D разработчики использовали стратегию маскированного обучения. Модель тренировалась на частично заполненных данных о глубине и положении изображений, что заставляло ее самостоятельно восстанавливать недостающую информацию. Этот метод значительно улучшил способность системы работать с ограниченным количеством исходных данных.

Компания опубликовала исследования, демонстрирующие ИИ-модели, которые могут создавать 3D-объекты всего из пары фотографий и анализировать видеопотоки в реальном времени без специальных команд.
Исследовательская команда Apple представила два новых инструмента искусственного интеллекта, которые могут существенно расширить возможности экосистемы Apple Intelligence. Модели Matrix3D и StreamBridge, описанные в недавних публикациях на официальном блоге Machine Learning, демонстрируют серьезный прогресс компании в области компьютерного зрения и обработки видео.
Matrix3D представляет собой универсальную модель для фотограмметрии — технологии создания трехмерных объектов из двумерных изображений. В отличие от традиционных методов, требующих сотни снимков, Matrix3D справляется с задачей, используя всего 2−3 фотографии. Это значительно упрощает процесс и открывает новые возможности для пользователей.
Технология работает по принципу «все в одном», объединяя несколько этапов в единый процесс. Модель одновременно определяет глубину, положение объектов и синтезирует новые ракурсы благодаря унифицированной архитектуре. Такой подход не только ускоряет работу, но и повышает точность результатов.
При обучении Matrix3D разработчики использовали стратегию маскированного обучения. Модель тренировалась на частично заполненных данных о глубине и положении изображений, что заставляло ее самостоятельно восстанавливать недостающую информацию. Этот метод значительно улучшил способность системы работать с ограниченным количеством исходных данных.