https://frosthead.com

Программное обеспечение создает одну картину, которая говорит все

Каждый день пользователи загружают в Facebook более 350 миллионов фотографий. Этот приток изображений привел аналитиков к оценке, что 10 процентов из 3, 5 триллионов фотографий в мире были сделаны в прошлом году. Все эти данные, заполняющие Интернет, означают, что, если вы ищете определенное изображение или объект, например, как выглядит оранжевый полосатый кот, вы попадаете в результаты поиска.

В прошлом месяце исследователи из Калифорнийского университета в Беркли представили новое программное обеспечение AverageExplorer, которое позволит пользователям видеть «среднее» изображение, представляющее то, что они ищут. Вместо картины, которая стоит тысячу слов, это картинка, которая стоит тысячу или более картин.

«Когда вы начнете поиск изображений в Google, вы будете просеивать страницы и страницы с изображениями», - объясняет Джун-Ян Чжу, аспирант Калифорнийского университета в Беркли и ведущий автор статьи, представленной в этом году на Международной конференции и выставке по компьютерной графике. и интерактивные методы в Ванкувере. «Это огромный и сложный итог; Вы не можете понять, что происходит.

Для первоначального предложения Чжу и его команда собрали фотографии с помощью поиска изображений Flickr, Google и Bing. Программное обеспечение обладает низким энергопотреблением для работы на обычном рабочем столе и может одновременно обрабатывать около 10 000 изображений.

Пользователи уточняют свои поиски несколькими способами. Они могут рисовать и раскрашивать фигуры, похожие на рисование в Adobe Photoshop или Illustrator, для повышения резкости своего среднего изображения. Например, окрашивание фона среднего изображения Эйфелевой башни само выберет среднее изображение, чтобы получить только снимки, сделанные ночью. Или вы можете нарисовать наклонные линии, чтобы контролировать ориентацию бабочки в композите.

Мост Вздохов, Из Дня в Ночь Уточнив цвета в изображении AverageExplorer на Мосту вздохов, вы можете изменить сцену от дня к сумраку на ночь. (Предоставлено Калифорнийским университетом в Беркли)

После того, как среднее изображение создано, процесс, который может занять до минуты, пользователи могут дополнительно уточнить результат, используя то, что команда называет режим обозревателя. В этом режиме нажатие на определенную часть изображения - скажем, кошачий нос - покажет другие общие параметры или уточнения для этого пятна - возможно, синие или черные носы, или те, которые округлены вместо угловых. Например, в демонстрационном видео команда усовершенствовала изображение детей на коленях Санты, выбрав только те изображения, на которых у Санта есть один ребенок на каждой руке.

Там, где система станет особенно мощной, говорит Чжу, это инструмент для обучения алгоритмам компьютерного зрения, подобным тем, которые используются в приложениях Google Goggles или Amazon Firefly, которые могут определить, на что указывает камера. «В области компьютерного зрения люди тратят много денег на аннотирование объектов», - объясняет он. «Теперь вы можете применить аннотацию к среднему изображению. Идея состоит в том, что вам нужно работать только с одним изображением, чтобы распространить все изображения в наборе данных ».

В поисках пород кошек Уточняя способы поиска результатов, исследователи могут найти конкретные породы кошек, в том числе (слева направо) Рагдолл, Сиамские, Мейн-кун и Сфинкс. (Предоставлено Калифорнийским университетом в Беркли)

Создание художественных работ - низко висящий фрукт для AverageExplorer. Команда черпала вдохновение у художников из новых медиа, таких как Джейсон Салавон, который кропотливо создавал усредненные фотографии вручную. Он также может быть использован для создания подключаемого модуля Facebook, который позволяет пользователям возиться со средним изображением себя.

Устремления исследователей еще шире и эффективнее. Социологи могут использовать эту систему для выявления и исследования социальных тенденций; например, усредненное изображение может доказать, что невесты чаще всего стоят справа от жениха на свадебных портретах. AverageExplorer также может быть полезным инструментом для аналитиков СМИ, пытающихся анализировать освещение на телевидении. Меняется ли позиция Стивена Колберта, когда он говорит о Джордже Буше-младшем и Бараке Обаме?

Позволяя пользователям интуитивно взаимодействовать с визуальными данными, а не пытаться ввести правильную строку ключевых слов, пользователи смогут соединить то, что советник Zhu и соучредитель AverageExplorer Алексей Эфрос называет «языковым узким местом».

Команда представляет набор пользовательских инструментов, предназначенных для конкретных, трудно формулируемых задач. Например, приложение для совершения покупок позволило бы пользователю найти паутину в паутине с точным цветом, формой и высотой каблука, которые ему нужны. Чжу представляет инструмент, который интегрируется с рабочим процессом полицейских эскизов, позволяя свидетелю искать лица в базах данных на предмет особенностей, которые соответствуют преступнику, и создавать составной портрет.

Базовая версия AverageExplorer будет выпущена этой осенью.

Программное обеспечение создает одну картину, которая говорит все