https://frosthead.com

Поисковая система, которая сопоставляет ваши рисунки с фотографиями, не слишком далека

Несколько недель назад я был в торговом центре, когда заметил женщину, несущую большую сумочку с веревочным ремнем. Так как я нахожусь на рынке для новой сумки, я подумал спросить ее, где она получила это. Но прежде чем я успел сделать ход, она исчезла за углом. Когда я вернулся домой, я попытался найти сумку в Google. Но я не модница, и я обнаружил, что у меня не было словарного запаса, чтобы описать то, что я видел. «Кожаная сумка с ремешком на шнурке» была не права. Не было ни «кошелька с ручкой для веревки», ни «сумки с веревочным ремешком». В конце концов я сдался.

Теперь новая технология направлена ​​на то, чтобы помочь людям искать то, что они не могут описать словами.

Джеймс Хейс, специалист по компьютерным технологиям из Технологического института Джорджии, создал компьютерную программу, способную сопоставлять нарисованные от руки изображения с фотографиями. Это может в конечном итоге привести к созданию программы, которая может объединять службы поиска изображений в Интернете, такие как Google Images, и находить фотографии, которые точно соответствуют чертежам пользователей.

«Цель состоит в том, чтобы иметь возможность связывать или сопоставлять фотографии и эскизы в любом направлении, как это делает человек», - говорит Хейс. «Человек может увидеть плохо нарисованный эскиз и выяснить, к какой фотографии он подходит. Мы хотим иметь такую ​​же вычислительную возможность ».

Для создания программы Хейс нанял около 700 рабочих из Amazon Mechanical Turk, краудсорсингового рынка, который подбирает работников с людьми, которым нужны выполненные задачи. Его команда показала рабочим фотографии обычных предметов и животных, таких как белки, чайники и бананы, позволяя им смотреть на изображение в течение двух секунд. Затем рабочий вытягивал объект из памяти. В итоге команда собрала более 75 000 эскизов из 12 500 объектов. Они назвали это «Sketchy база данных».

Затем программа проанализировала эскизы и сопоставила их с фотографией, наиболее похожей на них. Технология определила правильную фотографию в 37 процентах случаев. Люди, в сравнении, были правы примерно в 54% случаев. Хотя 37 процентов могут показаться не впечатляющими, на самом деле это большой скачок для компьютеров.

«Люди настолько поразительно хороши в зрении, что мы легко распознаем изображения», - говорит Хейс. «Это на самом деле удивительно сложно в вычислительном отношении».

Одна из главных проблем в улучшении программы состоит в том, что большинство людей - довольно паршивые художники. Как писал Хейс и его команда в статье на эту тему: «Формы и масштабы искажены. Части объекта являются карикатурными (большие уши на слоне), антропоморфизированными (улыбающийся рот на пауке) или упрощенными (конечности в виде фигурок) ».

Исторически исследования, направленные на то, чтобы заставить компьютеры распознавать эскизы, были сосредоточены на таких вещах, как распределение линий на чертеже, направление, в котором проходят линии, или границы чертежа. Но поскольку люди рисуют только то, что заметно для людей (например, глаза всегда включены в эскизы, даже если они относительно маленькие), для компьютера важно «узнать», как эскизы имеют тенденцию быть похожими и как они имеют тенденцию отличаться от фотографий. Для этого в программе используются две отдельные сети: одна для оценки эскизов, другая для оценки фотографий. Постоянный анализ большого набора данных позволяет программе «учиться».

Хейс и его команда планируют продолжать совершенствовать программу, добавляя данные. Достижения в области компьютерного обучения также должны помочь улучшить показатели соответствия. На данный момент программа имеет довольно высокий уровень сопоставления при сравнении эскизов с базами данных фотографий в Интернете, включая Flickr, хотя количественно определить это сложно, говорит Хейс.

В дополнение к поиску изображений в сумочке, в котором я так нуждаюсь, у программы есть несколько менее легкомысленных потенциальных применений. Полиция может сканировать подозрительные зарисовки и сравнивать их с базой криминальных фотографий. Программу могут использовать люди, которые говорят и пишут на любом языке или вообще не умеют писать.

«Одной из целей понимания эскизов является то, что они являются несколько универсальным языком», - говорит Хейс. «Это не связано с конкретным письменным языком и даже не связано с грамотностью вообще. [Такая программа может обеспечить] доступ к информации без письменного языка ».

Программа также может быть использована художественно, чтобы создать фотореалистичные сцены из эскизов. Всегда представлял себе жизнь в замке на луне? Нарисуйте его, и однажды программа сможет создать для вас фотоизображение, соединив кусочки других изображений.

По словам Хейса, информация, собранная Хейсом и его командой, также может помочь решить некоторые вопросы неврологии и психологии.

«Эти пары« эскиз-фотография »что-то говорят о человеческом восприятии, о том, что мы считаем заметным, какие части изображений привлекают наше внимание», - говорит Хейс. «В некотором смысле, эта база данных кодирует это довольно хорошо. Из этого можно что-то дразнить, если вы хотите что-то сказать о самих людях ».

Поисковая система, которая сопоставляет ваши рисунки с фотографиями, не слишком далека