Несколько недель назад я был в торговом центре, когда заметил женщину, несущую большую сумочку с веревочным ремнем. Так как я нахожусь на рынке для новой сумки, я подумал спросить ее, где она получила это. Но прежде чем я успел сделать ход, она исчезла за углом. Когда я вернулся домой, я попытался найти сумку в Google. Но я не модница, и я обнаружил, что у меня не было словарного запаса, чтобы описать то, что я видел. «Кожаная сумка с ремешком на шнурке» была не права. Не было ни «кошелька с ручкой для веревки», ни «сумки с веревочным ремешком». В конце концов я сдался.
Теперь новая технология направлена на то, чтобы помочь людям искать то, что они не могут описать словами.
Джеймс Хейс, специалист по компьютерным технологиям из Технологического института Джорджии, создал компьютерную программу, способную сопоставлять нарисованные от руки изображения с фотографиями. Это может в конечном итоге привести к созданию программы, которая может объединять службы поиска изображений в Интернете, такие как Google Images, и находить фотографии, которые точно соответствуют чертежам пользователей.
«Цель состоит в том, чтобы иметь возможность связывать или сопоставлять фотографии и эскизы в любом направлении, как это делает человек», - говорит Хейс. «Человек может увидеть плохо нарисованный эскиз и выяснить, к какой фотографии он подходит. Мы хотим иметь такую же вычислительную возможность ».
Для создания программы Хейс нанял около 700 рабочих из Amazon Mechanical Turk, краудсорсингового рынка, который подбирает работников с людьми, которым нужны выполненные задачи. Его команда показала рабочим фотографии обычных предметов и животных, таких как белки, чайники и бананы, позволяя им смотреть на изображение в течение двух секунд. Затем рабочий вытягивал объект из памяти. В итоге команда собрала более 75 000 эскизов из 12 500 объектов. Они назвали это «Sketchy база данных».
Затем программа проанализировала эскизы и сопоставила их с фотографией, наиболее похожей на них. Технология определила правильную фотографию в 37 процентах случаев. Люди, в сравнении, были правы примерно в 54% случаев. Хотя 37 процентов могут показаться не впечатляющими, на самом деле это большой скачок для компьютеров.
«Люди настолько поразительно хороши в зрении, что мы легко распознаем изображения», - говорит Хейс. «Это на самом деле удивительно сложно в вычислительном отношении».
Одна из главных проблем в улучшении программы состоит в том, что большинство людей - довольно паршивые художники. Как писал Хейс и его команда в статье на эту тему: «Формы и масштабы искажены. Части объекта являются карикатурными (большие уши на слоне), антропоморфизированными (улыбающийся рот на пауке) или упрощенными (конечности в виде фигурок) ».
Исторически исследования, направленные на то, чтобы заставить компьютеры распознавать эскизы, были сосредоточены на таких вещах, как распределение линий на чертеже, направление, в котором проходят линии, или границы чертежа. Но поскольку люди рисуют только то, что заметно для людей (например, глаза всегда включены в эскизы, даже если они относительно маленькие), для компьютера важно «узнать», как эскизы имеют тенденцию быть похожими и как они имеют тенденцию отличаться от фотографий. Для этого в программе используются две отдельные сети: одна для оценки эскизов, другая для оценки фотографий. Постоянный анализ большого набора данных позволяет программе «учиться».
Хейс и его команда планируют продолжать совершенствовать программу, добавляя данные. Достижения в области компьютерного обучения также должны помочь улучшить показатели соответствия. На данный момент программа имеет довольно высокий уровень сопоставления при сравнении эскизов с базами данных фотографий в Интернете, включая Flickr, хотя количественно определить это сложно, говорит Хейс.
В дополнение к поиску изображений в сумочке, в котором я так нуждаюсь, у программы есть несколько менее легкомысленных потенциальных применений. Полиция может сканировать подозрительные зарисовки и сравнивать их с базой криминальных фотографий. Программу могут использовать люди, которые говорят и пишут на любом языке или вообще не умеют писать.
«Одной из целей понимания эскизов является то, что они являются несколько универсальным языком», - говорит Хейс. «Это не связано с конкретным письменным языком и даже не связано с грамотностью вообще. [Такая программа может обеспечить] доступ к информации без письменного языка ».
Программа также может быть использована художественно, чтобы создать фотореалистичные сцены из эскизов. Всегда представлял себе жизнь в замке на луне? Нарисуйте его, и однажды программа сможет создать для вас фотоизображение, соединив кусочки других изображений.
По словам Хейса, информация, собранная Хейсом и его командой, также может помочь решить некоторые вопросы неврологии и психологии.
«Эти пары« эскиз-фотография »что-то говорят о человеческом восприятии, о том, что мы считаем заметным, какие части изображений привлекают наше внимание», - говорит Хейс. «В некотором смысле, эта база данных кодирует это довольно хорошо. Из этого можно что-то дразнить, если вы хотите что-то сказать о самих людях ».