Сотрудники Массачусетского технологического института (MIT)
разрабатывают принципиально новую технологию каталогизации и машинного
поиска изображений, сообщает Compulenta.
По словам доцента Лаборатории информатики и искусственного интеллекта
MIT Антонио Торральбы, он и его коллеги пытаются определить минимальное
количество информации для каждого графического изображения, которое
позволит (машине или человеку) получить представление о его содержании.
Иными словами, речь идёт о по возможности кратком цифровом коде,
которым можно было бы представить содержимое картинки.
О полноценном представлении говорить не приходится, да и цель состоит в
ином: учёные пытаются разработать алгоритм, который позволит
автоматически каталогизировать миллиарды изображений во Всемирной сети
исходя из их содержания. Это позволит, например, существенно
усовершенствовать автоматический поиск изображений.
"Мы пытаемся представить изображения в виде очень короткого кода, -
говорит Торральба, - так что если у двух изображений такие коды
оказываются похожи, то и сами они, скорее всего, имеют между собой
определённое сходство, например, изображают примерно одинаковые объекты
примерно в одинаковой конфигурации". Таким образом, если одна картинка
снабжена описывающим её содержание названием или тэгом alt, то другие
изображения, чьи репрезентные цифровые коды оказываются сходны с кодом
первой, по мнению исследователей, будут отображать такие же объекты,
что и первая. И тогда термины (названия и понятия), ассоциируемые с
первой картинкой, можно экстраполировать на другие, непоименованные,
изображения.
"Мы можем понять, что изображено на картинках даже когда их разрешение
очень мало, поскольку мы многое знаем о самих картинках, - говорит
Торральба. - Как правило, человеку достаточно, чтобы разрешение
картинки составляло 32 на 32 точки, чтобы распознать её содержание". В
свою очередь, миниатюры в поисковике Google имеют размеры 100х100
точек.
Торральба и его соратники придумали математический аппарат, который
позволяет сократить объём полезных данных, так что каждое изображение
можно представить в виде кода размером в 256-1024 бита, при этом
содержимое изображения остаётся хотя бы частично распознаваемым. В
результате, с помощью своей системы кодирования, Торральбе и его
коллегам удалось представить 12,9 миллионов изображений, скачанных из
интернета, в виде массива объёмом всего лишь 600 мегабайтов данных. По
словам исследователей, их система весьма неплохо справляется с
определением нескольких наиболее распространённых типов объектов -
людей, машин, растений и строений. С более "экзотическими" образами она
справляется хуже. По словам Торральбы, его исследования по-прежнему
находятся на ранних этапах, и что проблемы с определением нечасто
встречающихся объектов, скорее всего, будут оставаться всегда.
Источник: Compulenta |