Продолжая
тему Deep Learning, получившую в последнее время большое внимание
научного сообщества и индустрии, хочется рассказать про довольно
необычную сферу применения нейронных сетей. Это сфера разбора (parsing)
изображений рекурсивными нейронными сетями. В этом посте я кратко опишу
суть и приведу ссылки для более детального ознакомления с материалом.
Помимо этого будет ссылка на задачу из Stanford'а для желающих
попробовать свои силы и получить практический результат в области deep
learning для NLP.
Этот пост базируется на докладе Richard Socher, видео на английском доступно здесь.
Как
оказывается, рекурсивной (или некоторой регулярной) структурой может
обладать не только язык, но и изображения. Но в начале о рекурсивных
свойствах предложений. Принцип композиционности (principle of
compositionality) делает предположение, что любое предложение на
естественном языке можно представить в виде иерархической структуры из
связных составляющих. Смысл предложения можно представить в виде смыслов
слов, в него входящих, и списка правил соединения слов в группы.
Например, в предложении:
Это страна моего рождения.
Cлова
"моего" и "рождения" образуют единую группу, "страна" и "моего
рождения" над-группу, а всё предложение замыкает его смысл в виде
иерархического представления указанных групп. Таким образом, получаются
не только смыслы отдельных слов предложения, но и древесные структуры, в
которые данные слова увязываются.
Как
можно разобрать изображения по аналогии с текстовыми рекурсивными представлениями?
Можно утверждать, что существует схожий принцип композиционности для
изображений. Рассмотрим изображение:
Если рассмотреть некоторые сегменты изображения: здание, конусообразная крыша, оконный ряд, окна по отдельности. В указанном порядке они описывают "вложенную" рекурсивную структуру, которой можно описать здание целиком. Есть ещё параллельные зданию объекты -- люди, деревья и трава. Таким образом, изображение, например, дома можно представить виде древесной структуры, где узлы на нижних уровнях являются составляющими узлов-предков. В точности, как и в древесных структурах предложений на естественном языке.
Алгоритм на основе рекурсивных нейронных сетей авторов Socher и др. достигает 78,1% качества. Область применения таких алгоритмов -- распознавание сцен (область анализа изображений или image analysis). Исходные коды и датасеты можно посмотреть здесь.
Алгоритм на основе рекурсивных нейронных сетей авторов Socher и др. достигает 78,1% качества. Область применения таких алгоритмов -- распознавание сцен (область анализа изображений или image analysis). Исходные коды и датасеты можно посмотреть здесь.
Задачка. Для более детального ознакомления с deep learning в применении к задачам NLP на сайте Stanford'a предлагается к решению задачка: реализовать простой оконный распознаватель именных сущностей (Named Entity Recognition или NER). Описание задачки здесь. Стартовый исходный код на Java и тренировочный сет здесь. Тренировочный сет аннотирован персонами, например:
Franz PERSON
Fischler PERSON
У исходного кода есть два режима: собственно, исполнение и отправка решения на сервер. Понятно, что из этих двух режимов нас интересует первый.
Довольно много материалов по теме Deep Learning можно найти на сайте Richard Socher, включая применение данного направления к распознаванию тональности (sentiment analysis).
Franz PERSON
Fischler PERSON
У исходного кода есть два режима: собственно, исполнение и отправка решения на сервер. Понятно, что из этих двух режимов нас интересует первый.
Довольно много материалов по теме Deep Learning можно найти на сайте Richard Socher, включая применение данного направления к распознаванию тональности (sentiment analysis).
No comments:
Post a Comment