Кросспост моего поста с http://mathlingvo.ru/
В блоге Google Open Source Blog появилось сообщение о новом open source инструменте word2vec.
Исследователи Google утверждают, что при его помощи можно получить
смысл слов, лишь прочитав огромные массивы данных. Инструмент применяет
"распределённые представления" текстовых данных для обнаружения связей
между концептами -- и всё это при помощи машинного обучения без учителя (unsupervised machine learning) на основе нейронных сетей (neural networks).

Интересно,
что модель помещает близкие страны рядом, как и близкие столицы.
Похожие связи возникают автоматически во время тренировки алгоритма.
У
исходного кода хорошая лицензия: Apache License 2.0, которая позволяет
менять его без опубликования изменений и встраивать его в том числе в
коммерческие приложения.
В статье также упоминается ставший популярным в последнее время метод Deep Learning, дающий результаты, лучшие на порядок предыдущих методов. Кстати, большинство победителей конкурсов по машинному обучению на kaggle (ваш покорный слуга также имел честь участвовать) применяет либо ансамбли методов на Decision Trees, либо методы Deep Learning.
// ./demo_word.sh Enter word or sentence (EXIT to break): machine translation Word: machine Position in vocabulary: 799 Word: translation Position in vocabulary: 1206 Word Cosine distance ------------------------------------------------------------------------ mmix 0.485542 translator 0.484659 msil 0.483476 manual 0.479708 turing 0.462978 introduction 0.458771 readable 0.449272 unabridged 0.448343 machines 0.447570 rosetta 0.443270 compiler 0.438949 dictionary 0.437040 translations 0.436334 translated 0.429008 specification 0.422286 typewriter 0.422246 awk 0.420415 version 0.417623 interpreter 0.415583 itrans 0.414944 tools 0.413505 annotated 0.413150 lincos 0.411448 abridged 0.411152 text 0.407197 language 0.404664 freedb 0.403896 vulgate 0.402863 xpath 0.401687 calculator 0.397689 enigma 0.394239 klingon 0.394041 opencyc 0.393687 systran 0.391636 multics 0.391623 kli 0.389196 apl 0.386948 editions 0.383799 skybox 0.383791 algol 0.383730 Enter word or sentence (EXIT to break): weather Word: weather Position in vocabulary: 2693 Word Cosine distance ------------------------------------------------------------------------ warm 0.634004 humidity 0.611526 humid 0.605240 summers 0.594220 thunderstorms 0.591256 snowfall 0.590065 precipitation 0.582246 climate 0.580110 winters 0.577238 rainfall 0.570583 rainy 0.566492 below_freezing 0.566140 rainy_season 0.561857 cooler 0.558795 winds 0.558283 colder 0.557494 cold_winters 0.545980 wet 0.545650 frosts 0.539969 drier 0.539645 climatic 0.537766 warmer 0.535417 winter 0.532653 warm_summers 0.530857 el_ni 0.530692 temperatures 0.528191 relative_humidity 0.527605 summer 0.527042 mild_winters 0.526249 monsoon 0.524260 trade_winds 0.523211 daytime 0.523093 seasonal 0.520377 dry 0.519703 hurricanes 0.517527 subarctic 0.514771 visibility 0.514740 snowfalls 0.513660 monsoonal 0.513538 hot_summers 0.513050
No comments:
Post a Comment