Кросспост моего поста с http://mathlingvo.ru/
В блоге Google Open Source Blog появилось сообщение о новом open source инструменте word2vec.
Исследователи Google утверждают, что при его помощи можно получить
смысл слов, лишь прочитав огромные массивы данных. Инструмент применяет
"распределённые представления" текстовых данных для обнаружения связей
между концептами -- и всё это при помощи машинного обучения без учителя (unsupervised machine learning) на основе нейронных сетей (neural networks).

Интересно,
что модель помещает близкие страны рядом, как и близкие столицы.
Похожие связи возникают автоматически во время тренировки алгоритма.
У
исходного кода хорошая лицензия: Apache License 2.0, которая позволяет
менять его без опубликования изменений и встраивать его в том числе в
коммерческие приложения.
В статье также упоминается ставший популярным в последнее время метод Deep Learning, дающий результаты, лучшие на порядок предыдущих методов. Кстати, большинство победителей конкурсов по машинному обучению на kaggle (ваш покорный слуга также имел честь участвовать) применяет либо ансамбли методов на Decision Trees, либо методы Deep Learning.
// ./demo_word.sh
Enter word or sentence (EXIT to break): machine translation
Word: machine Position in vocabulary: 799
Word: translation Position in vocabulary: 1206
Word Cosine distance
------------------------------------------------------------------------
mmix 0.485542
translator 0.484659
msil 0.483476
manual 0.479708
turing 0.462978
introduction 0.458771
readable 0.449272
unabridged 0.448343
machines 0.447570
rosetta 0.443270
compiler 0.438949
dictionary 0.437040
translations 0.436334
translated 0.429008
specification 0.422286
typewriter 0.422246
awk 0.420415
version 0.417623
interpreter 0.415583
itrans 0.414944
tools 0.413505
annotated 0.413150
lincos 0.411448
abridged 0.411152
text 0.407197
language 0.404664
freedb 0.403896
vulgate 0.402863
xpath 0.401687
calculator 0.397689
enigma 0.394239
klingon 0.394041
opencyc 0.393687
systran 0.391636
multics 0.391623
kli 0.389196
apl 0.386948
editions 0.383799
skybox 0.383791
algol 0.383730
Enter word or sentence (EXIT to break): weather
Word: weather Position in vocabulary: 2693
Word Cosine distance
------------------------------------------------------------------------
warm 0.634004
humidity 0.611526
humid 0.605240
summers 0.594220
thunderstorms 0.591256
snowfall 0.590065
precipitation 0.582246
climate 0.580110
winters 0.577238
rainfall 0.570583
rainy 0.566492
below_freezing 0.566140
rainy_season 0.561857
cooler 0.558795
winds 0.558283
colder 0.557494
cold_winters 0.545980
wet 0.545650
frosts 0.539969
drier 0.539645
climatic 0.537766
warmer 0.535417
winter 0.532653
warm_summers 0.530857
el_ni 0.530692
temperatures 0.528191
relative_humidity 0.527605
summer 0.527042
mild_winters 0.526249
monsoon 0.524260
trade_winds 0.523211
daytime 0.523093
seasonal 0.520377
dry 0.519703
hurricanes 0.517527
subarctic 0.514771
visibility 0.514740
snowfalls 0.513660
monsoonal 0.513538
hot_summers 0.513050
No comments:
Post a Comment