(044) 383-69-91 (098) 693-86-87

Статьи

Блог

19

, 2013

Латентно-семантический анализ

Автор: | Метки: | Коментарий: 0

Одним из механизмов работы поисковых машин является латентно-семантическое индексирование. Это мощнейшая процедура, применяемая для анализа различных текстов в интернете, веб-документов. Это понятие тесно связано с латентно-семантическим анализом, который, в свою очередь, позволяет определить, насколько естественным является текст на определенной странице. Также, с его помощью можно находить тексты сходной тематики.

Латентно-семантический анализ хорошо зарекомендовал себя как метод обработки информации, анализирующий некое множество текстов и термины, встречающиеся в них.

Латентно-семантический анализ основан на таких допущениях: текст в документе представляет собой просто набор слов, связи слов пренебрегаются, важна встречаемость данного слова в тексте. Каждое слово имеет только одно, преимущественно денотативное значение. Смысловое значение текста определяется набором идущих вместе слов.

У латентно-семантического анализа множество преимуществ: это лучший метод для выявления зависимостей среди множества документов; метод может быть применен как с обучением, так и без обучения.

Недостатком метода является снижение скорости вычисления при увеличении объема входных данных. Также: вероятностная модель метода не соответствует реальности.

Алгоритм проведения латентно-семантического анализа выглядит примерно таким образом:

Берется несколько текстовых документов. Из них удаляются все не несущие смысловой нагрузки символы – местоимения, союзы, предлоги, причастия, и др.

Проводится операция стемминга. При больших объемах текстов она не является обязательной – метод и так дает достоверные результаты, но все же пренебрегать ей не стоит. Тем более она значительно упрощает математические расчеты. Заключается в поиске основы слова и подборе однокоренных слов  с отбрасыванием частиц, суффиксов, приставок. Очень часто стемминг проводится с помощью алгоритма Портера.

Для большего выделения индексируемых слов удаляются слова, встречающиеся в одном экземпляре. Затем составляется частотная матрица, в которой строки соответствуют индексируемым словам, а столбцы – документам. В ячейках указано, сколько раз данное слово встречается в документе.

Далее путем сингулярного разложения частотной матрицы и последующих математических расчетов определяется связь между группами текстов и ключевыми словами.