Определение популярности тем сайта посредством анализа его обратных ссылок
17

Полученная матрица сохраняется в файле с расширением hdf5 с помощью пакета h5py. Данный формат был выбран благодаря возможностям хранить большие объёмы данных и работать с массивами NumPy, в виде которых представлены данные во время их обработки.

 

2.4 Латентно-семантическое индексирование

 

Построенная матрица термин-документ является разреженной, т.е. матрицей, в которой подавляющее большинство элементов нулевые, однако, в процессе построения она была представлена в виде обычного массива. Для сокращения времени выполнения сингулярного разложения и объёма используемой памяти требуется перевести матрицу в формат CSC (Compressed Sparse Column), для этого используется пакет для работы с разреженными матрицами библиотеки SciPy [14].

Формат CSC представлен тремя массивами {val, row_ind, col_ptr}, где val является массивом ненулевых значений разреженной матрицы, row_ind – массивом соответствующих значениям строк, а col_ptr – списком индексов значений, начинающих новый столбец.

Следующим этапом является осуществления сингулярного разложения полученной разреженной матрицы с использованием библиотеки sparsesvd [15].