Полученная матрица сохраняется в файле с расширением hdf5 с помощью пакета h5py. Данный формат был выбран благодаря возможностям хранить большие объёмы данных и работать с массивами NumPy, в виде которых представлены данные во время их обработки.
2.4 Латентно-семантическое индексирование
Построенная матрица термин-документ является разреженной, т.е. матрицей, в которой подавляющее большинство элементов нулевые, однако, в процессе построения она была представлена в виде обычного массива. Для сокращения времени выполнения сингулярного разложения и объёма используемой памяти требуется перевести матрицу в формат CSC (Compressed Sparse Column), для этого используется пакет для работы с разреженными матрицами библиотеки SciPy [14].
Формат CSC представлен тремя массивами {val, row_ind, col_ptr}, где val является массивом ненулевых значений разреженной матрицы, row_ind – массивом соответствующих значениям строк, а col_ptr – списком индексов значений, начинающих новый столбец.
Следующим этапом является осуществления сингулярного разложения полученной разреженной матрицы с использованием библиотеки sparsesvd [15].