Вкладка Workspace¶
На вкладке Workspace находятся ваши личные файлы и каталоги. Для файлов выводится их тип и размер. На данный момент поддерживаются следующие типы файлов:
tmlda
— бинарный формат документов, поддерживаемый ПО TopicMiner для Windows.bin
— бинарый формат таблиц, также поддерживаемый TopicMiner. В этом формате записываются все результаты тематического моделирования.json
— текстовый формат хранения произвольных объектов. В этом формате сохраняются данные распределения темы по регионам России.
Войти в каталог можно, нажав на его название. Во всех каталогах кроме корневого присутствует кнопка «Back», позволяющая вернуться на уровень выше. Кнопка «Create folder» позволяет создать подкаталог в текущем.
Вы можете загружать новые файлы на сервер, для этого предназначена кнопка «Upload File». При нажатии на неё отображется
форма выбора файла. На данный момент поддерживается только загрузка файлов tmlda
и bin
.
Выбрав файл, нажмите на «Ok» и дождитесь окончания загрузки.
Каждый файл вы можете просмотреть, нажав на кнопку «View». Подробнее о просмотре различных типов файлов смотрите далее.
Также вам доступно выпадающее меню действий:
Для каждого файла доступно два независящих от его типа действия: скачать файл на свой компьютер («Download») и удалить файл с сервера («Remove»). Действия, специфичные для каждого типа, будут описаны в соответствующих разделах.
Работа с файлами tmlda
¶
Формат tmlda
представляет собой контейнер для документов, представленных в нескольких видах:
- Оригинальный текст
- Лемматизированный текст
- Метаданные
- Список слов, где каждое слово заменено на свой
CRC32
хэш-код
Подробнее о том, как получить такой файл из набора текстовых документов, можно прочитать в документации к TopicMiner для Windows.
Веб-сайт WebTopicMiner позволяет просмотреть каждый документ в виде оригинального и лемматизированного текстов, а также его метаданные. Представление в виде хэш-кодов используется только внутри программы и недоступно для просмотра.
Просмотреть документы вы можете, нажав на кнопку «View» на вкладке «Workspace». При этом открывается просмотрщик
tmlda
файлов, содержащий две вкладки: «Documents» и «Words».
Первая вкладка содержит таблицу с тремя колонками для каждого документа в файле: оригинальный текст, лемматизированный текст и метаданные.
На второй вкладке находятся все слова, встречающиеся во всех документах в файле. TopicMiner для Windows создаёт список слов отсортированным по частоте слова.
Внизу каждой вкладки находятся кнопки, позволяющие переключать страницы с документами или словами.
Работа с файлами bin
¶
Формат bin
является бинарным форматом для таблиц, которые могут содержать текст и вещественные числа. В этом формате
WebTopicMiner сохраняет матрицы распределений, получающиеся при тематическом моделировании. Открыть такой файл тоже можно
нажав на кнопку «View».
На открывшейся странице будет отображён заголовок таблицы и её строки с возможностью переключения страниц.
Под таблицей так же расположена кнопка «Download matrix as CSV». С помощью этой кнопки можно запустить первые несколько
строк bin
-файла в формате CSV.
Многие матрицы, создаваемые WebTopicMiner, имеют в каждой ячейке несколько полей, разделённых двоеточием. Кнопка «Download matrix as CSV with splitted fields» позволяет скачать первые несколько строк матрицы в виде CSV файла, в котором каждый столбец исходной матрицы будет разбит на столько столбцов, сколько в нем содержится полей.
Анализ текстов с помощью встроенных классификаторов¶
WebTopicMiner имеет возможность классифицировать тексты с помощью нескольких классификаторов, разработанных в лаборатории ЛИНИС.
На данный момент доступны следующие классификаторы:
- Содержится ли в тексте межэтнический конфликт? («Whether text has ethnic conflict»)
- Содержится ли в тексте тема этничности? («Whether text is about ethnic topic»)
- Имеет ли текст отрицательную эмоциональную окраску? («If text has negative sentiment»)
Чтобы воспользоваться классификатором, загрузите файл csv
с исходными текстами в кодировке UTF-8
.
WebTopicMiner поддерживает два формата входных файлов:
- На каждой строке файла находится отдельный текст целиком
- Тексты находятся в первой колонке файла CSV, остальные колонки содержат различные данные
Для того, чтобы запустить классификацию, выберите пункт «Run classifier» в выпадающем меню файла. В открывшимся диалоге выберите желаемый классификатор и формат файла из описанных выше. Класссификация начнётся автоматически, а на экран будет окно с сообщением, которое закроется по окончанию классификации. Если закрыть окно, то необходимо самостоятельно ждать появления файла с результатами.
Результат классификации будет сохранен в файл с таким же именем, как исходный плюс краткое имя классификатора
и суффикс «_classified
» перед расширением.
В этом файле после всех столбцов исходного файла будет добавлены ещё два: лемматизированный текст и
оценка классификатора — 0 или 1.
Для лемматизации текстов используется библиотека PyMorphy2.