Вкладка Workspace

На вкладке Workspace находятся ваши личные файлы и каталоги. Для файлов выводится их тип и размер. На данный момент поддерживаются следующие типы файлов:

  • tmlda — бинарный формат документов, поддерживаемый ПО TopicMiner для Windows.
  • bin — бинарый формат таблиц, также поддерживаемый TopicMiner. В этом формате записываются все результаты тематического моделирования.
  • json — текстовый формат хранения произвольных объектов. В этом формате сохраняются данные распределения темы по регионам России.

Войти в каталог можно, нажав на его название. Во всех каталогах кроме корневого присутствует кнопка «Back», позволяющая вернуться на уровень выше. Кнопка «Create folder» позволяет создать подкаталог в текущем.

_images/workspace.png

Вы можете загружать новые файлы на сервер, для этого предназначена кнопка «Upload File». При нажатии на неё отображется форма выбора файла. На данный момент поддерживается только загрузка файлов tmlda и bin.

_images/upload.png

Выбрав файл, нажмите на «Ok» и дождитесь окончания загрузки.

_images/upload_progress.png

Каждый файл вы можете просмотреть, нажав на кнопку «View». Подробнее о просмотре различных типов файлов смотрите далее.

Также вам доступно выпадающее меню действий:

_images/actions_menu.png

Для каждого файла доступно два независящих от его типа действия: скачать файл на свой компьютер («Download») и удалить файл с сервера («Remove»). Действия, специфичные для каждого типа, будут описаны в соответствующих разделах.

Работа с файлами tmlda

Формат tmlda представляет собой контейнер для документов, представленных в нескольких видах:

  1. Оригинальный текст
  2. Лемматизированный текст
  3. Метаданные
  4. Список слов, где каждое слово заменено на свой CRC32 хэш-код

Подробнее о том, как получить такой файл из набора текстовых документов, можно прочитать в документации к TopicMiner для Windows.

Веб-сайт WebTopicMiner позволяет просмотреть каждый документ в виде оригинального и лемматизированного текстов, а также его метаданные. Представление в виде хэш-кодов используется только внутри программы и недоступно для просмотра.

Просмотреть документы вы можете, нажав на кнопку «View» на вкладке «Workspace». При этом открывается просмотрщик tmlda файлов, содержащий две вкладки: «Documents» и «Words».

Первая вкладка содержит таблицу с тремя колонками для каждого документа в файле: оригинальный текст, лемматизированный текст и метаданные.

_images/tmlda_docs.png

На второй вкладке находятся все слова, встречающиеся во всех документах в файле. TopicMiner для Windows создаёт список слов отсортированным по частоте слова.

_images/tmlda_words.png

Внизу каждой вкладки находятся кнопки, позволяющие переключать страницы с документами или словами.

Работа с файлами bin

Формат bin является бинарным форматом для таблиц, которые могут содержать текст и вещественные числа. В этом формате WebTopicMiner сохраняет матрицы распределений, получающиеся при тематическом моделировании. Открыть такой файл тоже можно нажав на кнопку «View».

_images/bin_view.png

На открывшейся странице будет отображён заголовок таблицы и её строки с возможностью переключения страниц.

Под таблицей так же расположена кнопка «Download matrix as CSV». С помощью этой кнопки можно запустить первые несколько строк bin-файла в формате CSV.

Многие матрицы, создаваемые WebTopicMiner, имеют в каждой ячейке несколько полей, разделённых двоеточием. Кнопка «Download matrix as CSV with splitted fields» позволяет скачать первые несколько строк матрицы в виде CSV файла, в котором каждый столбец исходной матрицы будет разбит на столько столбцов, сколько в нем содержится полей.

Анализ текстов с помощью встроенных классификаторов

WebTopicMiner имеет возможность классифицировать тексты с помощью нескольких классификаторов, разработанных в лаборатории ЛИНИС.

На данный момент доступны следующие классификаторы:

  • Содержится ли в тексте межэтнический конфликт? («Whether text has ethnic conflict»)
  • Содержится ли в тексте тема этничности? («Whether text is about ethnic topic»)
  • Имеет ли текст отрицательную эмоциональную окраску? («If text has negative sentiment»)

Чтобы воспользоваться классификатором, загрузите файл csv с исходными текстами в кодировке UTF-8. WebTopicMiner поддерживает два формата входных файлов:

  • На каждой строке файла находится отдельный текст целиком
  • Тексты находятся в первой колонке файла CSV, остальные колонки содержат различные данные

Для того, чтобы запустить классификацию, выберите пункт «Run classifier» в выпадающем меню файла. В открывшимся диалоге выберите желаемый классификатор и формат файла из описанных выше. Класссификация начнётся автоматически, а на экран будет окно с сообщением, которое закроется по окончанию классификации. Если закрыть окно, то необходимо самостоятельно ждать появления файла с результатами.

Результат классификации будет сохранен в файл с таким же именем, как исходный плюс краткое имя классификатора и суффикс «_classified» перед расширением. В этом файле после всех столбцов исходного файла будет добавлены ещё два: лемматизированный текст и оценка классификатора — 0 или 1. Для лемматизации текстов используется библиотека PyMorphy2.