Классификация документов

Классификация документов — одна из задач информатики, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.

Использует методы информационного поиска и машинного обучения.

Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.

Постановка задачи

Имеется множество категорий <math>\mathfrak{C} = \{ c_1, ... , c_{ \left| \mathfrak{C} \right| } \}</math>.

Имеется множество документов <math>\mathfrak{D} = \{ d_1, ... , d_{ \left| \mathfrak{D} \right| } \}</math>.

Неизвестная целевая функция <math>\Phi\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \}</math>.

Необходимо построить классификатор <math> \Phi^\prime </math>, максимально близкий к <math>\Phi</math>.

Имеется некоторая начальная коллекция документов, для которой известны значения <math>\Phi</math>. Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.

Классификатор может выдавать точный ответ <math>\Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \}</math> или степень подобия <math>\Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow [ 0, 1 ]</math>.

Этапы обработки

Индексация документов: Построение некоторой числовой модели текста, например в виде многомерного вектора слов и их веса в документе. Уменьшение размерности модели.

Построение и обучение классификатора: Могут использоваться различные методы машинного обучения: решающие деревья, наивный байесовский классификатор, нейронные сети, метод опорных векторов и др.

Оценка качества классификации: Можно оценивать по критериям полноты, точности, сравнивать классификаторы по специальным тестовым наборам.

Применение

фильтрация спама
составление интернет-каталогов
подбор контекстной рекламы
в системах документооборота
автоматическое реферирование (составление аннотаций)
снятие неоднозначности при автоматическом переводе текстов
ограничение области поиска в поисковых системах

См. также

Ссылки

Лекция № 6 по классификации текстов курса «Современные задачи теоретической информатики» (постановка задачи, построение и обучение классификатора, оценка качества).
F. Sebastiani. Machine Learning in Automated Text Categorization (PDF). (англ.)
"Семантическое зеркало". Пример технологии автоматической классификации документов.

en:Document classification es:Clasificación de documentos eu:Dokumentuen sailkapena fi:Dokumenttien luokittelu fr:Classification et catégorisation de documents it:Text categorization ja:文書分類 nn:Dokumentklassifisering su:Klasifikasi dokumén

Если вам нравится SbUP.com Сайт, вы можете поддержать его - BTC: bc1qppjcl3c2cyjazy6lepmrv3fh6ke9mxs7zpfky0 , TRC20 и ещё....

→

Классификация документов

Содержание

Постановка задачи

Этапы обработки

Применение

См. также

Ссылки

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

SEO сервисы

Инструменты

Главные категории