Извлечение информации
Извлечение информации (англ. information extraction) — в области обработки естественного языка, это разновидность информационного поиска, при которой из неструктурированного машинно-читаемого текста (то есть электронных документов) выделяется некая структурированная информация, то есть категоризированные, семантически значимые данные по какой-либо проблеме или вопросу. Примером извлечения информации может послужить выискивание случаев деловых визитов — формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита)
, — из новостных лент, таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования — возможность анализа изначально «хаотичной» информацию с помощью стандартных методов обработки данных.[1] Более узкой целью, может служить, например, задача выявить логические закономерности в описанных в тексте событиях.[2]
В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает — из-за стремительного увеличения количества неструктурированной (без метаданных) информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки.[3] При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже.
Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем) — часто только на одну тему. Например, «Конференция по Пониманию сообщений» (en:Message Understanding Conference, MUC) — это конференция соревновательного характера и в прошлом она фокусировалась на таких вопросах:
- MUC-1 (1987), MUC-2 (1989): Военно-морские операции.
- MUC-3 (1991), MUC-4 (1992): Терроризм в латиноамериканских странах.
- MUC-5 (1993): Венчурные операции в области микроэлектроники.
- MUC-6 (1995): Новостные статьи об изменениях в управляющих процессах.
- MUC-7 (1998): Отчёты о запусках спутников.
Тексты на естественном языке могут потребовать некоего предварительного упрощения, для создания текста, который будет лучше «пониматься» компьютером.
Типичные подзадачи извлечения информации:
- Распознавание именованных элементов: распознавание имён людей, названий организаций, мест, временны́х обозначений и некоторых типов численных выражений.
- Ссылки: выделение словесных оборотов, ссылающихся на один и тот же объект. Типичный случай таких ссылок — анафора и использование местоимений.
- Выделение терминологии: нахождение для данного текста ключевых слов.
Примечания
- ↑ Под обработкой данных может пониматься, помимо прочего, и просто накопление их в базе данных.
- ↑ Этой задачей занимается интеллектуальный анализ данных (data mining).
- ↑ Концепция развития Интернета, где к каждому документу присоединяется файл с метаданными в XML формате, называется семантической паутиной и считается очень перспективной; но стоит отметить: это не то же самое, что преобразование самого документа.
См. также
- Информация
- Релевантность
- База знаний
- Онтология (информатика)
- Управление данными
- Вычислительная лингвистика
Ссылки
- Автореферат диссертации Симакова К.В. на тему "Модели и методы извлечения знаний из текстов на естественном языке".
- Модель извлечения фактов из естественно-языковых текстов и метод ее обучения.
- Система извлечения и поиска структурированной информации из больших текстовых массивов СМИ. Архитектурные и лингвистические особенности.
- Извлечение знаний из текстов на естественном языке для решения задач на сетевых моделях.
- Протокол Z39.50: открытый доступ к библиографической информации.
- Расширяемая платформа добычи текстов.
- Активные индивидуальные методы извлечения знаний и данных
- Иноязычные
- http://extraccioninformacion.iespana.es Extracción informacion (Spanish site)
- http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ MUC
- http://projects.ldc.upenn.edu/ace/ ACE (LDC)
- http://www.itl.nist.gov/iad/894.01/tests/ace/ ACE (NIST)
- http://lcl2.di.uniroma1.it — TermExtractor
- TermFinder, on-line terminology extractor for EN, FR & IT — web application
- Video tutorials, talks, lectures Videolectures.net
Искусственный интеллект | Это незавершённая статья об искусственном интеллекте. Вы можете помочь проекту, исправив и дополнив её. |
cs:Extrakce informací de:Informationsextraktion el:Εξαγωγή πληροφοριών en:Information extraction es:Extracción de la información eu:Informazio erauzketa ja:情報抽出 sr:Екстракција информација zh:信息抽取
Если вам нравится SbUP.com Сайт, вы можете поддержать его - BTC: bc1qppjcl3c2cyjazy6lepmrv3fh6ke9mxs7zpfky0 , TRC20 и ещё....