Global ETD Search

Return to search

Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina / Portuguese named entity recognition using machine learning

O Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina. / Named Entity Recognition (NER), a task related to information extraction, aims to classify textual elements according to predefined categories such as names, places, dates etc. This enables the execution of more advanced tasks. NER is a first step towards semantic textual analysis and is also a crucial task for systems of information extraction and other types of systems. In this thesis, I analyze some Machine Learning methods applied to NER tasks, including two methods applied to Portuguese language. I present three ways of evaluating these types of systems found in the literature. I also develop an NER system for the Portuguese language utilizing Machine Learning that entails working with a maximum entropy framework. The results are comparable to the best NER systems for the Portuguese language developed with other Machine Learning alternatives.

http://www.teses.usp.br/teses/disponiveis/45/45134/tde-23052013-104248/

Aprendizado de Máquina

Information Extraction

Machine Learning

Máxima Entropia

Maximum Entropy Framework

Named Entity Recognition

Natural Language Processing.

PLN

Processamento de Linguagem Natural

Reconhecimento de Entidades Mencionadas

Reconhecimento de Entidades Nomeadas

REM

Identifer	oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-23052013-104248
Date	24 February 2012
Creators	Carvalho, Wesley Seidel
Contributors	Finger, Marcelo
Publisher	Biblioteca Digitais de Teses e Dissertações da USP
Source Sets	Universidade de São Paulo
Language	Portuguese
Detected Language	Portuguese
Type	Dissertação de Mestrado
Format	application/pdf
Rights	Liberar o conteúdo para acesso público.

Page generated in 0.0018 seconds

Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina / Portuguese named entity recognition using machine learning

Description

Links & Downloads

Tags

Additional Fields