Global ETD Search

Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina / Portuguese named entity recognition using machine learning

O Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina. / Named Entity Recognition (NER), a task related to information extraction, aims to classify textual elements according to predefined categories such as names, places, dates etc. This enables the execution of more advanced tasks. NER is a first step towards semantic textual analysis and is also a crucial task for systems of information extraction and other types of systems. In this thesis, I analyze some Machine Learning methods applied to NER tasks, including two methods applied to Portuguese language. I present three ways of evaluating these types of systems found in the literature. I also develop an NER system for the Portuguese language utilizing Machine Learning that entails working with a maximum entropy framework. The results are comparable to the best NER systems for the Portuguese language developed with other Machine Learning alternatives.

http://www.teses.usp.br/teses/disponiveis/45/45134/tde-23052013-104248/

Aprendizado de Máquina

Máxima Entropia

PLN

Processamento de Linguagem Natural

Reconhecimento de Entidades Mencionadas

Reconhecimento de Entidades Nomeadas

REM

Information Extraction

Machine Learning

Maximum Entropy Framework

Named Entity Recognition

Natural Language Processing.

Identifer	oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-23052013-104248
Date	24 February 2012
Creators	Wesley Seidel Carvalho
Contributors	Marcelo Finger, Fábio Natanael Kepler, Alair Pereira do Lago
Publisher	Universidade de São Paulo, Ciência da Computação, USP, BR
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0022 seconds

Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina / Portuguese named entity recognition using machine learning

Description

Links & Downloads

Tags

Additional Fields