Spelling suggestions: "subject:"extracao"" "subject:"tracao""
31 |
Qualificação de pesquisadores por área da Ciência da Computação com base em uma ontologia de perfil / Researchers’ qualification by computer science area based on a profile ontologyHannel, Kelly January 2008 (has links)
A qualidade, tanto da produção científica quanto dos pesquisadores, tem sido foco de discussões e objeto de estudo, isto porque a busca pela excelência é constante no meio acadêmico. Sendo assim, conhecer e medir de forma sistematizada as competências dos pesquisadores constitui-se em uma importante ferramenta para identificar as melhores organizações e indivíduos em uma determinada área. Esta dissertação buscou descobrir a qualificação dos pesquisadores nas áreas da Ciência da Computação. Para tal, foi desenvolvido um sistema Web (semi) automatizado. Este sistema é centrado na ontologia OntoResearcher, considera o reuso de outras ontologias, a extração de informações da Web e do currículo dos pesquisadores. A OntoResearcher foi modelada com características e indicadores de qualidade (quantitativos e qualitativos) que permitem mensurar as competências dos pesquisadores. O sistema desenvolvido utiliza as informações modeladas na OntoResearcher para automatizar o processo de avaliação dos pesquisadores e tem como diferencial a qualificação distribuída nas áreas da Ciência da Computação em que o pesquisador atua. As principais contribuições desta dissertação são a definição do perfil de pesquisador, o desenvolvimento da ontologia OntoResearcher e a implementação do sistema de qualificação demonstrando a viabilidade das idéias propostas através dos testes realizados. / The search for excellence is continuous in the academic field. So, the quality of scientific production and researchers has been focus of discussions and subject of study in the academic field. Thus, knowing and measuring the researcher’s skills or qualifications in a systematized way is an important tool to identify the best organizations and individuals in a certain discipline. This work aimed to discover the researcher’s qualification of Computer Science field. To accomplish this task, it was developed a Web system (semi) automatized. This system, which is centered on the OntoResearcher ontology, considers the ontology reuse, the information’s extraction by the researcher’s resume and by the Web. The OntoResearcher was modeled with indicators of scientific quality (quantitative and qualitative) which allows measuring the researcher’s qualifications. The developed system uses the information from OntoResearcher to automatize the researcher’s evaluation. The main differential of this work is the researcher’s qualification distributed in the Computer Science fields on which the researcher has worked. The main contributions of this work are: the researchers’ profiles, the development of OntoResearcher and the development of qualification system demonstrating viability of the ideas through the experimentation.
|
32 |
Geração de regras de extração de dados em páginas HTMLCaldas, Paracelso de Oliveira January 2003 (has links)
Existem vários trabalhos na área de extração de dados semi-estruturados, usando diferentes técnicas. As soluções de extração disponibilizadas pelos trabalhos existentes são direcionadas para atenderem a dados de certos domínios, considerando-se domínio o conjunto de elementos pertencentes à mesma área de interesse. Dada a complexidade e a grande quantidade dos dados semi-estruturados, principalmente dos disponíveis na World Wide Web (WWW), é que existem ainda muitos domínios a serem explorados. A maior parte das informações disponíveis em sites da Web está em páginas HTML. Muitas dessas páginas contêm dados de certos domínios (por exemplo, remédios). Em alguns casos, sites de organizações diferentes apresentam dados referentes a um mesmo domínio (por exemplo, farmácias diferentes oferecem remédios). O conhecimento de um determinado domínio, expresso em um modelo conceitual, serve para definir a estrutura de um documento. Nesta pesquisa, são consideradas exclusivamente tabelas de páginas HTML. A razão de se trabalhar somente com tabelas está baseada no fato de que parte dos dados de páginas HTML encontra-se nelas, e, como conseqüência, elimina-se o processamento dos outros dados, concentrando-se os esforços para que sejam processadas automaticamente. A pesquisa aborda o tratamento exclusivo de tabelas de páginas HTML na geração das regras de extração, na utilização das regras e do modelo conceitual para o reconhecimento de dados em páginas semelhantes. Para essa técnica, foi implementado o protótipo de uma ferramenta visual denominado Gerador de Regras de Extração e Modelo Conceitual (GREMO). GREMO foi desenvolvido em linguagem de programação visual Delphi 6.0. O processo de extração ocorre em quatro etapas: identificação e análise das tabelas de informações úteis em páginas HTML; identificação de conceitos para os elementos dos modelos conceituais; geração dos modelos conceituais correspondentes à página, ou utilização de modelo conceitual existente no repositório que satisfaça a página em questão; construção das regras de extração, extração dos dados da página, geração de arquivo XML correspondente aos dados extraídos e, finalmente, realimentação do repositório. A pesquisa apresenta as técnicas para geração e extração de dados semi-estruturados, as representações de domínio exclusivo de tabelas de páginas HTML por meio de modelo conceitual, as formas de geração e uso das regras de extração e de modelo conceitual.
|
33 |
Metadata extraction from scientific documents in PDF / Extração de metadados em artigos científicos no formato PDFSouza, Alan Pinto January 2014 (has links)
A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%. / Most scientific articles are available in PDF format. The PDF standard allows the generation of metadata that is included within the document. However, many authors do not define this information, making this feature unreliable or incomplete. This fact has been motivating research which aims to extract metadata automatically. Automatic metadata extraction has been identified as one of the most challenging tasks in document engineering. This work proposes Artic, a method for metadata extraction from scientific papers which employs a two-layer probabilistic framework based on Conditional Random Fields. The first layer aims at identifying the main sections with metadata information, and the second layer finds, for each section, the corresponding metadata. Given a PDF file containing a scientific paper, Artic extracts the title, author names, emails, affiliations, and venue information. We report on experiments using 100 real papers from a variety of publishers. Our results outperformed the state-of-the-art system used as the baseline, achieving a precision of over 99%.
|
34 |
Qualificação de pesquisadores por área da Ciência da Computação com base em uma ontologia de perfil / Researchers’ qualification by computer science area based on a profile ontologyHannel, Kelly January 2008 (has links)
A qualidade, tanto da produção científica quanto dos pesquisadores, tem sido foco de discussões e objeto de estudo, isto porque a busca pela excelência é constante no meio acadêmico. Sendo assim, conhecer e medir de forma sistematizada as competências dos pesquisadores constitui-se em uma importante ferramenta para identificar as melhores organizações e indivíduos em uma determinada área. Esta dissertação buscou descobrir a qualificação dos pesquisadores nas áreas da Ciência da Computação. Para tal, foi desenvolvido um sistema Web (semi) automatizado. Este sistema é centrado na ontologia OntoResearcher, considera o reuso de outras ontologias, a extração de informações da Web e do currículo dos pesquisadores. A OntoResearcher foi modelada com características e indicadores de qualidade (quantitativos e qualitativos) que permitem mensurar as competências dos pesquisadores. O sistema desenvolvido utiliza as informações modeladas na OntoResearcher para automatizar o processo de avaliação dos pesquisadores e tem como diferencial a qualificação distribuída nas áreas da Ciência da Computação em que o pesquisador atua. As principais contribuições desta dissertação são a definição do perfil de pesquisador, o desenvolvimento da ontologia OntoResearcher e a implementação do sistema de qualificação demonstrando a viabilidade das idéias propostas através dos testes realizados. / The search for excellence is continuous in the academic field. So, the quality of scientific production and researchers has been focus of discussions and subject of study in the academic field. Thus, knowing and measuring the researcher’s skills or qualifications in a systematized way is an important tool to identify the best organizations and individuals in a certain discipline. This work aimed to discover the researcher’s qualification of Computer Science field. To accomplish this task, it was developed a Web system (semi) automatized. This system, which is centered on the OntoResearcher ontology, considers the ontology reuse, the information’s extraction by the researcher’s resume and by the Web. The OntoResearcher was modeled with indicators of scientific quality (quantitative and qualitative) which allows measuring the researcher’s qualifications. The developed system uses the information from OntoResearcher to automatize the researcher’s evaluation. The main differential of this work is the researcher’s qualification distributed in the Computer Science fields on which the researcher has worked. The main contributions of this work are: the researchers’ profiles, the development of OntoResearcher and the development of qualification system demonstrating viability of the ideas through the experimentation.
|
35 |
Metadata extraction from scientific documents in PDF / Extração de metadados em artigos científicos no formato PDFSouza, Alan Pinto January 2014 (has links)
A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%. / Most scientific articles are available in PDF format. The PDF standard allows the generation of metadata that is included within the document. However, many authors do not define this information, making this feature unreliable or incomplete. This fact has been motivating research which aims to extract metadata automatically. Automatic metadata extraction has been identified as one of the most challenging tasks in document engineering. This work proposes Artic, a method for metadata extraction from scientific papers which employs a two-layer probabilistic framework based on Conditional Random Fields. The first layer aims at identifying the main sections with metadata information, and the second layer finds, for each section, the corresponding metadata. Given a PDF file containing a scientific paper, Artic extracts the title, author names, emails, affiliations, and venue information. We report on experiments using 100 real papers from a variety of publishers. Our results outperformed the state-of-the-art system used as the baseline, achieving a precision of over 99%.
|
36 |
Geração de regras de extração de dados em páginas HTMLCaldas, Paracelso de Oliveira January 2003 (has links)
Existem vários trabalhos na área de extração de dados semi-estruturados, usando diferentes técnicas. As soluções de extração disponibilizadas pelos trabalhos existentes são direcionadas para atenderem a dados de certos domínios, considerando-se domínio o conjunto de elementos pertencentes à mesma área de interesse. Dada a complexidade e a grande quantidade dos dados semi-estruturados, principalmente dos disponíveis na World Wide Web (WWW), é que existem ainda muitos domínios a serem explorados. A maior parte das informações disponíveis em sites da Web está em páginas HTML. Muitas dessas páginas contêm dados de certos domínios (por exemplo, remédios). Em alguns casos, sites de organizações diferentes apresentam dados referentes a um mesmo domínio (por exemplo, farmácias diferentes oferecem remédios). O conhecimento de um determinado domínio, expresso em um modelo conceitual, serve para definir a estrutura de um documento. Nesta pesquisa, são consideradas exclusivamente tabelas de páginas HTML. A razão de se trabalhar somente com tabelas está baseada no fato de que parte dos dados de páginas HTML encontra-se nelas, e, como conseqüência, elimina-se o processamento dos outros dados, concentrando-se os esforços para que sejam processadas automaticamente. A pesquisa aborda o tratamento exclusivo de tabelas de páginas HTML na geração das regras de extração, na utilização das regras e do modelo conceitual para o reconhecimento de dados em páginas semelhantes. Para essa técnica, foi implementado o protótipo de uma ferramenta visual denominado Gerador de Regras de Extração e Modelo Conceitual (GREMO). GREMO foi desenvolvido em linguagem de programação visual Delphi 6.0. O processo de extração ocorre em quatro etapas: identificação e análise das tabelas de informações úteis em páginas HTML; identificação de conceitos para os elementos dos modelos conceituais; geração dos modelos conceituais correspondentes à página, ou utilização de modelo conceitual existente no repositório que satisfaça a página em questão; construção das regras de extração, extração dos dados da página, geração de arquivo XML correspondente aos dados extraídos e, finalmente, realimentação do repositório. A pesquisa apresenta as técnicas para geração e extração de dados semi-estruturados, as representações de domínio exclusivo de tabelas de páginas HTML por meio de modelo conceitual, as formas de geração e uso das regras de extração e de modelo conceitual.
|
37 |
[en] THE IMPACT OF STRUCTURAL ATTRIBUTES TO IDENTIFY TABLES AND LISTS IN HTML DOCUMENTS / [pt] O IMPACTO DE ATRIBUTOS ESTRUTURAIS NA IDENTIFICAÇÃO DE TABELAS E LISTAS EM DOCUMENTOS HTMLIAM VITA JABOUR 11 April 2011 (has links)
[pt] A segmentação de documentos HTML tem sido essencial para as tarefas
de extração de informações, como mostram vários estudos na área. Nesta dissertação
investigamos a relação entre o documento HTML e sua representação
visual, mostrando como esta ligação ajuda na abordagem estrutural para a
identificação de segmentos. Também investigamos como utilizar algoritmos de
distância de edição em árvores para encontrar padrões na árvore DOM, tornando
possível resolver duas tarefas de identificação de segmentos. A primeira
tarefa é a identificação de tabelas genuínas, aonde foi obtido 90,40% de F1
utilizando o corpus fornecido por (Wang e Hu, 2002). Mostramos através de
um estudo experimental que este resultado é competitivo com os melhores resultados
da área. A segunda tarefa que consideramos é a identificação de listas
de produtos em sites de comércio eletrônico, nessa obtivemos 94,95% de F1
utilizando um corpus com 1114 documentos HTML, criado a partir de 8 sites.
Concluímos que os algoritmos de similaridade estrutural ajudam na resolução
de ambas às tarefas e acreditamos que possam ajudar na identificação de outros
tipos de segmentos. / [en] The segmentation of HTML documents has been essential to information
extraction tasks, as showed by several works in this area. This paper studies
the link between an HTML document and its visual representation to show
how it helps segments identification using a structural approach. For this, we
investigate how tree edit distance algorithms can find structural similarities
in a DOM tree, using two tasks to execute our experiments. The first one is
the identification of genuine tables where we obtained a 90.40% F1 score using
the corpus provided by (Wang e Hu, 2002). We show through an experimental
study that this result is competitive with the best results in the area. The
second task studied is the identification of product listings in e-commerce sites.
Here we get a 94.95% F1 score using a corpus with 1114 HTML documents
from 8 distinct sites. We conclude that algorithms to calculate trees similarity
provide competitive results for both tasks, making them also good candidates
to identify other types of segments.
|
38 |
Extração assistida por micro-ondas de óleo essencial de folhas de eucalipto (eucalyptus urophylla x globulus)Ribeiro, Leticia Gouveia January 2018 (has links)
A celulose das árvores do gênero Eucalyptus é um dos principais elementos de interesse econômico desse vegetal. Suas folhas, apesar de conter óleo essencial (OE), caracterizam-se como um subproduto da indústria de processamento de papel e celulose. Assim, pesquisas com relação à recuperação dessa biomassa tornam-se importantes, principalmente, do ponto de vista ambiental e econômico. Tradicionalmente, a extração de OEs ocorre pelo processo de hidrodestilação (HD), o qual necessita de longos tempos de extração. Visando superar essa restrição, a tecnologia de extração assistida por micro-ondas (Microwave Assisted Extraction - MAE) vem sendo desenvolvida e aplicada. O objetivo principal deste estudo foi avaliar o processo de extração de OE de folhas de eucalipto, empregando os métodos de extração HD e MAE. Para esse processo em escala de bancada, desenvolveu-se um aparato de extração por meio da adaptação de um forno micro-ondas doméstico. Inicialmente, analisou-se o rendimento de OE das matrizes de subprodutos de folhas de eucalipto das espécies Eucalyptus saligna, E. urohpylla e E. urophylla x globulus geradas a partir de uma indústria de celulose. Os resultados apontaram que a espécie E. urophylla x globulus apresentou maior teor de OE (2,16±0,02%), sendo a espécie escolhida para a aplicação da tecnologia MAE. Na segunda etapa do estudo, fez-se uma avaliação dos efeitos dos fatores do processo MAE, avaliando os fatores razão sólido:solvente (1:1; 1:1,5 e 1:2), potência do micro-ondas (680, 850 e 1.020 W) e tempo de extração total (20, 40, 60 min) no rendimento de OE. Desse modo, as condições ideais do processo foram determinadas como: razão sólido:solvente de 1:2, potência de 680 W e tempo de extração total de 60 minutos. Para essas condições, realizou-se o estudo cinético e modelagem matemática com a avaliação dos modelos de primeira ordem, segunda ordem, Peleg e Patricelli. No estudo cinético, o tempo total do processo MAE para a obtenção do rendimento de 1,8±0,1% foi apenas 60 minutos, tempo 57% inferior ao observado no método HD para igual rendimento (140 minutos). Dentre os modelos cinéticos estudados, o modelo de Patricelli foi o que apresentou melhor ajuste aos dados experimentais da extração HD (R² igual 0,9904 e RMSE igual 0,0016) e da extração MAE (R² igual 0,9962 e RMSE igual 0,0006). Por fim, as análises energéticas e de impacto ambiental também indicaram o método MAE como uma tecnologia mais ambientalmente amigável do que a HD, tornando-se atrativa para o setor industrial. Com base nos resultados obtidos, pode-se concluir que a extração de OE da matriz estudada proporcionou a reutilização de um subproduto industrial, sugerindo uma alternativa de exploração e agregando valor ao mesmo. / The cellulose from trees of the genus Eucalyptus is the main industrial product of this species. Its leaves, although containing essential oil (EO), are characterized as a by-product from the pulp and paper processing industry. Thus, researches about the recovery of this biomass are important, mainly from the environmental and ecological point of view. Traditionally, the extraction of EO occurs by hydrodistillation (HD), process that requires long extraction times. In order to overcome this restriction, microwave assisted extraction (MAE) has been developed and applied. The main objective of this study was to evaluate the extraction process of eucalyptus EO, using the HD and MAE methods. For this laboratory-scale process, an extraction apparatus was developed through the adaption of a domestic microwave oven. Initially, the yield of EO by-products of eucalyptus leaves of the species Eucalyptus saligna, E. urophylla and E. urophylla x globulus from a cellulose industry were analyzed. The results showed that the species E. urophylla x globulus presented the highest EO content (2.16 ± 0.02%), being the species chosen for the application of the MAE technology. In the second stage of the study, an evaluation of the effects of MAE process factors was performed, analyzing the factors ratio solid:solvent (1:1, 1:1,5 and 1:2), microwave power (680, 850 and 1.020 W) and total extraction time (20, 40, 60 min) in the EO yield. Thus, the ideal process conditions were determined as: ratio solid:solvent of 1:2, power of 680 W and total extraction time of 60 minutes. For these conditions, a kinetic study and a mathematical modeling were performed evaluating the first-order, second-order, Peleg and Patricelli models. In the kinetic study, the total time of the MAE process to obtain the yield of 1.8 ± 0.1% was only 60 minutes, 57% lower than the HD method for the same yield (140 min). Among the kinetic models studied, the Patricelli model presented the best fit to the experimental data of the HD extraction (R² equal to 0.9904 and RMSE equal to 0.0016) and MAE extraction (R² equal to 0.9962 and RMSE equal to 0.0006). Finally, the energy and environmental impact analyzes also indicated the MAE method more environmentally friendly than HD, being attractive for the industrial sector. Based on the results, it is possible to conclude that the extraction of EO from the studied matrix provided the reuse of an industrial by-product, suggesting an exploration alternative adding value to this residue.
|
39 |
[pt] ABSORVEDOR COM BANDA ULTRA LARGA BASEADO EM ESTRUTURAS METAMATERIAIS E O MÉTODO DE EXTRAÇÃO DE PARÂMETROS / [en] AN ULTRAWIDEBAND METAMATERIAL ABSORBER AND A PARAMETER RETRIEVAL METHODJOSE BRUNO OLIVEIRA DE ARAUJO 13 December 2019 (has links)
[pt] Este trabalho apresenta a idealização, caracterização e medições de um absorvedor metamaterial ultrafino com uma banda ultra larga, baseado em espiras quadradas arranjadas periodicamente. O circuito equivalente dessa estrutura é proposto para fornecer uma maior compreensão teórica. Os parâmetros desse circuito são extraídos utilizando um algoritmo baseado no método dos mínimos quadrados, usando uma abordagem direta, que pode ser aplicada aos absorvedores com banda larga em geral. O mecanismo de absorção da estrutura proposta é discutido e detalhado. Um dos resultados da simulação mostrou uma absortividade acima de 90 porcento de 11.4 até 20 GHz, cobrindo a banda Ku inteiramente tanto para a polarização TM quanto para a TE, e essa banda larga é confirmada pelas medições experimentais.
Além disso, a espessura do absorvedor metamaterial proposto é lambda/16.4, considerando o maior comprimento de onda da banda de operação, e apresenta estabilidade angular até 50 graus Celsius. Ademais, o uso do absorvedor proposto para redução da seção transversal de radar em antenas de microfita é investigado e reduções até 12.8 dB são obtidas, e uma parede absorvedora é apresentada para diminuição do acoplamento mútuo em conjuntos de antenas. / [en] This work presents the design, characterization, and measurement of an ultrathin and ultrawideband metamaterial absorber based on periodicallyarranged metallic square spiral and its equivalent circuit is proposed to provide a theoretical insight. The parameters of the equivalent circuit are extracted using an algorithm based on the least-square method and using a straightforward approach, which can be applied to broadband absorbers in general. The mechanism of absorption of the proposed structure is discussed
and detailed. One of the simulated results showed an absorptivity of more than 90 percent from 11.4 to 20.0 GHz, covering the Ku band for TM as well as TE polarization, and this broadband feature is confirmed by the experimental measurement. Furthermore, the proposed metamaterial absorber is lambda/16.4
thick at the lowest frequency of absorption and presents angle stability up to 50 Celsius degrees. In addition, the usage of the proposed absorber to the radar crosssection reduction in microstrip antennas is investigated and reductions up to 12.8 dB are achieved, and an absorber wall is presented to decrease the
mutual coupling in antenna arrays.
|
40 |
[en] QUOTATION EXTRACTION FOR PORTUGUESE / [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊSWILLIAM PAULO DUCCA FERNANDES 24 January 2017 (has links)
[pt] A Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um sistema de Extração de Citações para Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas e para diversas línguas.Nossa proposta é diferente dos trabalhos anteriores, pois usamos Aprendizado de Máquina para construir automaticamente regras especializadas ao invés de regras criadas por humanos. Modelos de Aprendizado de Máquina geralmente apresentam forte capacidade de generalização comparados a modelos feitos por humanos. Além disso, nós podemos facilmente adaptar nosso modelo para outras línguas, precisando apenas de uma lista de verbos de citação para uma dada língua. Os sistemas propostos anteriormente provavelmente precisariam de uma adaptação no conjunto de regras de forma a classificar corretamente as citações, o que consumiria tempo. Nós atacamos a tarefa de Extração de Citações usando um modelo para o algoritmo de Aprendizado de Transformações Guiado por Entropia e um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, nós construímos o corpus GloboQuotes com notícias extraídas do portal globo.com. Adicionamos etiquetas morfossintáticas ao corpus, utilizando um anotador estado da arte. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F sub Beta igual a 1 igual a 76,80 por cento. / [en] Quotation Extraction consists of identifying quotations from a text and associating them to their authors. In this work, we present a Quotation Extraction system for Portuguese. Quotation Extraction has been previously approached using different techniques and for several languages. Our proposal differs from previous work since we use Machine Learning to automatically build specialized rules instead of human-derived rules. Machine Learning models usually present stronger generalization power compared to human-derived models. In addition, we are able to easily adapt our model to other languages, needing only a list of verbs of speech for a given language. The previously proposed systems would probably need a rule set adaptation to correctly classify the quotations, which would be time consuming. We tackle the Quotation Extraction task using one model for the Entropy Guided Transformation Learning algorithm and another one for the Structured Perceptron algorithm. In order to train and evaluate the system, we have build the GloboQuotes corpus, with news extracted from the globo.com portal. We add part-of-speech tags to the corpus using a state-of-the-art tagger. The Structured Perceptron based on weighted interval scheduling obtains an F sub Beta equal 1 score of 76.80 per cent.
|
Page generated in 0.0514 seconds