Spelling suggestions: "subject:"sintagma nominal"" "subject:"magmas nominal""
1 |
Metodologia Computacional para Identificação de Sintagmas Nominais da Língua PortuguesaMORELLATO, L. V. 08 January 2010 (has links)
Made available in DSpace on 2016-08-29T15:33:12Z (GMT). No. of bitstreams: 1
tese_3340_a13-furia.pdf: 1204054 bytes, checksum: 6bd0535e50d6ecfd469372fbce27e1a1 (MD5)
Previous issue date: 2010-01-08 / Sintagmas são unidades de sentido e com função sintática dentro de uma frase, [Nicola 2008]. De maneira geral, as frases que compõem qualquer enunciado expressam um conteúdo por meio dos elementos e das combinações desses elementos que a língua proporciona. Dessa forma, vão se formando conjuntos e subconjuntos que funcionam como unidades sintáticas dentro da unidade maior que é a frase -- os sintagmas, que podem ser divididos em: sintagmas nominais e verbais. Dentre esses, os nominais representam maior interesse devido ao maior valor semântico contido.
Os sintagmas nominais são utilizados em tarefas de Processamento de Linguagem Natural (PLN), como resolução de correferências (anáforas), construção automática de ontologias, em parses usados em textos médicos para geração de resumos e criação de vocabulário, ou ainda como uma etapa inicial em processos de análise sintática. Em Recuperação de Informação (RI) os sintagmas podem ser aplicados na criação de termos em sistemas de indexação e buscas de documentos, gerando resultados melhores.
Esta dissertação propõe uma metodologia computacional para identificação de sintagmas nominais da língua portuguesa em documentos digitais escritos em linguagem natural. Nesse trabalho, é explicitada a metodologia adotada para identificar e extrair sintagmas nominais por meio do desenvolvimento do SISNOP -- Sistema Identificador de Sintagmas Nominais do Português. O SISNOP é um sistema composto por um conjunto de módulos e programas, capaz de interpretar textos irrestritos disponíveis em linguagem natural, através de análises morfológicas e sintáticas, a fim de recuperar sintagmas nominais. Alem disso, são obtidas informações sintáticas, como gênero, número e grau das palavras contidas nos sintagmas extraídos.
O SISNOP testou, entre outros corpus, o CETENFolha, composto por mais 24 milhões de palavras, e o CETEMPúblico, com aproximadamente 180 milhões de palavras em português europeu, e muito utilizado em trabalhos da área. Foi obtido 98,12% e 94,59% de frases reconhecidas pelo sistema, obtendo mais de 24 milhões de sintagmas identificados. Os módulos do SISNOP: EM Etiquetador Morfológico, ISN Identificador de Sintagmas Nominais e IGNG Identificador de Gênero, Número e Grau, foram testados de maneira individual utilizando um conjunto de dados menor que o anterior, visto que, a análise dos resultados foi feita manualmente. O módulo identificador de sintagmas obteve precisão de 82,45% e abrangência de 69,20%.
|
2 |
Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesaSilva, Tiago José da 28 March 2014 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-04-10T17:22:32Z
No. of bitstreams: 2
DISSERTAÇÃO Tiago José da Silva.pdf: 3122636 bytes, checksum: 4141cd54437a53496b7f98822722032e (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-04-10T17:22:33Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Tiago José da Silva.pdf: 3122636 bytes, checksum: 4141cd54437a53496b7f98822722032e (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-03-28 / Objetiva fazer um levantamento do estado da arte da indexação automática por sintagmas nominais para textos em português. Para tanto, identifica e sintetiza os fundamentos teóricos, metodologias e ferramentas da indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa, levando em conta publicações científicas nas áreas da Ciência da Informação, Ciência da Computação, Terminologia e Linguística. Discute as metodologias para indexação automática através de sintagmas nominais em textos em língua portuguesa, no intuito de apontar critérios para extração e seleção de sintagmas que possam ser usados como descritores documentais. Avalia e compara ferramentas de extração automática de sintagmas nominais como o parser PALAVRAS, OGMA e LX-Parser, usando como referência a extração manual de sintagmas nominais. Percebe que os trabalhos produzidos depois do ano de 2000 e que trabalham com a extração automática de termos fazem referências ao parser PALAVRAS, tendo-o como um bom etiquetador e analisador sintático. Na comparação entre as referidas ferramentas automáticas, percebe-se que apesar do LX-Parser ter tido melhor desempenho em alguns aspectos como extrair um maior número de SNs do que o PALAVRAS, esse ainda consegue ser melhor pelo número menor de erros e a possibilidade de submeter um texto completo à análise do programa, ação que o LX-Parser não permite realizar. Quanto ao levantamento do estado da arte, pode-se dizer que as pesquisas ainda não atingiram um grau de amadurecimento elevado, pois os resultados apresentados pela literatura não alcançam uma taxa de precisão elevada para todos os tipos de corpus. Conclui que os resultados das pesquisas que trabalham com a extração automática de sintagmas nominais devem ser comparados entre si para que se possam detectar os problemas existentes quanto às metodologias e às ferramentas de extração destes sintagmas nominais em língua portuguesa. Tendo, dessa maneira, as ferramentas e as metodologias melhoradas para que efetivamente possam ser aplicadas em sistemas de recuperação de informação, fazendo a seleção de sintagmas nominais que possam ser usados como descritores documentais no intuito de satisfazer as necessidades informacionais do usuário. Sugere, então, algumas possíveis soluções para os problemas de identificação de sintagmas nominais enfrentados pelas ferramentas automáticas.
|
3 |
Dos sintagmas nominais aos descritores documentais: estudo de caso na indexação de teses e dissertações da área de DireitoNASCIMENTO, Gustavo Diniz 20 November 2015 (has links)
Submitted by Haroudo Xavier Filho (haroudo.xavierfo@ufpe.br) on 2016-05-19T18:03:16Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Dissertação. Dos Sintagmas Nominais aos Descritores Documentais Estudo de Caso na Indexação de Te.pdf: 3525255 bytes, checksum: 7cb6e4bda3f02eb17e2009285414748d (MD5) / Made available in DSpace on 2016-05-19T18:03:16Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Dissertação. Dos Sintagmas Nominais aos Descritores Documentais Estudo de Caso na Indexação de Te.pdf: 3525255 bytes, checksum: 7cb6e4bda3f02eb17e2009285414748d (MD5)
Previous issue date: 2015-11-20 / O uso dos Sintagmas Nominais como instrumentos de organização e recuperação da informação digital vem se mostrando uma alternativa promissora para sistemas de informação. Nesse contexto, a indexação automática por meio de Sintagmas Nominais se mostra como uma alternativa que minimiza alguns problemas encontrados na indexação baseada em palavras isoladas, uma vez que os Sintagmas Nominais se constituem em unidades sintáticas que possuem semântica/sentido específico. No entanto, é notório que nem todos os Sintagmas Nominais que se encontram em um documento digital são representativos do mesmo, o que demonstra por sua vez a necessidade de uma seleção dos Sintagmas Nominais que realmente possam funcionar como descritores documentais. Nesse contexto, o presente trabalho tem como objetivo geral investigar a seleção de sintagmas nominais com valor de descritor no contexto do processo de indexação automática por meio de sintagmas nominais de resumos de teses e dissertações em português da área jurídica. Pretende-se: 1. Investigar o processo de indexação automática por meio de sintagmas nominais; 2. Verificar quais são as características de um Sintagma Nominal como valor de descritor documental; 3. Identificar na literatura científica nacional metodologias para seleção de sintagmas nominais em textos em português, bem como os critérios de seleção de cada metodologia; 4. Planejar experimento, onde os Sintagmas Nominais extraídos são categorizados quanto ao atendimento ou não a critérios de seleção propostos na literatura e quanto ao valor como Descritores, quando semelhantes aos descritores documentais resultantes da indexação manual; 5. Avaliar os critérios de seleção na indexação automática por meio de Sintagmas Nominais para teses e dissertações da área jurídica. Para o alcance dos objetivos propostos, fez-se uso de uma pesquisa bibliográfica e de um experimento. A pesquisa bibliográfica permitiu a identificação de pesquisas voltadas para a indexação automática por meio de Sintagmas Nominais, principalmente no que se refere à seleção de Sintagmas que funcionem como descritores documentais. Com base nas leituras dessas pesquisas, puderam-se identificar vários critérios utilizados para a seleção de Sintagmas. O experimento constituiu-se na aplicação dos critérios identificados na literatura aos sintagmas nominais extraídos de um conjunto de resumos de teses e dissertações da área jurídica, com o intuito de mensurar a utilidade ou não desses critérios no que diz respeito à seleção de sintagmas nominais descritores. Assim, realizou-se a indexação manual dos documentos, a extração automática dos Sintagmas Nominais constituintes dos mesmos, a categorização dos sintagmas nominais como descritores com base na semelhança aos descritores documentais advindos da indexação manual e a aplicação dos critérios de seleção aos sintagmas nominais extraídos. Por meio do experimento, foram percebidos comportamentos distintos entre cada critério, onde a maioria foi considerada útil para a seleção de sintagmas nominais. / The use of noun phrases as tools for information organization and retrieval has proven to be a promising alternative in information systems. In this context, automatic indexing through the noun phrases shows a new alternative that minimizes some problems encountered in indexing based on single words, given that noun phrases are syntactic units with specific semantic/meaning. However, it is evident that not all the noun phrases in a digital document are representative of the content, which in turn demonstrates the need for a selection of noun phrases that may serve as documentary descriptors. In this context, this work aims to investigate the selection of noun phrases with descriptor value in the context of the automatic indexing process by noun phrases from abstracts of theses and dissertations in the area of law in Portuguese. The specific objectives are: 1. Investigate the automatic indexing process by noun phrases; 2. Identify what are the characteristics of a noun phrase with descriptor value; 3. Identify the methodologies in national scientific literature for selection of noun phrases in texts in Portuguese, as well as the selection criteria of each methodology; 4. Organization of an experiment where each extracted noun phrase is categorized as descriptor and if it meets or not the proposed selection criteria in the literature; 5. Evaluate the selection criteria in the automatic indexing by noun phrases for theses and dissertations in the legal field. To achieve the objectives, it was made use of a bibliographic research and experiment. The literature review allowed the identification of research on automatic indexing by noun phrases, especially criteria used to choose noun phrases that act as documentary descriptors. Based on the readings of this research, it was possible to identify several criteria used for the selection of noun phrases. The experiment consisted in applying the criteria identified in the literature to noun phrases extracted from a set of abstracts of theses and dissertations in the legal field, in order to measure the usefulness or not of these criteria for the selection of noun phrases descriptors. Thus it was made manual indexing of documents, automatic extraction of noun phrases thereof, the categorization of noun phrases as descriptors based on their resemblance to the descriptors of manual indexing and the application of criteria in the extracted noun phrases. Through the experiment, we notice a different behavior for each criterion, where most of the criteria was considered useful for noun phrase selection.
|
4 |
Caso, definitude e os sintagmas nominais no armênio / Case, definiteness and noun phrases in ArmenianYeghiazaryan, Lusine 20 August 2010 (has links)
Este trabalho trata da organização de sintagmas nominais no armênio, revelando uma interação peculiar entre a expressão de definitude e a marcação morfológica de Caso e as conseqüências dessa relação para a organização estrutural desta língua. Mostra se que os sintagmas nominais são interpretados como definidos como resultado de atribuição de Caso estrutural, e que existe uma assimetria entre os Casos estruturais e os Casos inerentes quanto à atribuição de definitude. Como ponto de partida, discute-se o estatuto do sufixo n/y, chamado de artigo definido pela gramática tradicional do armênio. A investigação das propriedades morfossintáticas desse sufixo mostra que o mesmo é uma marca com características mistas, que atua na atribuição de definitude e Caso de uma maneira não atestada nas línguas naturais e questiona o recorte entre as funções de Caso e os meios de expressão de definitude. Baseando-nos nos trabalhos de Chomsky (1986b), Longobardi (1994) e Giusti (2002), propomos a reanálise do sufixo -n/y como uma marca de Caso estrutural, que transforma os sintagmas nominais em argumentos sintáticos, e é associada ao nível DP na estrutura frasal. Ademais, mostra-se que a ausência de marcação de Caso estrutural resulta numa série de restrições semântico-sintáticas nos sintagmas nominais (nus), a mais proeminente sendo o movimento desses sintagmas para uma posição antes do verbo, seguidos imediatamente pelo auxiliar. Isso leva a diferentes ordens superficiais para sintagmas marcados por Caso estrutural (SVO) e sintagmas nus (SOauxV). Tal evidência, junto com o quadro das características dos sintagmas nus no armênio, leva à análise dos mesmos como pseudo-incorporados, conforme proposto por Massam (2001) para o niueano, com a diferença de que o sintagma nu se adjunge à projeção funcional TP no armênio, sem passar pela operação de alçamento do predicado. Quanto à expressão de definitude nos Casos inerentes, mostramos que em contraste com os sintagmas nos Casos estruturais, que podem aparecer com ou sem marcação aberta de Caso e ter, respectivamente, leitura definida ou indefinida, os inerentes devem sempre carregar a morfologia casual e são ambíguos quanto à definitude. Nesse aspecto, analisamos as projeções nominais Genitivas e constatamos que, apesar da aparente semelhança superficial, as mesmas exibem propriedades distintas que correspondem a duas estruturas internas diferentes do sintagma nominal, viii podendo ser caracterizadas como duas classes distintas: o Genitivo Referencial, que aparece em Spec/DP e é interpretado como definido por se associar ao nível DP, e o Genitivo Modificador, que permanece no domínio do NP no percurso da derivação. As conclusões a que chegamos provam que mesmo sem possuir um artigo definido canônico, o armênio oferece evidências a favor da postulação do nível DP como universal, responsável pelas interpretações definidas dos sintagmas nominais. Nos Casos estruturais, a definitude vem da atribuição de Caso, enquanto no Genitivo (um exemplo de Caso inerente) vem da posição ocupada dentro do sintagma nominal. Por conseguinte, o presente trabalho traz uma contribuição teórica valiosa para a análise unificada das projeções nominais, além de auxiliar na elucidação de alguns assuntos empíricos controversos do armênio e abrir caminho para pesquisas futuras. / This thesis investigates the structural organization of noun phrases in Armenian, an Indo-European language with mixed properties, focusing on the interaction between Case and (in)definiteness. The main claim of the study is that, contrary to traditional view, Armenian has no (definite) article, and definiteness in this language is a result of structural Case marking on NPs. This claim has implications for the analysis of bare nominals as NPs that lack both Case and referential properties and are syntactically restricted to a peculiar configuration, resulting in different superficial orders for Case-marked (SVO) and bare noun phrases (SOauxV). Moreover, this analysis casts light on a rather intriguing question of how definiteness is expressed in inherent Cases. It is shown that, unlike structural Cases, which express a direct correlation between definiteness and Case, inherent Cases, more precisely Genitive NPs, are interpreted as (in)definite by associating themselves to distinct structural positions. The starting point of our discussion is the re-analysis of the suffix -n/y, traditionally classified as a definite article. Highlighting Case and (in)definiteness as two independent conditions on argumenthood (Chomsky (1986b), Longobardi (1994), Giusti (2002)) that are closely correlated in Armenian, we argue that this suffix is in fact a structural Case marker, which turns nominals into syntactic arguments, and is associated with DP level. Focusing on the morpho-syntactic behavior of bare nominals in Armenian, it is shown that in the absence of structural Case marking, their distribution is syntactically restricted to a position in which they appear to the left of the verb and must be adjacent to the auxiliary. This distribution is accounted for by adopting the pseudo-incorporation analysis of Massam (2001). We show that bare nouns in Armenian exhibit typical properties of pseudo-incorporated nominals, as lack of reference, number-neutrality, phrasal nature, among others. Turning our attention to Genitive constructions, which always appear with Case morphology, we analyze a number of properties that superficially distinguish two (main) types, which we propose to call Referential and Modifying Genitives. The difference between them is syntactic, as they have different structural representations: Spec/DP for Referential and NP domain for Modifying Genitive. x As a result, we conclude that there exists an asymmetry between inherent and structural Cases as to how they express definiteness. Moreover, we conclude that in spite of the fact that Armenian does not have canonical (definite) article, a DP level must be postulated for this language, as a projection responsible for the referentiality/definiteness of the noun phrases. Thus, this study contributes to the outgoing debates about the precise functions of D as universal category and provides a valuable theoretical contribution to the cross-linguistic investigations of nominal projections.
|
5 |
Indução de filtros lingüisticamente motivados na recuperação de informação / Linguistically motivated filter induction in information retrievalArcoverde, João Marcelo Azevedo 17 April 2007 (has links)
Apesar dos processos de recuperação e filtragem de informação sempre terem usado técnicas básicas de Processamento de Linguagem Natural (PLN) no suporte à estruturação de documentos, ainda são poucas as indicações sobre os avanços relacionados à utilização de técnicas mais sofisticadas de PLN que justifiquem o custo de sua utilização nestes processos, em comparação com as abordagens tradicionais. Este trabalho investiga algumas evidências que fundamentam a hipótese de que a aplicação de métodos que utilizam conhecimento linguístico é viável, demarcando importantes contribuições para o aumento de sua eficiência em adição aos métodos estatásticos tradicionais. É proposto um modelo de representação de texto fundamentado em sintagmas nominais, cuja representatividade de seus descritores é calculada utilizando-se o conceito de evidência, apoiado em métodos estatísticos. Filtros induzidos a partir desse modelo são utilizados para classificar os documentos recuperados analisando-se a relevância implícita no perfil do usuário. O aumento da precisão (e, portanto, da eficácia) em sistemas de Recuperação de Informação, conseqüência da pós-filtragem seletiva de informações, demonstra uma clara evidência de como o uso de técnicas de PLN pode auxiliar a categorização de textos, abrindo reais possibilidades para o aprimoramento do modelo apresentado / Although Information Retrieval and Filtering tasks have always used basic Natural Language Processing (NLP) techniques for supporting document structuring, there is still space for more sophisticated NLP techniques which justify their cost when compared to the traditional approaches. This research aims to investigate some evidences that justify the hypothesis on which the use of linguistic-based methods is feasible and can bring on relevant contributions to this area. In this work noun phrases of a text are used as descriptors whose evidence is calculated by statistical methods. Filters are then induced to classify the retrieved documents by measuring their implicit relevance presupposed by an user profile. The increase of precision (efficacy) in IR systems as a consequence of the use of NLP techniques for text classification in the filtering task is an evidence of how this approach can be further explored
|
6 |
Caso, definitude e os sintagmas nominais no armênio / Case, definiteness and noun phrases in ArmenianLusine Yeghiazaryan 20 August 2010 (has links)
Este trabalho trata da organização de sintagmas nominais no armênio, revelando uma interação peculiar entre a expressão de definitude e a marcação morfológica de Caso e as conseqüências dessa relação para a organização estrutural desta língua. Mostra se que os sintagmas nominais são interpretados como definidos como resultado de atribuição de Caso estrutural, e que existe uma assimetria entre os Casos estruturais e os Casos inerentes quanto à atribuição de definitude. Como ponto de partida, discute-se o estatuto do sufixo n/y, chamado de artigo definido pela gramática tradicional do armênio. A investigação das propriedades morfossintáticas desse sufixo mostra que o mesmo é uma marca com características mistas, que atua na atribuição de definitude e Caso de uma maneira não atestada nas línguas naturais e questiona o recorte entre as funções de Caso e os meios de expressão de definitude. Baseando-nos nos trabalhos de Chomsky (1986b), Longobardi (1994) e Giusti (2002), propomos a reanálise do sufixo -n/y como uma marca de Caso estrutural, que transforma os sintagmas nominais em argumentos sintáticos, e é associada ao nível DP na estrutura frasal. Ademais, mostra-se que a ausência de marcação de Caso estrutural resulta numa série de restrições semântico-sintáticas nos sintagmas nominais (nus), a mais proeminente sendo o movimento desses sintagmas para uma posição antes do verbo, seguidos imediatamente pelo auxiliar. Isso leva a diferentes ordens superficiais para sintagmas marcados por Caso estrutural (SVO) e sintagmas nus (SOauxV). Tal evidência, junto com o quadro das características dos sintagmas nus no armênio, leva à análise dos mesmos como pseudo-incorporados, conforme proposto por Massam (2001) para o niueano, com a diferença de que o sintagma nu se adjunge à projeção funcional TP no armênio, sem passar pela operação de alçamento do predicado. Quanto à expressão de definitude nos Casos inerentes, mostramos que em contraste com os sintagmas nos Casos estruturais, que podem aparecer com ou sem marcação aberta de Caso e ter, respectivamente, leitura definida ou indefinida, os inerentes devem sempre carregar a morfologia casual e são ambíguos quanto à definitude. Nesse aspecto, analisamos as projeções nominais Genitivas e constatamos que, apesar da aparente semelhança superficial, as mesmas exibem propriedades distintas que correspondem a duas estruturas internas diferentes do sintagma nominal, viii podendo ser caracterizadas como duas classes distintas: o Genitivo Referencial, que aparece em Spec/DP e é interpretado como definido por se associar ao nível DP, e o Genitivo Modificador, que permanece no domínio do NP no percurso da derivação. As conclusões a que chegamos provam que mesmo sem possuir um artigo definido canônico, o armênio oferece evidências a favor da postulação do nível DP como universal, responsável pelas interpretações definidas dos sintagmas nominais. Nos Casos estruturais, a definitude vem da atribuição de Caso, enquanto no Genitivo (um exemplo de Caso inerente) vem da posição ocupada dentro do sintagma nominal. Por conseguinte, o presente trabalho traz uma contribuição teórica valiosa para a análise unificada das projeções nominais, além de auxiliar na elucidação de alguns assuntos empíricos controversos do armênio e abrir caminho para pesquisas futuras. / This thesis investigates the structural organization of noun phrases in Armenian, an Indo-European language with mixed properties, focusing on the interaction between Case and (in)definiteness. The main claim of the study is that, contrary to traditional view, Armenian has no (definite) article, and definiteness in this language is a result of structural Case marking on NPs. This claim has implications for the analysis of bare nominals as NPs that lack both Case and referential properties and are syntactically restricted to a peculiar configuration, resulting in different superficial orders for Case-marked (SVO) and bare noun phrases (SOauxV). Moreover, this analysis casts light on a rather intriguing question of how definiteness is expressed in inherent Cases. It is shown that, unlike structural Cases, which express a direct correlation between definiteness and Case, inherent Cases, more precisely Genitive NPs, are interpreted as (in)definite by associating themselves to distinct structural positions. The starting point of our discussion is the re-analysis of the suffix -n/y, traditionally classified as a definite article. Highlighting Case and (in)definiteness as two independent conditions on argumenthood (Chomsky (1986b), Longobardi (1994), Giusti (2002)) that are closely correlated in Armenian, we argue that this suffix is in fact a structural Case marker, which turns nominals into syntactic arguments, and is associated with DP level. Focusing on the morpho-syntactic behavior of bare nominals in Armenian, it is shown that in the absence of structural Case marking, their distribution is syntactically restricted to a position in which they appear to the left of the verb and must be adjacent to the auxiliary. This distribution is accounted for by adopting the pseudo-incorporation analysis of Massam (2001). We show that bare nouns in Armenian exhibit typical properties of pseudo-incorporated nominals, as lack of reference, number-neutrality, phrasal nature, among others. Turning our attention to Genitive constructions, which always appear with Case morphology, we analyze a number of properties that superficially distinguish two (main) types, which we propose to call Referential and Modifying Genitives. The difference between them is syntactic, as they have different structural representations: Spec/DP for Referential and NP domain for Modifying Genitive. x As a result, we conclude that there exists an asymmetry between inherent and structural Cases as to how they express definiteness. Moreover, we conclude that in spite of the fact that Armenian does not have canonical (definite) article, a DP level must be postulated for this language, as a projection responsible for the referentiality/definiteness of the noun phrases. Thus, this study contributes to the outgoing debates about the precise functions of D as universal category and provides a valuable theoretical contribution to the cross-linguistic investigations of nominal projections.
|
7 |
Indução de filtros lingüisticamente motivados na recuperação de informação / Linguistically motivated filter induction in information retrievalJoão Marcelo Azevedo Arcoverde 17 April 2007 (has links)
Apesar dos processos de recuperação e filtragem de informação sempre terem usado técnicas básicas de Processamento de Linguagem Natural (PLN) no suporte à estruturação de documentos, ainda são poucas as indicações sobre os avanços relacionados à utilização de técnicas mais sofisticadas de PLN que justifiquem o custo de sua utilização nestes processos, em comparação com as abordagens tradicionais. Este trabalho investiga algumas evidências que fundamentam a hipótese de que a aplicação de métodos que utilizam conhecimento linguístico é viável, demarcando importantes contribuições para o aumento de sua eficiência em adição aos métodos estatásticos tradicionais. É proposto um modelo de representação de texto fundamentado em sintagmas nominais, cuja representatividade de seus descritores é calculada utilizando-se o conceito de evidência, apoiado em métodos estatísticos. Filtros induzidos a partir desse modelo são utilizados para classificar os documentos recuperados analisando-se a relevância implícita no perfil do usuário. O aumento da precisão (e, portanto, da eficácia) em sistemas de Recuperação de Informação, conseqüência da pós-filtragem seletiva de informações, demonstra uma clara evidência de como o uso de técnicas de PLN pode auxiliar a categorização de textos, abrindo reais possibilidades para o aprimoramento do modelo apresentado / Although Information Retrieval and Filtering tasks have always used basic Natural Language Processing (NLP) techniques for supporting document structuring, there is still space for more sophisticated NLP techniques which justify their cost when compared to the traditional approaches. This research aims to investigate some evidences that justify the hypothesis on which the use of linguistic-based methods is feasible and can bring on relevant contributions to this area. In this work noun phrases of a text are used as descriptors whose evidence is calculated by statistical methods. Filters are then induced to classify the retrieved documents by measuring their implicit relevance presupposed by an user profile. The increase of precision (efficacy) in IR systems as a consequence of the use of NLP techniques for text classification in the filtering task is an evidence of how this approach can be further explored
|
Page generated in 0.0783 seconds