• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • 1
  • 1
  • Tagged with
  • 5
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

AstrolÃbio: um corpus de redaÃÃes escolares do Cearà anotado multidimensionalmente conforme a TEI P5 / AstrolÃbio: a corpus of school writings of Cearà multi-dimensionally annotated according to TEI P5

Katiuscia de Moraes Andrade 18 February 2013 (has links)
CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / AstrolÃbio is a compiled corpus, with multidimensional annotation, and shared under Creative Commons Attribution-NonCommercial 3.0 Unported licence. It is a corpus, in Brazilian Portuguese, that uses advanced technologies to text processing and corpora annotation. AstrolÃbio has multidimensional annotation based on TEI P5 guidelines, that prescribes XML metalanguage. Through these guidelines, essential structures from the annotated documents were preserved, keeping the transcription as reliable as possible to the original. By using tag <choice>, it enabled keep, in the same archive, linguistic variation phenomena, orthographic and punctuation errors, as the respectives corrected and normalized forms, and also makes possible the visualization of added and deleted terms. To automatize the integration of many levels of annotation, Astro was used, it is a software that works with several Python modules to Natural Language Processing (NLP), including Aelius and Enchant. To POS tagging, Aelius, a package that uses Natural Language Toolkit (NLTK) libraries, was utilized. From Aelius, AeliusHunPosMacMorpho was chosen, it is a tagger based on HunPos and trained by MAC-Morpho, a corpus composed of journalistic texts. The 9spell checking was made by Enchant, a large library with API (Application Programming Interface) in C and C++ languages. The tagger chosen from inside training corpus MacMorpho,. AstrolÃbio's texts were produced during text production workshops from the second edition of Rota das Especiarias project, realized on first semester of 2012, with public school students from Camocim, Barroquinha e Jijoca de Jericoacoara, cities located in CearÃ. Until this moment of AstrolÃbio's creation, concluded stages are texts selection, compilation and the first step of automatic annotation by Astro. AstrolÃbio corpus is already partially avaiable at Rota das Especiarias' website (www.rotadasespeciarias.art.br). Soon, the corpus will be submitted to University of Oxford Text Archive (OTA). As we observed from corpora scene of Portuguese, there's no corpus, in Brazilian Portuguese, with this level of annotation. / AstrolÃbio à um corpus compilado, anotado multidimensionalmente e disponibilizado eletronicamente sob a licenÃa Creative Commons Attribution-NonCommercial 3.0 Unported. Trata-se de um corpus, em PortuguÃs brasileiro, que emprega avanÃadas tecnologias para o processamento de texto e anotaÃÃo de corpora. AstrolÃbio possui anotaÃÃo multidimensional baseada na codificaÃÃo TEI P5, que prescreve o uso metalinguagem XML. Com o uso dessa codificaÃÃo, preservaram-se caracterÃsticas essenciais da estrutura e do conteÃdo dos documentos anotados, tornando a transcriÃÃo o mais fiel possÃvel ao original. Por meio do emprego da tag <choice>, foi possÃvel reunir, em um mesmo arquivo, fenÃmenos de variaÃÃo linguÃstica, erros ortogrÃficos e de pontuaÃÃo, bem como as respectivas formas corrigidas e normalizadas, alÃm de possibilitar a visualizaÃÃo de termos que foram acrescidos ou suprimidos. Para a integraÃÃo automÃtica dos vÃrios nÃveis de anotaÃÃo, utilizou-se o Astro, um software que utiliza diversos mÃdulos em Python para o Processamento da Linguagem Natural (PLN), como o Aelius e o Enchant. Na etiquetagem morfossintÃtica, utilizou-se o pacote Aelius, que, por sua vez, recorre à biblioteca Natural Language Toolkit (NLTK). O etiquetador escolhido, dentro do Aelius, foi o AeliusHunposMacMorpho, criado a partir do etiquetador Hunpos, treinado no corpus de textos jornalÃsticos MAC-Morpho. Efetivou-se a correÃÃo ortogrÃfica com o Enchant, uma vasta biblioteca com API (Application Programming Interface) em linguagem C e C++. Os textos que compÃem esse corpus foram produzidos durante as oficinas de produÃÃo textual da segunda ediÃÃo do projeto Rota das Especiarias, realizadas no primeiro semestre de 2012, com alunos de escolas pÃblicas das cidades cearenses de Camocim, Barroquinha e Jijoca de Jericoacoara. Atà o presente momento da construÃÃo do AstrolÃbio, encontram-se concluÃdas as etapas de seleÃÃo, escanerizaÃÃo, compilaÃÃo e a primeira fase de anotaÃÃo automÃtica dos textos por meio do Astro. O corpus AstrolÃbio jà se encontra parcialmente disponÃvel no sÃtio eletrÃnico Rota das Especiarias (www.rotadasespeciarias.art.br). Em breve, serà submetido ao repositÃrio eletrÃnico University of Oxford Text Archive (OTA). Pelo que se observou do panorama de corpora do PortuguÃs, inexiste um corpus, em PortuguÃs Brasileiro, com esse nÃvel de anotaÃÃo.
2

Smart Search Engine : A Design and Test of Intelligent Search of News with Classification

Li, Chaoyang, Liu, Ke January 2021 (has links)
Background Google, Bing, and Baidu are the most commonly used search engines in the world. They also have some problems. For example, when searching for Jaguar, most of the search  results are cars, not animals. This is the problem of polysemy. Search engines always provide the most popular but not the most correct results. Aim We want to design and implement a search function and explore whether the method of classified news can improve the precision of users searching for news. Method In this research, we collect data by using a web crawler. We use a web crawler to crawl    the data of news in BBC news. Then we use NLTK, inverted index to do data pre-processing, and use BM25 to do data processing. Results Compare to the normal search function, our  function has a lower recall rate and a higher precision. Conclusions This search function can improve the precision when people search for news. Implications This search function can be used not only to search news but to search everything. It has a great future in search engines. It can be combined with machine learning to analyze users' search habits to search and classify more accurately.
3

Movimento do verbo e categorias vazias em I e V em um fragmento de gramática computacional do português / Moviment of verb and slash categories in I or V in a fragment of computacional grammar of portuguese

Santos, Andrea Feitosa dos January 2009 (has links)
SANTOS, Andrea Feitosa. Movimento do verbo e categorias vazias em I e V em um fragmento de gramática computacional do português. 2009.96f.Dissertação (Mestrado em Linguistica) – Universidade Federal do Ceará, Departamento de Letras Vernaculas, Programa de Pós-Graduação em Linguística, Fortaleza-CE, 2009. / Submitted by nazareno mesquita (nazagon36@yahoo.com.br) on 2012-06-21T16:00:03Z No. of bitstreams: 1 2009_diss_AFSantos.pdf: 616159 bytes, checksum: 59bd79e8c618b1d231d8b7b98b8f767e (MD5) / Approved for entry into archive by Maria Josineide Góis(josineide@ufc.br) on 2012-06-22T16:39:36Z (GMT) No. of bitstreams: 1 2009_diss_AFSantos.pdf: 616159 bytes, checksum: 59bd79e8c618b1d231d8b7b98b8f767e (MD5) / Made available in DSpace on 2012-06-22T16:39:36Z (GMT). No. of bitstreams: 1 2009_diss_AFSantos.pdf: 616159 bytes, checksum: 59bd79e8c618b1d231d8b7b98b8f767e (MD5) Previous issue date: 2009 / This work has a theoretical and methodological framework that is divided into two complementary areas: the Language and Computational/Implementacional. For its computational stamp, the first scope of this work is directly linked to the processing of natural language (PNL). Thus, it implements an automatic syntactic analysis (parsing) of expressions of Portuguese in a computational program from the Python library of NLTK, whose tests are represented in tree configurations that show slash categories of finite sentences of Portuguese. Although the stamp computing, this research elaborates a grammar fragment, modeled to capture specific features of linguistic structure of Portuguese, based on the formal model of description linguistic known as Context Free Grammar (CFG) Based on Features, with the purpose of demonstrate how the library of NLTK programs supports the implementation of parsers for analyzing the feature structure. For its stamp of language, it analyzes, according to X-bar Theory and the Minimalist Program, sentences in European and Brazilian variants of Portuguese, obtained from surveys in electronic corpora available on the web. And this work describes and discusses the category IP (inflectional phrase) within the hierarchical structure of constituents, according to the hypothesis of syntactic operation of visible and invisible movement of elements of language, specifically the movement of the verb / Esse trabalho possui um recorte teórico-metodológico que se decompõe em dois domínios complementares: o Linguístico e o Computacional/Implementacional. Pelo seu cunho computacional, o escopo primeiro desse trabalho está diretamente ligado ao processamento de língua natural (PLN). Desse modo, implementa-se uma análise sintática automática (parsing) de expressões de língua portuguesa em programas da biblioteca em Python do NLTK, cujas análises são representadas em forma de configurações arbóreas que demonstram categorias vazias de sentenças finitas do português. Ainda pelo cunho computacional, esse trabalho elabora um fragmento de gramática, modelado para capturar traços específicos da estrutura linguística do português, com base no modelo formal de descrição linguística conhecido como Gramática Livre de Contexto (CFG) Baseada em Traços, com a finalidade de demonstrar como a biblioteca de programas do NLTK dá suporte à realização dos analisadores sintáticos na análise da estrutura de traços. Pelo seu cunho lingüístico, analisa-se, de acordo com a Teoria X-barra e o Programa Minimalista, frases nas variantes europeia e brasileira da língua portuguesa, obtidas de pesquisas em corpora eletrônicos disponíveis na web. E ainda nesse trabalho, descreve-se e discute-se a categoria IP (sintagma flexional) dentro da sua estrutura hierárquica de constituintes, de acordo com a hipótese da operação sintática de movimento visível e não visível dos elementos linguísticos, especificamente o movimento do verbo
4

Movimento do verbo e categorias vazias em I e V em um fragmento de gramÃtica computacional do portuguÃs / Moviment of verb and slash categories in I or V in a fragment of computacional grammar of portuguese

AndrÃa Feitosa dos Santos 10 November 2009 (has links)
CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / Esse trabalho possui um recorte teÃrico-metodolÃgico que se decompÃe em dois domÃnios complementares: o LinguÃstico e o Computacional/Implementacional. Pelo seu cunho computacional, o escopo primeiro desse trabalho està diretamente ligado ao processamento de lÃngua natural (PLN). Desse modo, implementa-se uma anÃlise sintÃtica automÃtica (parsing) de expressÃes de lÃngua portuguesa em programas da biblioteca em Python do NLTK, cujas anÃlises sÃo representadas em forma de configuraÃÃes arbÃreas que demonstram categorias vazias de sentenÃas finitas do portuguÃs. Ainda pelo cunho computacional, esse trabalho elabora um fragmento de gramÃtica, modelado para capturar traÃos especÃficos da estrutura linguÃstica do portuguÃs, com base no modelo formal de descriÃÃo linguÃstica conhecido como GramÃtica Livre de Contexto (CFG) Baseada em TraÃos, com a finalidade de demonstrar como a biblioteca de programas do NLTK dà suporte à realizaÃÃo dos analisadores sintÃticos na anÃlise da estrutura de traÃos. Pelo seu cunho lingÃÃstico, analisa-se, de acordo com a Teoria X-barra e o Programa Minimalista, frases nas variantes europeia e brasileira da lÃngua portuguesa, obtidas de pesquisas em corpora eletrÃnicos disponÃveis na web. E ainda nesse trabalho, descreve-se e discute-se a categoria IP (sintagma flexional) dentro da sua estrutura hierÃrquica de constituintes, de acordo com a hipÃtese da operaÃÃo sintÃtica de movimento visÃvel e nÃo visÃvel dos elementos linguÃsticos, especificamente o movimento do verbo / This work has a theoretical and methodological framework that is divided into two complementary areas: the Language and Computational/Implementacional. For its computational stamp, the first scope of this work is directly linked to the processing of natural language (PNL). Thus, it implements an automatic syntactic analysis (parsing) of expressions of Portuguese in a computational program from the Python library of NLTK, whose tests are represented in tree configurations that show slash categories of finite sentences of Portuguese. Although the stamp computing, this research elaborates a grammar fragment, modeled to capture specific features of linguistic structure of Portuguese, based on the formal model of description linguistic known as Context Free Grammar (CFG) Based on Features, with the purpose of demonstrate how the library of NLTK programs supports the implementation of parsers for analyzing the feature structure. For its stamp of language, it analyzes, according to X-bar Theory and the Minimalist Program, sentences in European and Brazilian variants of Portuguese, obtained from surveys in electronic corpora available on the web. And this work describes and discusses the category IP (inflectional phrase) within the hierarchical structure of constituents, according to the hypothesis of syntactic operation of visible and invisible movement of elements of language, specifically the movement of the verb
5

Zpracování uživatelských recenzí / Processing of User Reviews

Cihlářová, Dita January 2019 (has links)
Very often, people buy goods on the Internet that they can not see and try. They therefore rely on reviews of other customers. However, there may be too many reviews for a human to handle them quickly and comfortably. The aim of this work is to offer an application that can recognize in Czech reviews what features of a product are most commented and whether the commentary is positive or negative. The results can save a lot of time for e-shop customers and provide interesting feedback to the manufacturers of the products.

Page generated in 0.0216 seconds