Made available in DSpace on 2013-08-07T18:43:21Z (GMT). No. of bitstreams: 1
000414886-Texto+Completo-0.pdf: 1368148 bytes, checksum: 096cd52430fb611a7d24242f6cc7ff92 (MD5)
Previous issue date: 2008 / In this work we present a brief study on the taxonomy and availability of text corpora in order to introduce questions concerning corpus design and corpus compiling. We present corpus exploring functionalities and we bring comments on available tools and resources to work with corpora. Selecting the suitable tools for corpora compiling and analysis is still a challenge to researchers in the field. Many of the available tools are commercially distributed, depend on specific platforms, restrict file format usage or create their own standards for corpus codification and annotation, what makes it more difficult to interoperate and to share linguistic resources among research groups. In this context we present and detail ENTRELINHAS, the corpus linguistics tool we built and we make available to Portuguese language researchers in this field. ENTRELINHAS eases corpus compiling and makes basic resources for Portuguese language corpora exploring available. The tool adheres to an encoding standard that keeps it compatible with NILC/USP's Portal de Córpus. A discussion on the report of the use of ENTRELINHAS is also presented. / Este trabalho realiza um estudo da tipologia e disponibilidade de corpora. São discutidas questões referentes ao projeto de um corpus no que se refere a sua compilação. São apresentadas funcionalidades para exploração de corpora e analisadas ferramentas e recursos disponíveis para trabalhar com corpus. A seleção de ferramentas adequadas para compilação e exploração de corpora de textos em língua natural representa hoje um desafio aos pesquisadores da área. Muitas das ferramentas disponíveis dependem de licenças e plataformas específicas para serem executadas, limitam o uso de vários formatos de documento ou criam padrões próprios de codificação de corpus e de anotações, dificultando a criação, a interoperabilidade e o compartilhamento de recursos lingüísticos entre grupos de pesquisas. Nesse sentido é apresentada e descrita uma ferramenta para a lingüística de corpus que construímos e oferecemos à comunidade de pesquisadores em língua portuguesa – a ferramenta ENTRELINHAS. Esta ferramenta facilita a compilação e agrega funcionalidades essenciais para exploração de corpora. A ferramenta adere a um formato de codificação compatível com o Portal de Córpus do NILC/USP contribuindo com o intercâmbio de recursos para o processamento da língua portuguesa. Uma análise quanto ao uso dessa ferramenta também é apresentada.
Identifer | oai:union.ndltd.org:IBICT/urn:repox.ist.utl.pt:RI_PUC_RS:oai:meriva.pucrs.br:10923/1636 |
Date | January 2008 |
Creators | Silveira, Filipe Pereira da |
Contributors | Lima, Vera Lúcia Strube de |
Publisher | Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Repositório Institucional da PUC_RS, instname:Pontifícia Universidade Católica do Rio Grande do Sul, instacron:PUC_RS |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.2773 seconds