Spelling suggestions: "subject:"linguagem batural"" "subject:"linguagem datural""
291 |
[en] A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING / [pt] UMA ABORDAGEM DE APRENDIZADO DE MÁQUINA PARA SEGMENTAÇÃO TEXTUAL NO PORTUGUÊSGUILHERME CARLOS DE NAPOLI FERREIRA 10 February 2017 (has links)
[pt] A segmentação textual é uma tarefa de Processamento de Linguagem Natural
muito relevante, e consiste na divisão de uma sentença em sequências disjuntas
de palavras sintaticamente relacionadas. Um dos fatores que contribuem
fortemente para sua importância é que seus resultados são usados como significativos
dados de entrada para problemas linguísticos mais complexos. Dentre
esses problemas estão a análise sintática completa, a identificação de orações,
a análise sintática de dependência, a identificação de papéis semânticos e a
tradução automática. Em particular, abordagens de Aprendizado de Máquina
para estas tarefas beneficiam-se intensamente com o uso de um atributo de
segmentos textuais. Um número respeitável de eficazes estratégias de extração
de segmentos para o inglês foi apresentado ao longo dos últimos anos. No entanto,
até onde podemos determinar, nenhum estudo abrangente foi feito sobre
a segmentação textual para o português, de modo a demonstrar seus benefícios.
O escopo deste trabalho é a língua portuguesa, e seus objetivos são dois. Primeiramente,
analisamos o impacto de diferentes definições de segmentação,
utilizando uma heurística para gerar segmentos que depende de uma análise
sintática completa previamente anotada. Em seguida, propomos modelos de
Aprendizado de Máquina para a extração de segmentos textuais baseados na
técnica Aprendizado de Transformações Guiado por Entropia. Fazemos uso do
corpus Bosque, do projeto Floresta Sintá(c)tica, nos nossos experimentos. Utilizando
os valores determinados diretamente por nossa heurística, um atributo
de segmentos textuais aumenta a métrica F beta igual 1 de um sistema de identificação
de orações para o português em 6.85 e a acurácia de um sistema de análise
sintática de dependência em 1.54. Ademais, nosso melhor extrator de segmentos
apresenta um F beta igual 1 de 87.95 usando anotaçoes automáticas de categoria
gramatical. As descobertas indicam que, de fato, a informação de segmentação
textual derivada por nossa heurística é relevante para tarefas mais elaboradas
cujo foco é o português. Além disso, a eficácia de nossos extratores é comparável à dos similares do estado-da-arte para o inglês, tendo em vista que os
modelos propostos são razoavelmente simples. / [en] Text chunking is a very relevant Natural Language Processing task, and
consists in dividing a sentence into disjoint sequences of syntactically correlated
words. One of the factors that highly contribute to its importance is that its
results are used as a significant input to more complex linguistic problems.
Among those problems we have full parsing, clause identification, dependency
parsing, semantic role labeling and machine translation. In particular, Machine
Learning approaches to these tasks greatly benefit from the use of a chunk
feature. A respectable number of effective chunk extraction strategies for the
English language has been presented during the last few years. However, as
far as we know, no comprehensive study has been done on text chunking for
Portuguese, showing its benefits. The scope of this work is the Portuguese
language, and its objective is twofold. First, we analyze the impact of different
chunk definitions, using a heuristic to generate chunks that relies on previous
full parsing annotation. Then, we propose Machine Learning models for chunk
extraction based on the Entropy Guided Transformation Learning technique.
We employ the Bosque corpus, from the Floresta Sintá(c)tica project, for our
experiments. Using golden values determined by our heuristic, a chunk feature
improves the F beta equal 1 score of a clause identification system for Portuguese by 6.85
and the accuracy of a dependency parsing system by 1.54. Moreover, our best
chunk extractor achieves a F beta equal 1 of 87.95 when automatic part-of-speech tags
are applied. The empirical findings indicate that, indeed, chunk information
derived by our heuristic is relevant to more elaborate tasks targeted on
Portuguese. Furthermore, the effectiveness of our extractors is comparable to
the state-of-the-art similars for English, taking into account that our proposed
models are reasonably simple.
|
292 |
Indução de filtros lingüisticamente motivados na recuperação de informação / Linguistically motivated filter induction in information retrievalJoão Marcelo Azevedo Arcoverde 17 April 2007 (has links)
Apesar dos processos de recuperação e filtragem de informação sempre terem usado técnicas básicas de Processamento de Linguagem Natural (PLN) no suporte à estruturação de documentos, ainda são poucas as indicações sobre os avanços relacionados à utilização de técnicas mais sofisticadas de PLN que justifiquem o custo de sua utilização nestes processos, em comparação com as abordagens tradicionais. Este trabalho investiga algumas evidências que fundamentam a hipótese de que a aplicação de métodos que utilizam conhecimento linguístico é viável, demarcando importantes contribuições para o aumento de sua eficiência em adição aos métodos estatásticos tradicionais. É proposto um modelo de representação de texto fundamentado em sintagmas nominais, cuja representatividade de seus descritores é calculada utilizando-se o conceito de evidência, apoiado em métodos estatísticos. Filtros induzidos a partir desse modelo são utilizados para classificar os documentos recuperados analisando-se a relevância implícita no perfil do usuário. O aumento da precisão (e, portanto, da eficácia) em sistemas de Recuperação de Informação, conseqüência da pós-filtragem seletiva de informações, demonstra uma clara evidência de como o uso de técnicas de PLN pode auxiliar a categorização de textos, abrindo reais possibilidades para o aprimoramento do modelo apresentado / Although Information Retrieval and Filtering tasks have always used basic Natural Language Processing (NLP) techniques for supporting document structuring, there is still space for more sophisticated NLP techniques which justify their cost when compared to the traditional approaches. This research aims to investigate some evidences that justify the hypothesis on which the use of linguistic-based methods is feasible and can bring on relevant contributions to this area. In this work noun phrases of a text are used as descriptors whose evidence is calculated by statistical methods. Filters are then induced to classify the retrieved documents by measuring their implicit relevance presupposed by an user profile. The increase of precision (efficacy) in IR systems as a consequence of the use of NLP techniques for text classification in the filtering task is an evidence of how this approach can be further explored
|
293 |
Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina / Portuguese named entity recognition using machine learningWesley Seidel Carvalho 24 February 2012 (has links)
O Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina. / Named Entity Recognition (NER), a task related to information extraction, aims to classify textual elements according to predefined categories such as names, places, dates etc. This enables the execution of more advanced tasks. NER is a first step towards semantic textual analysis and is also a crucial task for systems of information extraction and other types of systems. In this thesis, I analyze some Machine Learning methods applied to NER tasks, including two methods applied to Portuguese language. I present three ways of evaluating these types of systems found in the literature. I also develop an NER system for the Portuguese language utilizing Machine Learning that entails working with a maximum entropy framework. The results are comparable to the best NER systems for the Portuguese language developed with other Machine Learning alternatives.
|
294 |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK / [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OUROELVIS ALVES DE SOUZA 29 May 2023 (has links)
[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold,
um corpus anotado com informação morfossintática – um treebank – padrão
ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob
duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos
decisões linguisticamente motivadas para garantir a qualidade da anotação
do corpus; do lado computacional, avaliamos o recurso considerando a sua
utilidade para o processamento de linguagem natural (PLN). Recursos como
o PetroGold recebem relevância especial no contexto atual, em que o PLN
estatístico tem se beneficiado de recursos padrão ouro de domínios específicos
para alimentar o aprendizado automático. No entanto, o treebank é útil também
para tarefas como a avaliação de sistemas de anotação baseados em regras e
para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas
do projeto Universal Dependencies, tendo como pressupostos a ideia de que a
anotação de um corpus é um processo interpretativo, por um lado, e utilizando
o paradigma da linguística empírica, por outro. Além de descrever a anotação
propriamente, aplicamos alguns métodos para encontrar erros na anotação de
treebanks e apresentamos uma ferramenta criada especificamente para busca,
edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão
de cada uma das categorias linguísticas do treebank no aprendizado automático
de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a
terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de
um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank
– for the oil and gas domain. The development of the resource is seen
from two perspectives: on the linguistic side, we study the grammatical
literature and make linguistically motivated decisions to ensure the quality
of corpus annotation; on the computational side, we evaluate the resource
considering its usefulness for natural language processing (NLP). Resources like
PetroGold receive special importance in the current context, where statistical
NLP has benefited from domain-specific gold-standard resources to train
machine learning models. However, the treebank is also useful for tasks such as
evaluating rule-based annotation systems and for linguistic studies. PetroGold
was annotated according to the guidelines of the Universal Dependencies
project, having as theoretical assumptions the idea that the annotation of
a corpus is an interpretative process, on the one hand, and using the empirical
linguistics paradigm, on the other. In addition to describing the annotation
itself, we apply some methods to find errors in the annotation of treebanks
and present a tool created specifically for searching, editing and evaluating
annotated corpora. Finally, we evaluate the impact of revising each of the
treebank linguistic categories on the automatic learning of a model powered
by PetroGold and make the third version of the corpus publicly available,
which, when performing an intrinsic evaluation for a model using the corpus,
achieves metrics up to 2.55 perecent better than the previous version.
|
295 |
[en] LER: ANNOTATION AND AUTOMATIC CLASSIFICATION OF ENTITIES AND RELATIONS / [pt] LER: ANOTAÇÃO E CLASSIFICAÇÃO AUTOMÁTICA DE ENTIDADES E RELAÇÕESJONATAS DOS SANTOS GROSMAN 30 November 2017 (has links)
[pt] Diversas técnicas para extração de informações estruturadas de dados em linguagem natural foram desenvolvidas e demonstraram resultados muito satisfatórios. Entretanto, para obterem tais resultados, requerem uma série de atividades que geralmente são feitas de modo isolado, como a anotação de textos para geração de corpora, etiquetamento morfossintático, engenharia e extração de atributos, treinamento de modelos de aprendizado de máquina etc., o que torna onerosa a extração dessas informações, dado o esforço e tempo a serem investidos. O presente trabalho propõe e desenvolve uma plataforma em ambiente web, chamada LER (Learning Entities and Relations) que integra o fluxo necessário para essas atividades, com uma interface que visa a facilidade de uso. Outrossim, o trabalho mostra os resultados da implementação e uso da plataforma proposta. / [en] Many techniques for the structured information extraction from natural language data have been developed and have demonstrated their potentials yielding satisfactory results. Nevertheless, to obtain such results, they require some activities that are usually done separately, such as text annotation to generate corpora, Part-Of- Speech tagging, features engineering and extraction, machine learning models training etc., making the information extraction task a costly activity due to the effort and time spent on this. The present work proposes and develops a web based platform called LER (Learning Entities and Relations), that integrates the needed workflow for these activities, with an interface that aims the ease of use. The work also shows the platform implementation and its use.
|
296 |
[en] RES-RISK-ONTO: AN APPLICATION ONTOLOGY FOR RISKS IN THE PETROLEUM RESERVOIR DOMAIN / [pt] RES-RISK-ONTO: UMA ONTOLOGIA DE APLICAÇÃO PARA RISCOS NO DOMÍNIO DE RESERVATÓRIOS DE PETRÓLEOPATRICIA FERREIRA DA SILVA 12 May 2022 (has links)
[pt] Este trabalho apresenta a Reservoir Risks Ontology (ResRiskOnto), uma
ontologia aplicada aos riscos na indústria de óleo e gás associados ao domínio
de reservatórios. Os componentes da ResRiskOnto são termos do domínio de
trabalho de profissinais de reservatório, de forma a facilitar sua adoção na
documentação futura de riscos.
A ResRiskOnto tem como ideia central o conceito de Evento de Risco.
Cada evento tem um conjunto de possíveis Participantes, que por sua vez
possuem Características manifestadas pelo evento. A ontologia dispõe de um
total de 97 termos, 29 dos quais derivados da classe Evento de Risco.
Para desenvolver a ResRiskOnto, foi feita uma análise semântica em
aproximadamente 2500 riscos de reservatórios documentados em linguagem
natural. Este repositório é fruto de centenas de workshops de avaliação de
riscos em projetos de óleo e gás, conduzidos na Petrobras durante uma década.
A ontologia proposta fundamenta-se nos princípios da Basic Formal
Ontology (BFO), uma ontologia de topo projetada para descrever domínios
científicos. A BFO baseia-se no Realismo, uma visão filosófica segundo a qual
os entes que constituem a realidade existem independentemente da nossa
representação. No nível de domínio definimos os entes de reservatório usando
os conceitos da GeoCore Ontology, uma ontologia para a Geologia.
Para validar a ResRiskOnto os documentos do repositório foram anotados
utilizando os entes e relações definidos na ontologia, e desenvolvido um modelo
capaz de reconhecer entidades nomeadas e extrair as relações entre elas.
Nossa contribuição é uma ontologia aplicada que permite o raciocínio
semântico no repositório de documentos de risco. Esperamos que ela forneça
(i) as bases para modelagem de dados de riscos relacionados a reservatórios; e
(ii) um padrão para futura documentação de riscos no domínio de reservatório. / [en] This work proposes the Reservoir Risks Ontology (ResRiskOnto), an
application ontology for risks in the oil and gas industry associated with
the petroleum reservoir domain. ResRiskOnto s building blocks are terms
dominated by reservoir professionals, so that it can be easily adopted in future
risk documentation.
ResRiskOnto is developed having at its center the concept of Risk Events.
Each event has a set of possible Participants, that have its Characteristics
manifested by the event. The ontology provides a total a set of 97 terms, 29
of which are derived from the Risk Event class.
To develop the ResRiskOnto, we conducted a semantic analysis of
documents that contain over 2500 reservoir-related risks described in natural
language. This repository is the result of hundreds of risk assessment workshops
in oil and gas projects, conducted in over ten years in Petrobras.
This ontology is founded on the principles of the Basic Formal Ontology (BFO), a top-level ontology designed to describe scientific domains. One
of BFO s most distinct characteristic is its commitment to Realism, a philosophical view of reality in which its constituents exist independently of our
representations. On the domain-level, reservoir entities are described under
the principles of the GeoCore Ontology, a core ontology for Geology.
To validate the ResRiskOnto we annotate our risk documents repository
with the ontology s entities and relations, developing a model that recognizes
named entities and extracts the relations among them.
Our contribution is an application ontology that allows semantic reasoning over the risk documents. We also expect to provide (i) a basis for data
modelling in the case of reservoir-related risks; and (ii) a standard for future
risk documentation in the reservoir domain.
|
297 |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS / [pt] CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕESIVAN DE JESUS PEREIRA PINTO 16 November 2021 (has links)
[pt] Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda
uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza
de informações a ser explorada por modelos computacionais, e que podem ser
positivos para sociedade. Os modelos de aprendizado de máquina, em especial,
possuem uma crescente necessidade de dados para treinamento, que precisam
ser estruturados e de tamanho considerável. Seu uso na área de processamento
de linguagem natural é pervasivo nas mais diversas tarefas.
Este trabalho realiza o esforço de coleta, construção, análise do maior
corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos
de vetores de palavras, bag-of-words e transformer. O modelo transformer
BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na
classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação
da Área de conhecimento nas categorizações de Teses e Dissertações.
É feita ainda uma análise semântica do corpus acadêmico através da
modelagem de tópicos, e uma visualização inédita das áreas de conhecimento
em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos
modelos treinados, o SucupiraBot. / [en] Academic data (i.e., Thesis, Dissertation) encompasses aspects of a whole society, as well as its scientific knowledge. There is a wealth of information to be explored by computational models, and that can be positive for society.
Machine learning models in particular, have an increasing need for training
data, that are efficient and of considerable size. Its use in the area of natural language processing (NLP) is pervasive in many different tasks.
This work makes the effort of collecting, constructing, analyzing and
training of models for the biggest known academic corpus in the Portuguese
language. Word embeddings, bag of words and transformers models have been
trained. The Bert-Academico has shown the better result, with 77 percent of f1-score in Great area of knowledge and 63 percent in knowledge area classification of Thesis and Dissertation.
A semantic analysis of the academic corpus is made through topic
modelling, and an unprecedented visualization of the knowledge areas is
presented. Lastly, an application that uses the trained models is showcased,
the SucupiraBot.
|
298 |
[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS / [en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENTFREDERICO SHU 06 January 2022 (has links)
[pt] A análise de documentos financeiros não estruturados é uma atividade
essencial para a supervisão do mercado de capitais realizada pela Comissão de
Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço
humano despendido no processo de triagem de documentos são vitais para a CVM
lidar com a escassez de recursos humanos e a expansão do mercado de valores
mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos
algoritmos de aprendizado de máquina e técnicas de processamento de texto, a
partir de sua aplicação em duas tarefas de processamento de linguagem natural –
classificação de documentos e extração de informações – desempenhadas em
ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos
clássicos proporcionaram melhor desempenho que as redes neurais profundas, o
qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de
máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser
aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A
arquitetura BERT foi capaz de extrair informações sobre aumento de capital e
incorporação societária de documentos financeiros. Os resultados satisfatórios
obtidos em ambas as tarefas motivam a implementação futura em regime de
produção dos modelos estudados, sob a forma de um sistema de apoio à decisão.
Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o
escopo deste trabalho com documentos financeiros entregues por companhias
abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa
futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital
markets supervision performed by Comissão de Valores Mobiliários (Brazilian
SEC or CVM). Systems capable of reducing human effort involved in the task of
screening documents and outlining relevant information, for further manual
review, are important tools for CVM to deal with the shortage of human resources
and expansion of the Brazilian securities market. In this regard, this dissertation
presents and discusses the application of several machine learning algorithms and
text processing techniques to perform two natural language processing tasks—
document classification and information extraction—in a real market supervision
environment. In the classification exercise, classic algorithms achieved a better
performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the
current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network
architecture was able to extract information from financial documents on capital
increase and mergers. The successful results obtained in both tasks encourage
future implementation of the studied models in the form of a decision support
system. Another contribution of this work is the CVMCorpus, a corpus built to
produce datasets for the tasks, with financial documents released between 2009
and 2019 by Brazilian companies, which opens possibilities of future linguistic
and finance research.
|
299 |
[en] IMPROVING THE QUALITY OF THE USER EXPERIENCE BY QUERY ANSWER MODIFICATION / [pt] MELHORANDO A QUALIDADE DA EXPERIÊNCIA DO USUÁRIO ATRAVÉS DA MODIFICAÇÃO DA RESPOSTA DA CONSULTAJOAO PEDRO VALLADAO PINHEIRO 30 June 2021 (has links)
[pt] A resposta de uma consulta, submetida a um banco de dados ou base de
conhecimento, geralmente é longa e pode conter dados redundantes. O usuário
é frequentemente forçado a navegar por uma longa resposta, ou refinar e repetir
a consulta até que a resposta atinja um tamanho gerenciável. Sem o tratamento
adequado, consumir a resposta da consulta pode se tornar uma tarefa tediosa.
Este estudo, então, propõe um processo que modifica a apresentação da
resposta da consulta para melhorar a qualidade de experiência do usuário, no
contexto de uma base de conhecimento RDF. O processo reorganiza a resposta
da consulta original aplicando heurísticas para comprimir os resultados. A
consulta SPARQL original é modificada e uma exploração sobre o conjunto
de resultados começa através de uma navegação guiada sobre predicados e
suas facetas. O artigo também inclui experimentos baseados em versões RDF
do MusicBrainz, enriquecido com dados do DBpedia, e IMDb, cada um com
mais de 200 milhões de triplas RDF. Os experimentos utilizam exemplos de
consultas de benchmarks conhecidos. / [en] The answer of a query, submitted to a database or a knowledge base, is often long and may contain redundant data. The user is frequently forced to browse thru a long answer, or to refine and repeat the query until the answer reaches a manageable size. Without proper treatment, consuming the query
answer may indeed become a tedious task. This study then proposes a process that modifies the presentation of a query answer to improve the quality of the user s experience, in the context of an RDF knowledge base. The process reorganizes the original query answer by applying heuristics to summarize the results. The original SPARQL query is modified and an exploration over the result set starts thru a guided navigation over predicates and its facets. The article also includes experiments based on RDF versions of MusicBrainz,
enriched with DBpedia data, and IMDb, each with over 200 million RDF triples. The experiments use sample queries from well-known benchmarks.
|
300 |
[pt] MINERAÇÃO DE INFORMAÇÃO EM LINGUAGEM NATURAL PARA APOIAR A ELICITAÇÃO DE REQUISITOS / [en] MINING INFORMATION IN NATURAL LANGUAGE TO SUPPORT REQUIREMENTS ELICITATIONROXANA LISETTE QUINTANILLA PORTUGAL 02 December 2016 (has links)
[pt] Este trabalho descreve a mineração de informações em linguagem natural a partir do repositório de projetos GitHub. É explicada como o conteúdo de projetos semelhantes dada uma busca por domínio podem ser úteis para o reuso de conhecimento, e assim, ajudar nas tarefas de Elicitação de Requisitos. Técnicas de mineração de textos, regularidades independentes do domínio, e os metadados de GitHub são os métodos utilizados para selecionar projetos relevantes e as informações dentro deles. Uma abordagem para atingir nossa meta utilizando pesquisa exploratória é explicada, bem como descrevemos os resultados alcançados. / [en] This work describes the mining of information in natural language from the GitHub repository. It is explained how the content of similar projects given a search domain can be useful for the reuse of knowledge, and thus help in the Requirements Elicitation tasks. Techniques of text mining, regularities independent from domain, and GitHub metadata are the methods used to select relevant projects and the information within them. One approach to achieve our goal is explained with an exploratory research and the results achieved.
|
Page generated in 0.0735 seconds