1 |
[en] CRAWLING THE LINKED DATA CLOUD / [pt] COLETA DE DADOS INTERLIGADOSRAPHAEL DO VALE AMARAL GOMES 26 April 2016 (has links)
[pt] As melhores práticas de dados interligados recomendam que se utilizem
ontologias bem conhecidas de modo a facilitar a ligação entre um novo conjunto
de triplas RDF (ou, abreviadamente, tripleset) e os já existentes. Entretanto,
ambas as tarefas apresentam dificuldades. Esta tese apresenta frameworks para
criação de buscadores de metadados que ajudam na seleção de ontologias e na
escolha de triplesets que podem ser usados, respectivamente, nos processos de
publicação e interligação de triplesets. Resumidamente, o administrador de um
novo tripleset deve inicialmente definir um conjunto de termos que descrevam o
domínio de interesse do tripleset. Um buscador de metadados, construído segundo
os frameworks apresentados na tese, irá localizar, nos vocabulários dos triplesets
existentes, aqueles que possuem relação direta ou indireta com os termos
definidos pelo administrador. O buscador retornará então uma lista de ontologias
que podem ser utilizadas para o domínio, bem como uma lista dos triplesets
relacionados. O buscador tem então como foco os metadados dos triplesets,
incluindo informações de subclasse, e a sua saída retorna somente metadados,
justificando assim chama-lo de buscador focado em metadados . / [en] The Linked Data best practices recommend to publish a new tripleset using
well-known ontologies and to interlink the new tripleset with other triplesets.
However, both are difficult tasks. This thesis describes frameworks for metadata
crawlers that help selecting the ontologies and triplesets to be used, respectively,
in the publication and the interlinking processes. Briefly, the publisher of a new
tripleset first selects a set of terms that describe the application domain of interest.
Then, he submits the set of terms to a metadata crawler, constructed using one of
the frameworks described in the thesis, that searches for triplesets which
vocabularies include terms direct or transitively related to those in the initial set of
terms. The crawler returns a list of ontologies that are used for publishing the new
tripleset, as well as a list of triplesets with which the new tripleset can be
interlinked. Hence, the crawler focuses on specific metadata properties, including
subclass of, and returns only metadata, which justifies the classification metadata
focused crawler.
|
2 |
[en] A QUESTION-ORIENTED VISUALIZATION RECOMMENDATION SYSTEM FOR DATA EXPLORATION / [pt] UM SISTEMA DE RECOMENDAÇÃO DE VISUALIZAÇÕES ORIENTADO A PERGUNTAS PARA EXPLORAÇÃO DE DADOSRAUL DE ARAUJO LIMA 15 September 2020 (has links)
[pt] O crescimento cada vez mais acelerado da produção de dados e a
decorrente necessidade de explorá-los a fim de se obter respostas para as
mais variadas perguntas têm promovido o desenvolvimento de ferramentas
que visam a facilitar a manipulação e a construção de gráficos. Essas visualizações
devem permitir explorar os dados de maneira efetiva, comunicando
as informações com precisão e possibilitando um maior ganho de conhecimento.
No entanto, construir boas visualizações de dados não é uma tarefa
trivial, uma vez que pode requerer um grande número de decisões que, em
muitos casos, exigem certa experiência por parte de seu projetista. Visando a
facilitar o processo de exploração de conjuntos de dados através da construção
de visualizações, nós desenvolvemos a ferramenta VisMaker, que utiliza
um conjunto de regras para construir as visualizações consideradas mais
apropriadas para um determinado conjunto de variáveis. Além de permitir
que o usuário defina visualizações através do mapeamento entre variáveis
e dimensões visuais, o VisMaker apresenta recomendações de visualizações
organizadas através de perguntas construídas com base nas variáveis selecionadas
pelo usuário, objetivando facilitar a compreensão das visualizações
recomendadas e auxiliando o processo exploratório. Para a avaliação do Vis-
Maker, nós realizamos dois estudos comparando-o com o Voyager 2, uma
ferramenta de propósito similar existente na literatura. O primeiro estudo
teve foco na resolução de perguntas enquanto que o segundo esteve voltado
para a exploração de dados em si. Nós analisamos alguns aspectos da utilização
das ferramentas e coletamos os comentários dos participantes, através
dos quais pudemos identificar vantagens e desvantagens da abordagem de
recomendação que propusemos, levantando possíveis melhorias para esse
tipo de ferramenta. / [en] The increasingly rapid growth of data production and the consequent
need to explore them to obtain answers to a wide range of questions
have promoted the development of tools to facilitate the manipulation and
construction of data visualizations. These tools should allow users to effectively
explore data, communicate information accurately, and enable more
significant knowledge gain through data. However, building useful data visualizations
is not a trivial task: it may involve a large number of decisions
that often require experience from their designer. To facilitate the process of
exploring datasets through the construction of visualizations, we developed
VisMaker, a software tool which uses a set of rules to determine appropriate
visualizations for a certain selection of variables. In addition to allowing the
user to define visualizations by mapping variables onto visualization channels,
VisMaker presents visualization recommendations organized through
questions constructed based on the variables selected by the user, trying
to facilitate the understanding of the visualization recommendations and
assisting the exploratory process. To evaluate VisMaker, we carried out two
studies comparing it with another tool that exists in the literature, one
aimed at solving questions and the other at data exploration. We analyzed
some aspects of the use of the tools. We collected feedback from the
participants, through which we were able to identify the advantages and disadvantages
of the recommendation approach we proposed, raising possible
improvements for this type of tool.
|
3 |
[en] CLUSTERING AND DATASET INTERLINKING RECOMMENDATION IN THE LINKED OPEN DATA CLOUD / [pt] CLUSTERIZAÇÃO E RECOMENDAÇÃO DE INTERLIGAÇÃO DE CONJUNTO DE DADOS NA NUVEM DE DADOS ABERTOS CONECTADOSALEXANDER ARTURO MERA CARABALLO 24 July 2017 (has links)
[pt] O volume de dados RDF publicados na Web aumentou consideravelmente, o que ressaltou a importância de seguir os princípios de dados interligados para promover a interoperabilidade. Um dos princípios afirma que todo novo conjunto de dados deve ser interligado com outros conjuntos de dados publicados na Web. Esta tese contribui para abordar este princípio de duas maneiras. Em primeiro lugar, utiliza algoritmos de detecção de comunidades e técnicas de criação de perfis para a criação e análise automática de um diagrama da nuvem da LOD (Linked Open Data), o qual facilita a localização de conjuntos de dados na nuvem da LOD. Em segundo lugar, descreve três abordagens, apoiadas por ferramentas totalmente implementadas, para recomendar conjuntos de dados a serem interligados com um novo conjunto de dados, um problema conhecido como problema de recomendação de interligação de conjunto de dados. A primeira abordagem utiliza medidas de previsão de links para produzir recomendações de interconexão. A segunda abordagem emprega algoritmos de aprendizagem supervisionado, juntamente com medidas de previsão de links. A terceira abordagem usa algoritmos de agrupamento e técnicas de criação de perfil para
produzir recomendações de interconexão. Essas abordagens são implementadas, respectivamente, pelas ferramentas TRT, TRTML e DRX. Por fim, a tese avalia extensivamente essas ferramentas, usando conjuntos de dados do mundo real. Os resultados mostram que estas ferramentas facilitam o processo de criação de links entre diferentes conjuntos de dados. / [en] The volume of RDF data published on the Web increased considerably,
which stressed the importance of following the Linked Data principles to foster
interoperability. One of the principles requires that a new dataset should be interlinked with other datasets published on the Web. This thesis contributes to addressing this principle in two ways. First, it uses community detection algorithms and profiling techniques for the automatic creation and analysis of a Linked Open Data (LOD) diagram, which facilitates locating datasets in the LOD cloud. Second, it describes three approaches, backed up by fully implemented tools, to recommend datasets to be interlinked with a new dataset, a problem known as the dataset interlinking recommendation problem. The first approach uses link prediction measures to provide a list of datasets recommendations for interlinking. The second approach employs supervised learning algorithms, jointly with link prediction measures. The third approach uses clustering algorithms and profiling techniques to produce dataset interlinking recommendations. These approaches are backed up, respectively, by the TRT, TRTML and DRX tools. Finally, the thesis extensively evaluates these tools, using real-world datasets, reporting results that show that they facilitate the process of creating links between disparate datasets.
|
4 |
[pt] LOCALIZAÇÃO ESPAÇO-TEMPORAL DE ATORES EM VÍDEOS/VÍDEOS 360 E SUAS APLICAÇÕES / [en] SPATIO-TEMPORAL LOCALIZATION OF ACTORS IN VIDEO/360-VIDEO AND ITS APPLICATIONS13 September 2021 (has links)
[pt] A popularidade de plataformas para o armazenamento e compartilhamento
de vídeo tem criado um volume massivo de horas de vídeo. Dado
um conjunto de atores presentes em um vídeo, a geração de metadados com
a determinação temporal dos intervalos em que cada um desses atores está
presente, bem como a localização no espaço 2D dos quadros em cada um
desses intervalos pode facilitar a recuperação de vídeo e a recomendação.
Neste trabalho, nós investigamos a Clusterização Facial em Vídeo para a
localização espaço-temporal de atores. Primeiro descrevemos nosso método
de Clusterização Facial em Vídeo em que utilizamos métodos de detecção
facial, geração de embeddings e clusterização para agrupar faces dos atores
em diferentes quadros e fornecer a localização espaço-temporal destes atores.
Então, nós exploramos, propomos, e investigamos aplicações inovadoras
dessa localização espaço-temporal em três diferentes tarefas: (i) Reconhecimento
Facial em Vídeo, (ii) Recomendação de Vídeos Educacionais e (iii)
Posicionamento de Legendas em Vídeos 360 graus. Para a tarefa (i), propomos
um método baseado na similaridade de clústeres que é facilmente escalável e
obteve um recall de 99.435 por cento e uma precisão de 99.131 por cento em um conjunto de
vídeos. Para a tarefa (ii), propomos um método não supervisionado baseado
na presença de professores em diferentes vídeos. Tal método não requer nenhuma
informação adicional sobre os vídeo e obteve um valor mAP aproximadamente 99 por cento.
Para a tarefa (iii), propomos o posicionamento dinâmico de legendas baseado
na localização de atores em vídeo 360 graus. / [en] The popularity of platforms for the storage and transmission of video content
has created a substantial volume of video data. Given a set of actors
present in a video, generating metadata with the temporal determination
of the interval in which each actor is present, and their spatial 2D localization
in each frame in these intervals can facilitate video retrieval and
recommendation. In this work, we investigate Video Face Clustering for
this spatio-temporal localization of actors in videos. We first describe our
method for Video Face Clustering in which we take advantage of face detection,
embeddings, and clustering methods to group similar faces of actors
in different frames and provide the spatio-temporal localization of them.
Then, we explore, propose, and investigate innovative applications of this spatio-temporal localization in three different tasks: (i) Video Face Recognition, (ii) Educational Video Recommendation and (iii) Subtitles Positioning in 360-video. For (i), we propose a cluster-matching-based method that is easily scalable and achieved a recall of 99.435 percent and precision of 99.131 percent in a small video set. For (ii), we propose an unsupervised method based on them presence of lecturers in different videos that does not require any additional information from the videos and achieved a mAP approximately 99 percent. For (iii), we propose a dynamic placement of subtitles based on the automatic localization of actors in 360-video.
|
5 |
[en] A CLOUD BASED REAL-TIME COLLABORATIVE FILTERING ARCHITECTURE FOR SHORT-LIVED VIDEO RECOMMENDATIONS / [pt] UMA ARQUITETURA DE FILTRAGEM COLABORATIVA EM TEMPO REAL BASEADA EM NUVEM PARA RECOMENDAÇÃO DE VÍDEOS EFÊMEROS16 January 2017 (has links)
[pt] Esta tese propõe que a combinação de técnicas de filtragem colaborativa, em particular para recomendações item-item, com novas tecnologias de computação em nuvem, pode melhorar drasticamente a eficiência dos sistemas de recomendação, particularmente em situações em que o número de itens e usuários supera milhões de objetos. Nela apresentamos uma arquitetura de recomendação item-item em tempo real, que racionaliza o uso dos recursos computacionais através da computação sob demanda. A arquitetura proposta oferece uma solução para o cálculo de similaridade entre itens em tempo real, sem ter que recorrer à simplificação do modelo de recomendação ou o uso de amostragem de dados de entrada. Esta tese também apresenta um novo modelo de feedback implícito para vídeos de curta duração, que se adapta ao comportamento dos usuários, e descreve como essa arquitetura foi usada na implementação de um sistema de recomendação de vídeo em uso pelo maior grupo de mídia da América Latina, apresentando resultados de um estudo de caso real para mostrar que é possível reduzir drasticamente o tempo de cálculo das recomendações (e os custos financeiros globais) usando o provisionamento dinâmico de recursos na nuvem. Ela discute ainda a implementação em detalhes, em particular o projeto da arquitetura baseada em nuvem. Finalmente, ela também apresenta oportunidades de pesquisa em potencial que surgem a partir desta mudança de paradigma. / [en] This dissertation argues that the combination of collaborative filtering techniques, particularly for item-item recommendations, with emergent cloud computing technology can drastically improve algorithm efficiency, particularly in situations where the number of items and users scales up to several million objects. It introduces a real-time item-item recommendation architecture, which rationalizes the use of resources by exploring on-demand computing. The proposed architecture provides a real-time solution for computing online item similarity, without having to resort to either model simplification or the use of input data sampling. This dissertation also presents a new adaptive model for implicit user feedback for short videos, and describes how this architecture was used in a large scale implementation of a video recommendation system in use by the largest media group in Latin America, presenting results from a real life case study to show that it is possible to greatly reduce recommendation times (and overall financial costs) by using dynamic resource provisioning in the Cloud. It discusses the implementation in detail, in particular the design of cloud based features. Finally, it also presents potential research opportunities that arise from this paradigm shift.
|
6 |
[en] HYBRID RECOMMENDATION SYSTEM BASED ON COLLABORATIVE FILTERING AND FUZZY NUMBERS / [pt] SISTEMA HÍBRIDO DE RECOMENDAÇÃO DE PRODUTOS COM USO DE FILTROS COLABORATIVOS E NÚMEROS FUZZYMIGUEL ANGELO GASPAR PINTO 17 November 2021 (has links)
[pt] O varejo virtual tem sido um importante setor para dinamização da economia, cujo valor das transações em 2010 ficou em torno de R$10,6 bilhões. As lojas nesse segmento não possuem restrição de clientes ou de estoque, porém possuem consumidores pouco pacientes com várias outras lojas a sua disposição,
sendo necessário que o item de seu interesse seja encontrado visível rapidamente. Buscando resolver este problema, foram desenvolvidos algoritmos de recomendação capazes de gerar listagens de produtos que fossem direcionados ao usuário. Os algoritmos de filtragem colaborativa são amplamente usados no varejo
virtual, porém eles apresentam problemas devido a escala e esparsidade do banco de dados. Algoritmos baseados em conteúdo podem apresentar menor sensibilidade ao tamanho da base de dados, porém sua efetividade depende da existência de dados de usuários que comumente não estão presentes. Nesta tese,
propõe-se um algoritmo híbrido que utiliza tanto a filtragem colaborativa quanto um algoritmo baseado em conteúdo para permitir boas recomendações em bases de dados esparsas e de grande porte. O algoritmo baseado em conteúdo faz uso de números fuzzy e técnicas de marketing para guiar sua recomendação apenas com base nos itens comprados pelo usuário, sem necessidade de quaisquer outros dados pessoais do usuário. O algoritmo proposto foi testado em bases de dados sintética e real, sendo comparado com um filtro colaborativo padrão para avaliar seu desempenho.Os resultados obtidos demonstram que o algoritmo híbrido proposto apresentou um desempenho superior ao do filtro colaborativo padrão em ambas as base de dados, apresentando invariância à esparsidade da base de dados. / [en] The virtual retail has been an important sector at Brazilian economy, being a USD 6.23 billion market in 2010, having 30 percent expansion on that period. The companies in such segment don t have client or product restrictions due to physical limitations. On the other hand, the consumers of this kind of retail have
several options to buy and little patience to keep searching on the same website. The companies need to define which item will be shown to the consumer before he leaves for the next competitor. Several recommendation algorithms were developed to generate products list directed to the consumer. Nowadays the algorithms for collaborative filtering are well spread in virtual retail, but they have problems caused exactly by the huge quantity of data that exist on virtual retail. Content based algorithms are less sensitive to the size of the database, but their effectiveness depends on the existence of user data, which usually are not available. This thesis proposes a hybrid algorithm which uses both collaborative filtering and a content based algorithm to allow recommendations in huge sparse databases. The content base algorithm uses fuzzy numbers and marketing techniques to guide the recommendation using only the items brought by the user, without the need for further personal data from the consumer. The proposed algorithm was tested in both artificial and real databases, compared with a benchmark collaborative filter. The collected results show that the proposed hybrid algorithm provides superior performance than the benchmark collaborative
filter in both databases, generating good results and presenting sparsity invariance. The proposed algorithm also solves problems of initialization, neighborhood transitivity and in cases when new users or items are inserted on database.
|
7 |
[en] ANALYZING, COMPARING AND RECOMMENDING CONFERENCES / [pt] ANÁLISE, COMPARAÇÃO E RECOMENDAÇÃO DE CONFERÊNCIASGRETTEL MONTEAGUDO GARCÍA 06 September 2016 (has links)
[pt] Esta dissertação discute técnicas para automaticamente analisar, comparar e recomendar conferências, usando dados bibliográficos. Apresenta uma implementação das técnicas propostas e descreve experimentos com os dados extraídos de uma versão triplificada do repositório DBLP. A análise de conferências baseia-se em medidas estatísticas e medidas para a análises de redes sociais aplicadas à rede de coautoria das conferências. As técnicas para comparar conferências exploram um conjunto de medidas de similaridades como, por exemplo, o coeficiente de similaridade de Jaccard, a similaridade por correlação de Pearson e o Cosseno, além de uma nova medida de similaridade baseada em comunidades de coautores. As medidas para calcular similaridade entre conferências são usadas em um sistema de recomendação baseado na estratégia de filtragem colaborativa. Finalmente, a dissertação introduz duas técnicas para recomendar conferências a um determinado autor, usando uma medida de relação entre autores. A primeira alternativa usa o índice de Katz, que pode ser computacionalmente lento para grandes grafos, enquanto a segunda adota uma aproximação do índice de Katz, que mostrou ser computacionalmente mais eficiente. Os experimentos sugerem que as melhores técnicas são: a técnica de comparação de conferências que utiliza a nova medida de similaridade baseada em comunidades de coautores; e a técnica para recomendação de conferências que explora os autores mais relacionados na rede de coautores. / [en] This dissertation discusses techniques to automatically analyze, compare
and recommend conferences, using bibliographic data, outlines an implementation
of the proposed techniques and describes experiments with data extracted from a
triplified version of the DBLP repository. Conference analysis applies statistical
and social network analysis measures to the co-authorship network. The
techniques for comparing conferences explore familiar similarity measures, such
as the Jaccard similarity coefficient, the Pearson correlation similarity and the
cosine similarity, and a new measure, the co-authorship network communities
similarity index. These similarity measures are used to create a conference
recommendation system based on the Collaborative Filtering strategy. Finally, the
work introduces two techniques for recommending conferences to a given
prospective author based on the strategy of finding the most related authors in the
co-authorship network. The first alternative uses the Katz index, which can be
quite costly for large graphs, while the second one adopts an approximation of the
Katz index, which proved to be much faster to compute. The experiments suggest
that the best performing techniques are: the technique for comparing conferences
that uses the new similarity measure based on co-authorship communities; and the
conference recommendation technique that explores the most related authors in
the co-authorship network.
|
8 |
[en] GENERALIZATION OF THE DEEP LEARNING MODEL FOR NATURAL GAS INDICATION IN 2D SEISMIC IMAGE BASED ON THE TRAINING DATASET AND THE OPERATIONAL HYPER PARAMETERS RECOMMENDATION / [pt] GENERALIZAÇÃO DO MODELO DE APRENDIZADO PROFUNDO PARA INDICAÇÃO DE GÁS NATURAL EM DADOS SÍSMICOS 2D COM BASE NO CONJUNTO DE DADOS DE TREINAMENTO E RECOMENDAÇÃO DE HIPERPARÂMETROS OPERACIONAISLUIS FERNANDO MARIN SEPULVEDA 21 March 2024 (has links)
[pt] A interpretação de imagens sísmicas é uma tarefa essencial em diversas
áreas das geociências, sendo um método amplamente utilizado na exploração de
hidrocarbonetos. Porém, sua interpretação exige um investimento significativo
de recursos, e nem sempre é possível obter um resultado satisfatório.
A literatura mostra um número crescente de métodos de Deep Learning,
DL, para detecção de horizontes, falhas e potenciais reservatórios de hidrocarbonetos, porém, os modelos para detecção de reservatórios de gás apresentam dificuldades de desempenho de generalização, ou seja, o desempenho
fica comprometido quando utilizados em imagens sísmicas de novas explorações
campanhas. Este problema é especialmente verdadeiro para levantamentos terrestres 2D, onde o processo de aquisição varia e as imagens apresentam muito
ruído.
Este trabalho apresenta três métodos para melhorar o desempenho de
generalização de modelos DL de indicação de gás natural em imagens sísmicas
2D, para esta tarefa são utilizadas abordagens provenientes de Machine Learning, ML e DL. A pesquisa concentra-se na análise de dados para reconhecer
padrões nas imagens sísmicas para permitir a seleção de conjuntos de treinamento para o modelo de inferência de gás com base em padrões nas imagens
alvo. Esta abordagem permite uma melhor generalização do desempenho sem
alterar a arquitetura do modelo DL de inferência de gás ou transformar os
traços sísmicos originais.
Os experimentos foram realizados utilizando o banco de dados de diferentes campos de exploração localizados na bacia do Parnaíba, no Nordeste do
Brasil. Os resultados mostram um aumento de até 39 por cento na indicação correta
do gás natural de acordo com a métrica de recall. Esta melhoria varia em cada
campo e depende do método proposto utilizado e da existência de padrões
representativos dentro do conjunto de treinamento de imagens sísmicas.
Estes resultados concluem com uma melhoria no desempenho de generalização do modelo de inferência de gases DL que varia até 21 por cento de acordo
com a pontuação F1 e até 15 por cento de acordo com a métrica IoU. Estes resultados demonstram que é possível encontrar padrões dentro das imagens sísmicas
usando uma abordagem não supervisionada, e estas podem ser usadas para recomendar o conjunto de treinamento DL de acordo com o padrão na imagem
sísmica alvo; Além disso, demonstra que o conjunto de treinamento afeta diretamente o desempenho de generalização do modelo DL para imagens sísmicas. / [en] Interpreting seismic images is an essential task in diverse fields of geosciences, and it s a widely used method in hydrocarbon exploration. However,
its interpretation requires a significant investment of resources, and obtaining
a satisfactory result is not always possible.
The literature shows an increasing number of Deep Learning, DL, methods to detect horizons, faults, and potential hydrocarbon reservoirs, nevertheless, the models to detect gas reservoirs present generalization performance
difficulties, i.e., performance is compromised when used in seismic images from
new exploration campaigns. This problem is especially true for 2D land surveys
where the acquisition process varies, and the images are very noisy.
This work presents three methods to improve the generalization performance of DL models of natural gas indication in 2D seismic images, for this
task, approaches that come from Machine Learning, ML, and DL are used.
The research focuses on data analysis to recognize patterns within the seismic
images to enable the selection of training sets for the gas inference model based
on patterns in the target images. This approach allows a better generalization
of performance without altering the architecture of the gas inference DL model
or transforming the original seismic traces.
The experiments were carried out using the database of different exploitation fields located in the Parnaíba basin, in northeastern Brazil. The results
show an increase of up to 39 percent in the correct indication of natural gas according
to the recall metric. This improvement varies in each field and depends on the
proposed method used and the existence of representative patterns within the
training set of seismic images.
These results conclude with an improvement in the generalization performance of the DL gas inference model that varies up to 21 percent according to the F1
score and up to 15 percent according to the IoU metric. These results demonstrate
that it is possible to find patterns within the seismic images using an unsupervised approach, and these can be used to recommend the DL training set
according to the pattern in the target seismic image; Furthermore, it demonstrates that the training set directly affects the generalization performance of
the DL model for seismic images.
|
Page generated in 0.0451 seconds