1 |
[en] A MIDDLEWARE AND AN APPLICATION FOR COLLABORATIVE PRESENTATION SHARING ON HANDHELDS / [pt] UM MIDDLEWARE E APLICATIVO PARA APRESENTAÇÃO COLABORATIVA PARA DISPOSITIVOS MÓVEISMARCELO ANDRADE DA GAMA MALCHER 21 February 2008 (has links)
[pt] A atual evolução dos dispositivos computacionais móveis e
a crescente
ubiqüidade de redes sem fio possibilitam o desenvolvimento
de serviços e
aplicativos para colaboração entre usuários móveis nos
mais variados ambientes
como em domicílios, lugares públicos, universidades,
empresas, entre outros. Em
uma sala de aula, acredita-se que o uso de dispositivos
móveis (com capacidade
de comunicação sem fio) torna o aprendizado mais
interativo e estimulante. Este
trabalho descreve um aplicativo distribuído, denominado
iPH (Interactive
Presenter for Handhelds), que possibilita o
compartilhamento e a co-edição de
transparências entre o instrutor e os aprendizes em sala
de aula, e os componentes
de middleware utilizados no desenvolvimento do mesmo. O
iPH pode ser
executado em diferentes tipos de dispositivos como tablet
pcs, notebooks e
handhelds (palmtops ou smartphones), e acessa informações
de contexto
computacional do dispositivo para efetuar auto-adaptações
na sua funcionalidade,
para entre outros, melhorar a interação com o usuário. / [en] The ongoing improvement of portable devices and the
increasing ubiquity
of wireless networks enable the development of services
and applications for anyplace-
any-time collaboration among mobile users in many
different environments,
such as at home, in public areas, in universities, in
companies, among others. It is
expected that the use of portable, wireless-enabled
devices in classrooms
improves the interaction and engagement in the learning
process. This work
describes a distributed application named iPH (Interactive
Presenter for
Handhelds) that supports the sharing and co-edition of
presentations among an
instructor and students of a classroom, as well as the
middleware components
used for the development of iPH. This system can be
executed on a wide range of
devices, such as tablets, notebooks and handhelds
(palmtops or smartphones), and
uses the device`s context information to adapt itself to
improve, for example, the
interaction with the user.
|
2 |
[pt] ESTRATÉGIAS PARA OTIMIZAR PROCESSOS DE ANOTAÇÃO E GERAÇÃO DE DATASETS DE SEGMENTAÇÃO SEMÂNTICA EM IMAGENS DE MAMOGRAFIA / [en] STRATEGIES TO OPTIMIZE ANNOTATION PROCESSES AND GENERATION OF SEMANTIC SEGMENTATION DATASETS IN MAMMOGRAPHY IMAGESBRUNO YUSUKE KITABAYASHI 17 November 2022 (has links)
[pt] Com o avanço recente do uso de aprendizagem profunda supervisionada
(supervised deep learning) em aplicações no ramo da visão computacional, a
indústria e a comunidade acadêmica vêm evidenciando que uma das principais
dificuldades para o sucesso destas aplicações é a falta de datasets com a
suficiente quantidade de dados anotados. Nesse sentido aponta-se a necessidade
de alavancar grandes quantidades de dados rotulados para que estes modelos
inteligentes possam solucionar problemas pertinentes ao seu contexto para
atingir os resultados desejados. O uso de técnicas para gerar dados anotados
de maneira mais eficiente está sendo cada vez mais explorado, juntamente com
técnicas para o apoio à geração dos datasets que servem de insumos para o
treinamento dos modelos de inteligência artificial. Este trabalho tem como
propósito propor estratégias para otimizar processos de anotação e geração
de datasets de segmentação semântica. Dentre as abordagens utilizadas neste
trabalho destacamos o Interactive Segmentation e Active Learning. A primeira,
tenta melhorar o processo de anotação de dados, tornando-o mais eficiente e
eficaz do ponto de vista do anotador ou especialista responsável pela rotulagem
dos dados com uso de um modelo de segmentação semântica que tenta imitar
as anotações feitas pelo anotador. A segunda, consiste em uma abordagem que
permite consolidar um modelo deep learning utilizando um critério inteligente,
visando a seleção de dados não anotados mais informativos para o treinamento
do modelo a partir de uma função de aquisição que se baseia na estimação de
incerteza da rede para realizar a filtragem desses dados. Para aplicar e validar
os resultados de ambas as técnicas, o trabalho os incorpora em um caso de
uso relacionado em imagens de mamografia para segmentação de estruturas
anatômicas. / [en] With the recent advancement of the use of supervised deep learning in
applications in the field of computer vision, the industry and the academic
community have been showing that one of the main difficulties for the success
of these applications is the lack of datasets with a sufficient amount of
annotated data. In this sense, there is a need to leverage large amounts of
labeled data so that these intelligent models can solve problems relevant to
their context to achieve the desired results. The use of techniques to generate
annotated data more efficiently is being increasingly explored, together with
techniques to support the generation of datasets that serve as inputs for the
training of artificial intelligence models. This work aims to propose strategies
to optimize annotation processes and generation of semantic segmentation
datasets. Among the approaches used in this work, we highlight Interactive
Segmentation and Active Learning. The first one tries to improve the data
annotation process, making it more efficient and effective from the point of
view of the annotator or specialist responsible for labeling the data using a
semantic segmentation model that tries to imitate the annotations made by
the annotator. The second consists of an approach that allows consolidating
a deep learning model using an intelligent criterion, aiming at the selection of
more informative unannotated data for training the model from an acquisition
function that is based on the uncertainty estimation of the network to filter
these data. To apply and validate the results of both techniques, the work
incorporates them in a use case in mammography images for segmentation of
anatomical structures.
|
3 |
[en] HEURISTICS FOR DATA POINT SELECTION FOR LABELING IN SEMI-SUPERVISED AND ACTIVE LEARNING CONTEXTS / [pt] HEURÍSTICAS PARA SELEÇÃO DE PONTOS PARA SEREM ANOTADOS NO CONTEXTO DEAPRENDIZADO SEMI- SUPERVISIONADO E ATIVOSONIA FIOL GONZALEZ 16 September 2021 (has links)
[pt] O aprendizado supervisionado é, hoje, o ramo do aprendizado de máquina
central para a maioria das inovações nos negócios. A abordagem depende de
ter grandes quantidades de dados rotulados, suficiente para ajustar funções com a precisão necessária. No entanto, pode ser caro obter dados rotulados ou criar os rótulos através de um processo de anotação. O aprendizado semisupervisionado (SSL) é usado para rotular com precisão os dados a partir de
pequenas quantidades de dados rotulados utilizando técnicas de aprendizado
não supervisionado. Uma técnica de rotulagem é a propagação de rótulos.
Neste trabalho, usamos especificamente o algoritmo Consensus rate-based label
propagation (CRLP). Este algoritmo depende do uma função de consenso para
a propagação. Uma possível função de consenso é a matriz de co-associação
que estima a probabilidade dos pontos i e j pertencem ao mesmo grupo. Neste trabalho, observamos que a matriz de co-associação contém informações
valiosas para tratar esse tipo de problema. Quando nenhum dado está rotulado, é comum escolher aleatoriamente, com probabilidade uniforme, os dados a serem rotulados manualmente, a partir dos quais a propagação procede. Este
trabalho aborda o problema de seleção de um conjunto de tamanho fixo de
dados para serem rotulados manualmente que propiciem uma melhor precisão
no algoritmo de propagação de rótulos. Três técnicas de seleção, baseadas
em princípios de amostragem estocástica, são propostas: Stratified Sampling
(SS), Probability (P), and Stratified Sampling - Probability (SSP). Eles são
todos baseados nas informações embutidas na matriz de co-associação. Os
experimentos foram realizados em 15 conjuntos de benchmarks e mostraram
resultados muito interessantes. Não só, porque eles fornecem uma seleção
mais equilibrada quando comparados a uma seleção aleatória, mas também
melhoram os resultados de precisão na propagação de rótulos. Em outro
contexto, essas estratégias também foram testadas dentro de um processo de
aprendizagem ativa, obtendo também bons resultados. / [en] Supervised learning is, today, the branch of Machine Learning central
to most business disruption. The approach relies on having amounts of labeled
data large enough to learn functions with the required approximation.
However, labeled data may be expensive, to obtain or to construct through
a labeling process. Semi-supervised learning (SSL) strives to label accurately data from small amounts of labeled data and the use of unsupervised learning techniques. One labeling technique is label propagation. We use specifically the Consensus rate-based label propagation (CRLP) in this work. A consensus function is central to the propagation. A possible consensus function is a coassociation
matrix that estimates the probability of data points i and j belong to the same group. In this work, we observe that the co-association matrix has valuable information embedded in it. When no data is labeled, it is common to choose with a uniform probability randomly, the data to manually label, from which the propagation proceeds. This work addresses the problem of selecting
a fixed-size set of data points to label (manually), to improve the label propagation algorithm s accuracy. Three selection techniques, based on stochastic sampling principles, are proposed: Stratified Sampling (SP), Probability (P), and Stratified Sampling - Probability (SSP). They are all based on the information embedded in the co-association matrix. Experiments were carried out on 15 benchmark sets and showed exciting results. Not only because they provide a more balanced selection when compared to a uniform random selection, but also improved the accuracy results of a label propagation method. These strategies were also tested inside an active learning process in a different
context, also achieving good results.
|
4 |
[en] GENERATION AND DETECTION OF OBJECTS IN DOCUMENTS BY DEEP LEARNING NEURAL NETWORK MODELS (DEEPDOCGEN) / [pt] GERAÇÃO E DETECÇÃO DE OBJETOS EM DOCUMENTOS POR MODELOS DE REDES NEURAIS DE APRENDIZAGEM PROFUNDA (DEEPDOCGEN)LOICK GEOFFREY HODONOU 06 February 2025 (has links)
[pt] A eficácia dos sistemas de conversação homem-máquina, como chatbots e
assistentes virtuais, está diretamente relacionada à quantidade e qualidade do
conhecimento disponível para eles. Na era digital, a diversidade e a qualidade
dos dados aumentaram significativamente, estando disponíveis em diversos
formatos. Entre esses, o PDF (Portable Document Format) se destaca como um
dos mais conhecidos e amplamente utilizados, adaptando-se a variados setores,
como empresarial, educacional e de pesquisa. Esses arquivos contêm uma
quantidade considerável de dados estruturados, como textos, títulos, listas,
tabelas, imagens, etc.
O conteúdo dos arquivos PDF pode ser extraído utilizando ferramentas
dedicadas, como o OCR (Reconhecimento Ótico de Caracteres), o PdfMiner,
Tabula e outras, que provaram ser adequadas para esta tarefa. No entanto,
estas ferramentas podem deparar-se com dificuldades quando lidam com
a apresentação complexa e variada dos documentos PDF. A exatidão da
extração pode ser comprometida pela diversidade de esquemas, formatos
não normalizados e elementos gráficos incorporados nos documentos, o que
frequentemente leva a um pós-processamento manual.
A visão computacional e, mais especificamente, a detecção de objetos, é
um ramo do aprendizado de máquina que visa localizar e classificar instâncias
em imagens utilizando modelos de detecção dedicados à tarefa, e está provando
ser uma abordagem viável para acelerar o trabalho realizado por algoritmos
como OCR, PdfMiner, Tabula, além de melhorar sua precisão.
Os modelos de detecção de objetos, por serem baseados em aprendizagem
profunda, exigem não apenas uma quantidade substancial de dados para
treinamento, mas, acima de tudo, anotações de alta qualidade pois elas têm um
impacto direto na obtenção de altos níveis de precisão e robustez. A diversidade
de layouts e elementos gráficos em documentos PDF acrescenta uma camada
adicional de complexidade, exigindo dados anotados de forma representativa
para que os modelos possam aprender a lidar com todas as variações possíveis.
Considerando o aspecto volumoso dos dados necessários para o treinamento dos modelos, percebemos rapidamente que o processo de anotação dos
dados se torna uma tarefa tediosa e demorada que requer intervenção humana
para identificar e etiquetar manualmente cada elemento relevante. Essa tarefa
não é apenas demorada, mas também sujeita a erros humanos, o que muitas
vezes exige verificações e correções adicionais.
A fim de encontrar um meio-termo entre a quantidade de dados, a
minimização do tempo de anotação e anotações de alta qualidade, neste
trabalho propusemos um pipeline que, a partir de um número limitado de
documentos PDF anotados com as categorias texto, título, lista, tabela e
imagem recebidas como entrada, é capaz de criar novas layouts de documentos
semelhantes com base no número desejado pelo usuário. Este pipeline vai mais
longe em preenchendo com o conteúdo as novas layouts criadas, a fim de
fornecer imagens de documentos sintéticos e suas respectivas anotações. Com
sua estrutura simples, intuitiva e escalável, este pipeline pode contribuir para
o active learning, permitindo assim aos modelos de detecção serem treinados
continuamente, os tornando mais eficazes e robustos diante de documentos
reais.
Em nossas experiências, ao avaliar e comparar três modelos de detecção,
observamos que o RT-DETR (Real-Time DEtection TRansformer) obteve os
melhores resultados, atingindo uma precisão média (mean Average Precision,
mAP) de 96,30 por cento, superando os resultados do Mask R-CNN (Region-based
Convolutional Neural Networks) e Mask DINO (Mask DETR with Improved
Denoising Anchor Boxes). A superioridade do RT-DETR indica seu potencial
para se tornar uma solução de referência na detecção de características em
documentos PDF. Esses resultados promissores abrem caminho para aplicações
mais eficientes e confiáveis no processamento automático de documentos. / [en] The effectiveness of human-machine conversation systems, such as chat-bots and virtual assistants, is directly related to the amount and quality of
knowledge available to them. In the digital age, the diversity and quality of
data have increased significantly, being available in various formats. Among
these, the PDF (Portable Document Format) stands out as one of the most
well-known and widely used, adapting to various sectors, such as business, education, and research. These files contain a considerable amount of structured
data, such as text, headings, lists, tables, images, etc.
The content of PDF files can be extracted using dedicated tools, such as
OCR (Optical Character Recognition), PdfMiner, Tabula and others, which
have proven to be suitable for this task. However, these tools may encounter
difficulties when dealing with the complex and varied presentation of PDF
documents. The accuracy of extraction can be compromised by the diversity
of layouts, non-standardized formats, and embedded graphic elements in the
documents, often leading to manual post-processing.
Computer vision, and more specifically, object detection, is a branch
of machine learning that aims to locate and classify instances in images
using models dedicated to the task. It is proving to be a viable approach
to accelerating the work performed by algorithms like OCR, PdfMiner, Tabula
and improving their accuracy.
Object detection models, being based on deep learning, require not only
a substantial amount of data for training but, above all, high-quality annotations, as they have a direct impact on achieving high levels of accuracy and
robustness. The diversity of layouts and graphic elements in PDF documents
adds an additional layer of complexity, requiring representatively annotated
data so that the models can learn to handle all possible variations.
Considering the voluminous aspect of the data needed for training the
models, we quickly realize that the data annotation process becomes a tedious
and time-consuming task requiring human intervention to manually identify
and label each relevant element. This task is not only time-consuming but also
subject to human error, often requiring additional checks and corrections.
To find a middle ground between the amount of data, minimizing
annotation time, and high-quality annotations, in this work, we proposed a
pipeline that, from a limited number of annotated PDF documents with the
categories text, title, list, table, and image as input, can create new document
layouts similar to the desired number by the user. This pipeline goes further
by filling the new created layouts with content to provide synthetic document
images and their respective annotations. With its simple, intuitive, and scalable
structure, this pipeline can contribute to active learning, allowing detection
models to be continuously trained, making them more effective and robust in
the face of real documents.
In our experiments, when evaluating and comparing three detection
models, we observed that the RT-DETR (Real-Time Detection Transformer)
achieved the best results, reaching a mean Average Precision (mAP) of 96.30 percent,
surpassing the results of Mask R-CNN (Region-based Convolutional Neural
Networks) and Mask DINO (Mask DETR with Improved Denoising Anchor
Boxes). The superiority of RT-DETR indicates its potential to become a reference solution in detecting features in PDF documents. These promising results
pave the way for more efficient and reliable applications in the automatic processing of documents.
|
Page generated in 0.0426 seconds