41 |
[pt] EXTRAÇÃO DE INFORMAÇÕES DE SENTENÇAS JUDICIAIS EM PORTUGUÊS / [en] INFORMATION EXTRACTION FROM LEGAL OPINIONS IN BRAZILIAN PORTUGUESEGUSTAVO MARTINS CAMPOS COELHO 03 October 2022 (has links)
[pt] A Extração de Informação é uma tarefa importante no domínio jurídico.
Embora a presença de dados estruturados seja escassa, dados não estruturados na forma de documentos jurídicos, como sentenças, estão amplamente
disponíveis. Se processados adequadamente, tais documentos podem fornecer
informações valiosas sobre processos judiciais anteriores, permitindo uma melhor avaliação por profissionais do direito e apoiando aplicativos baseados em
dados. Este estudo aborda a Extração de Informação no domínio jurídico, extraindo valor de sentenças relacionados a reclamações de consumidores. Mais
especificamente, a extração de cláusulas categóricas é abordada através de
classificação, onde seis modelos baseados em diferentes estruturas são analisados. Complementarmente, a extração de valores monetários relacionados a
indenizações por danos morais é abordada por um modelo de Reconhecimento
de Entidade Nomeada. Para avaliação, um conjunto de dados foi criado, contendo 964 sentenças anotados manualmente (escritas em português) emitidas
por juízes de primeira instância. Os resultados mostram uma média de aproximadamente 97 por cento de acurácia na extração de cláusulas categóricas, e 98,9 por cento
na aplicação de NER para a extração de indenizações por danos morais. / [en] Information Extraction is an important task in the legal domain. While
the presence of structured and machine-processable data is scarce, unstructured data in the form of legal documents, such as legal opinions, is largely
available. If properly processed, such documents can provide valuable information with regards to past lawsuits, allowing better assessment by legal professionals and supporting data-driven applications. This study addresses Information Extraction in the legal domain by extracting value from legal opinions
related to consumer complaints. More specifically, the extraction of categorical
provisions is addressed by classification, where six models based on different
frameworks are analyzed. Moreover, the extraction of monetary values related
to moral damage compensations is addressed by a Named Entity Recognition
(NER) model. For evaluation, a dataset was constructed, containing 964 manually annotated legal opinions (written in Brazilian Portuguese) enacted by
lower court judges. The results show an average of approximately 97 percent of accuracy when extracting categorical provisions, and 98.9 percent when applying NER
for the extraction of moral damage compensations.
|
42 |
[en] SILHOUETTES AND LAPLACIAN LINES OF POINT CLOUDS VIA LOCAL RECONSTRUCTION / [pt] SILHUETAS E LINHAS LAPLACIANAS DE NUVENS DE PONTOS VIA RECONSTRUÇÃO LOCALTAIS DE SA PEREIRA 29 September 2014 (has links)
[pt] No presente trabalho propomos uma nova forma de extrair a silhueta de uma nuvem de pontos, via reconstrução local de uma superfície descrita implicitamente por uma função polinomial. Esta reconstrução é baseada nos métodos Gradient one fitting e Ridge regression. A curva silhueta fica definida implicitamente por um sistema de equações não-lineares e sua geração é feita por continuação numérica. Como resultado, verificamos que nosso método se mostrou adequado para tratar dados com ruídos. Além
disso, apresentamos um método para a extração local de linhas laplacianas de uma nuvem de pontos baseado na reconstrução local utilizando a triangulação de Delaunay. / [en] In this work we propose a new method for silhouette extraction of a point cloud, via local reconstruction of a surface described implicitly by a polynomial function. This reconstruction is based on the Gradient one
fitting and Ridge regression methods. The curve silhouette is implicitly defined by a system of nonlinear equations, and is obtained using numerical continuation. As a result, we observe that our method is suitable to handle noisy data. In addition, we present a method for extracting Laplacian Lines of a point cloud based on local reconstruction using the Delaunay triangulation.
|
43 |
[en] SECOND LEVEL RECOMMENDATION SYSTEM TO SUPPORT NEWS EDITING / [pt] SISTEMA DE RECOMENDAÇÃO DE SEGUNDO NÍVEL PARA SUPORTE À PRODUÇÃO DE MATÉRIAS JORNALÍSTICASDEMETRIUS COSTA RAPELLO 10 April 2014 (has links)
[pt] Sistemas de recomendação têm sido amplamente utilizados pelos grandes
portais na Web, em decorrência do aumento do volume de dados disponíveis na
Web. Tais sistemas são basicamente utilizados para sugerir informações
relevantes para os seus usuários. Esta dissertação apresenta um sistema de
recomendação de segundo nível para auxiliar equipes de jornalistas de portais de
notícias no processo de recomendação de notícias relacionadas para os usuários do
portal. O sistema é chamado de segundo nível pois apresenta recomendações aos
jornalistas para que, por sua vez, geram recomendações aos usuários do portal. O
modelo seguido pelo sistema consiste na recomendação de notícias relacionadas
com base em características extraídas do próprio texto da notícia original. As
características extraídas permitem a criação de consultas contra um banco de
dados de notícias anteriormente publicadas. O resultado de uma consulta é uma
lista de notícias candidatas à recomendação, ordenada pela similaridade com a
notícia original e pela data de publicação, que o editor da notícia original
manualmente processa para gerar a lista final de notícias relacionadas. / [en] Recommendation systems are widely used by major Web portals due to the
increase in the volume of data available on the Web. Such systems are basically
used to suggest information relevant to their users. This dissertation presents a
second-level recommendation system, which aims at assisting the team of
journalists of a news Web portal in the process of recommending related news for
the users of the Web portal. The system is called second level since it creates
recommendations to the journalists Who, in turn, generate recommendations to
the users. The system follows a model based on features extracted from the text
itself. The extracted features permit creating queries against a news database. The
query result is a list of candidate news, sorted by score and date of publication,
which the news editor manually processes to generate the final list of related
news.
|
44 |
Um modelo de pontuação na busca de competências acadêmicas de pesquisadores / A score-based model for assessing academic researchers competencesRech, Rodrigo Octavio January 2007 (has links)
Esta pesquisa descreve um modelo para descobrir e pontuar competências acadêmicas de pesquisadores, baseado na combinação de indicadores quantitativos que permitem mensurar a produção acadêmica dos cientistas. Um diferencial do modelo é a inclusão de indicadores quantitativos relacionados com a importância da produção bibliográfica dos pesquisadores. Estes indicadores possibilitam uma avaliação da produção considerando aspectos como repercussão na comunidade acadêmica e nível dos veículos de publicação. A pesquisa também contribui com a especificação de uma arquitetura flexível e extensível fundamentada em técnicas de extração de dados na Web e casamento aproximado de dados (através de funções de similaridade). A arquitetura foi implementada em um sistema Web cuja principal característica é a integração de diversas tecnologias open source. O sistema desenvolvido permite que qualquer pesquisador avalie quantitativamente sua produção científica, automatizando diversos aspectos relacionados à tarefa de avaliação, como a obtenção dos indicadores e a integração das diferentes bases de informações. / The present research describes a model that aims finding out and scoring academic researchers skills or competences based on the combination of quantitative indicators that make it possible to measure the production of academic scientists. A special feature concerning our model is the inclusion of quantitative indicators related to the importance of the researchers’ bibliographic production. These indicators allow the evaluation of the production considering both the outcome it has had in the academic community, and the quality level of the place it was published. The study also presents a flexible and extensible architecture specification based on techniques of web data extraction, and on approximate data matching (which is carried out through similarity functions). The architecture has been implemented in a web system whose main feature relies on the integration of several open-source technologies. The developed system allows any researcher to evaluate his/her own scientific production in quantitative terms, automating as well the so many aspects regarding the evaluation task, by making it easier to obtain the indicators and to integrate the different information databases, for instance.
|
45 |
[en] FUZZY MODELS IN SEGMENTATION AND ANALYSIS OF BANK MARKETING / [pt] MODELOS FUZZY NA SEGMENTAÇÃO E ANÁLISE DO MERCADO BANCÁRIOMAXIMILIANO MORENO LIMA 03 October 2008 (has links)
[pt] Este trabalho tem como principal objetivo propor e
desenvolver uma metodologia baseada em modelos fuzzy para a
segmentação e caracterização dos segmentos que compõem o
mercado bancário, permitindo um amplo conhecimento dos
perfis de clientes, melhor adaptação das ofertas ao mercado
e, conseqüentemente, melhores retornos financeiros. A
metodologia proposta nesta dissertação pode ser dividida em
três módulos principais: coleta e tratamento dos
dados; definição dos segmentos; e caracterização e
classificação dos segmentos. O primeiro módulo, denominado
coleta e tratamento dos dados, abrange as
pesquisas de marketing utilizadas na coleta dos dados e a
aplicação de técnicas de pré-processamento de dados, para a
limpeza (remoção de outliers e missing values) e
normalização dos dados. O módulo de definição dos segmentos
emprega o modelo fuzzy de agrupamento Fuzzy C-Means (FCM)
na descoberta de grupos de clientes que apresentem
características semelhantes. A escolha deste modelo de
agrupamento deve-se à possibilidade de análise dos graus de
pertinência de cada cliente em relação aos diferentes
grupos, identificando os clientes entre segmentos
e, conseqüentemente, elaborando ações efetivas para a sua
transição ou manutenção nos segmentos de interesse. O
módulo de caracterização e classificação dos segmentos é
baseado em um Sistema de Inferência Fuzzy. Na
primeira etapa deste módulo são selecionadas as variáveis
mais relevantes, do ponto de vista da informação, para sua
aplicação no processo de extração de
regras. As regras extraídas para a caracterização dos
segmentos são posteriormente utilizadas na construção de um
sistema de inferência fuzzy dedicado à classificação de
novos clientes. Este sistema permite que os analistas
de marketing contribuam com novas regras ou modifiquem as
já extraídas, tornando o modelo mais robusto e a
segmentação de mercado uma ferramenta acessível a todos que
dela se servem. A metodologia foi aplicada na segmentação
de mercado do Banco da Amazônia, um banco estatal que atua
na Amazônia Legal, cujo foco prioritário constitui o
fomento da região. Avaliando a aplicação dos modelos fuzzy
no estudo de caso, observam-se bons resultados na definição
dos segmentos, com médias de valor de silhueta de 0,7, e na
classificação da base de clientes, com acurácia de 100%.
Adicionalmente, o uso destes modelos na segmentação de
mercado possibilitou a análise dos clientes que estão entre
segmentos e a caracterização desses segmentos por meio de
uma base de regras, ampliando as análises dos analistas de
marketing. / [en] The main aim of this work is to propose and develop a
methodology base don fuzzy models for segmentation and
characterization of segments comprising the bank segment,
allowing broad knowledge of client profiles, better suiting
market needs, hence offering better financial results. The
methodology proposed in this work may be divided into three
main modules: data collection and treatment; definition of
segments; and characterization and classification of
segments. The first module, denominated data collection and
treatment, encompasses marketing research used in data
collection and application of techniques for pre-processing
of data, for data trimming (removal of outliers and
missing values) and normalization. The definition of
segments adopts the Fuzzy C-Means (FCM) grouping model in
identifying groups of clients with similar
characteristics. The choice for this grouping model is due
to the possibility of analyzing the membership coefficient
of each client in connection with the different groups,
thus identifying clients among segments and consequently
elaborating effective actions for their transition to or
maintenance in the segments of interest. The module of
characterization and classification of segments is based
on a Fuzzy Inference System. In the first stage, the most
relevant variables from the information standpoint are
selected, for application in the process of rule
extraction. The rules extracted are then used in the
construction of a fuzzy inference system dedicated to
classifying new clients. This system allows
marketing analysts to contribute with new rules or modify
those already extracted, making the model more robust and
the turning market segmentation into a tool
accessible to all using it. This methodology was applied in
the market segmentation of Banco da Amazônia, stte-
contrlled bank acting in the Amazon region, with main focus
of which is fostering the region´s development. The
application of fuzzy models in the case study generated
good results in the definition of segments, with average
silhouette value of 0.7, and accuracy of 100% for client
base classification. Furthermore, the use of these models in
market segmentation allowed the analysis of clients
classified between segments and the characterization of
those segments by means of a set of rules, improving
the analyses made by marketing analysts.
|
46 |
Um modelo de pontuação na busca de competências acadêmicas de pesquisadores / A score-based model for assessing academic researchers competencesRech, Rodrigo Octavio January 2007 (has links)
Esta pesquisa descreve um modelo para descobrir e pontuar competências acadêmicas de pesquisadores, baseado na combinação de indicadores quantitativos que permitem mensurar a produção acadêmica dos cientistas. Um diferencial do modelo é a inclusão de indicadores quantitativos relacionados com a importância da produção bibliográfica dos pesquisadores. Estes indicadores possibilitam uma avaliação da produção considerando aspectos como repercussão na comunidade acadêmica e nível dos veículos de publicação. A pesquisa também contribui com a especificação de uma arquitetura flexível e extensível fundamentada em técnicas de extração de dados na Web e casamento aproximado de dados (através de funções de similaridade). A arquitetura foi implementada em um sistema Web cuja principal característica é a integração de diversas tecnologias open source. O sistema desenvolvido permite que qualquer pesquisador avalie quantitativamente sua produção científica, automatizando diversos aspectos relacionados à tarefa de avaliação, como a obtenção dos indicadores e a integração das diferentes bases de informações. / The present research describes a model that aims finding out and scoring academic researchers skills or competences based on the combination of quantitative indicators that make it possible to measure the production of academic scientists. A special feature concerning our model is the inclusion of quantitative indicators related to the importance of the researchers’ bibliographic production. These indicators allow the evaluation of the production considering both the outcome it has had in the academic community, and the quality level of the place it was published. The study also presents a flexible and extensible architecture specification based on techniques of web data extraction, and on approximate data matching (which is carried out through similarity functions). The architecture has been implemented in a web system whose main feature relies on the integration of several open-source technologies. The developed system allows any researcher to evaluate his/her own scientific production in quantitative terms, automating as well the so many aspects regarding the evaluation task, by making it easier to obtain the indicators and to integrate the different information databases, for instance.
|
47 |
Um modelo de pontuação na busca de competências acadêmicas de pesquisadores / A score-based model for assessing academic researchers competencesRech, Rodrigo Octavio January 2007 (has links)
Esta pesquisa descreve um modelo para descobrir e pontuar competências acadêmicas de pesquisadores, baseado na combinação de indicadores quantitativos que permitem mensurar a produção acadêmica dos cientistas. Um diferencial do modelo é a inclusão de indicadores quantitativos relacionados com a importância da produção bibliográfica dos pesquisadores. Estes indicadores possibilitam uma avaliação da produção considerando aspectos como repercussão na comunidade acadêmica e nível dos veículos de publicação. A pesquisa também contribui com a especificação de uma arquitetura flexível e extensível fundamentada em técnicas de extração de dados na Web e casamento aproximado de dados (através de funções de similaridade). A arquitetura foi implementada em um sistema Web cuja principal característica é a integração de diversas tecnologias open source. O sistema desenvolvido permite que qualquer pesquisador avalie quantitativamente sua produção científica, automatizando diversos aspectos relacionados à tarefa de avaliação, como a obtenção dos indicadores e a integração das diferentes bases de informações. / The present research describes a model that aims finding out and scoring academic researchers skills or competences based on the combination of quantitative indicators that make it possible to measure the production of academic scientists. A special feature concerning our model is the inclusion of quantitative indicators related to the importance of the researchers’ bibliographic production. These indicators allow the evaluation of the production considering both the outcome it has had in the academic community, and the quality level of the place it was published. The study also presents a flexible and extensible architecture specification based on techniques of web data extraction, and on approximate data matching (which is carried out through similarity functions). The architecture has been implemented in a web system whose main feature relies on the integration of several open-source technologies. The developed system allows any researcher to evaluate his/her own scientific production in quantitative terms, automating as well the so many aspects regarding the evaluation task, by making it easier to obtain the indicators and to integrate the different information databases, for instance.
|
48 |
Extração e mineração de informação independente de domínios da web na língua portuguesa / Extraction and mining domain independent information from web in portuguesePires, Julio Cesar Batista 08 May 2015 (has links)
Submitted by Cássia Santos (cassia.bcufg@gmail.com) on 2015-10-21T14:08:06Z
No. of bitstreams: 2
Dissertação - Julio Cesar Batista Pires - 2015.pdf: 2026124 bytes, checksum: dda6bea6dfa125f21d2023f288178ebc (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2015-10-22T13:08:50Z (GMT) No. of bitstreams: 2
Dissertação - Julio Cesar Batista Pires - 2015.pdf: 2026124 bytes, checksum: dda6bea6dfa125f21d2023f288178ebc (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2015-10-22T13:08:50Z (GMT). No. of bitstreams: 2
Dissertação - Julio Cesar Batista Pires - 2015.pdf: 2026124 bytes, checksum: dda6bea6dfa125f21d2023f288178ebc (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
Previous issue date: 2015-05-08 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Many people are constantly connected on the Web. They are looking for all kinds of
things. The Web is a huge source of information. So, they can find almost everything
they want. However, Web information is disorganized and have no formal structure. This
hampers machine processing and consequently makes information access more difficult.
Bringing structure to the Web can be one of the key points for facilitating user searching
and navigation. A recent technique, Open Information Extraction, has been successfully
applied to extract structured information from the Web. This technique has been mostly
applied in pages written in English. This work is specifically focused on information
extraction for Portuguese. Techniques used here can be also used to other languages too. / Muitas pessoas estão constantemente conectadas na Web. Elas estão procurando por todo
tipo de coisa. A Web é uma enorme fonte de informação. Assim, as pessoas podem
encontrar praticamente tudo que elas precisam. Entretanto, as informações da Web são
desorganizadas e não possuem uma estrutura formal. Isso dificulta o processamento das
máquinas e consequentemente torna o acesso à informaçã mais difícil. Trazer estrutura
para a Web pode ser um dos pontos chave para facilitar a busca e navegaçã dos usuários.
Uma técnica recente, Extração de Informação Aberta, foi aplicada com sucesso para
extrair informação da Web. Essa técnica foi aplicada principalmente em páginas em
Inglês. Este trabalho é focado especificamente na extração de informação em Português.
As técnicas usadas aqui também podem ser utilizadas para outras linguagens.
|
49 |
[en] NCE: AN ALGORITHM FOR CONTENT EXTRACTION IN NEWS PAGES / [pt] NCE: UM ALGORITMO PARA EXTRAÇÃO DE CONTEÚDO DE PÁGINAS DE NOTÍCIASEVELIN CARVALHO FREIRE DE AMORIM 15 September 2017 (has links)
[pt] A extração de entidades de páginas web é comumente utilizada para melhorar a qualidade de muitas tarefas realizadas por máquinas de busca como detecção de páginas duplicadas e ranking. Essa tarefa se torna ainda mais relevante devido ao crescente volume de informação da internet com as quais as máquinas de busca precisam lidar. Existem diversos algoritmos para detecção de conteúdo na literatura, alguns orientados a sites e outros que utilizam uma abordagem mais local e são chamados de algoritmos orientados a páginas. Os algoritmos orientados a sites utilizam várias páginas de um mesmo site para criar um modelo que detecta o conteúdo relevante da página. Os algoritmos orientados a páginas detectam conteúdo avaliando as características de cada página, sem comparar com outras páginas. Neste trabalho apresentamos um algoritmo, chamado NCE ( News Content Extractor), orientado a página e que se propõe a realizar extração de entidades em páginas de notícias. Ele utiliza atributos de uma árvore DOM para localizar determinadas entidades de uma página de notícia, mais especificamente, o título e o corpo da notícia. Algumas métricas são apresentadas e utilizadas para aferir a qualidade do NCE. Quando comparado com outro método baseado em página e que utiliza atributos visuais, o NCE se mostrou superior tanto em relação à qualidade de extração quanto no que diz respeito ao tempo de execução. / [en] The entity extraction of web pages is commonly used to enhance the quality of tasks performed by search engines, like duplicate pages and ranking. The relevance of entity extraction is crucial due to the fact that
search engines have to deal with fast growning volume of information on the web. There are many algorithms that detect entities in the literature, some using site level strategy and others using page level strategy. The site level strategy uses many pages from the same site to create a model that extracts templates. The page level strategy creates a model to extract templates according to features of the page. Here we present an algorithm, called NCE (News Content Extractor), that uses a page level strategy and
its objective is to perform entity extraction on news pages. It uses features from a DOM tree to search for certain entities, namely, the news title and news body. Some measures are presented and used to evaluate how good NCE is. When we compare NCE to a page level algorithm that uses visual features, NCE shows better execution time and extraction quality.
|
50 |
[pt] REVISITANDO O MARCHING CUBES 33: GARANTIAS TOPOLÓGICAS E QUALIDADE DA MALHA / [en] REVISITING MARCHING CUBES 33: TOPOLOGICAL GUARANTEES AND MESH QUALITY16 December 2021 (has links)
[pt] O Marching Cubes 33 proposto por Chernyaev é um dos primeiros algoritmos
de extração de isosuperfície destinados a preservar a topologia do
interpolante trilinear. Neste trabalho, abordamos três problemas no algoritmo
do Marching Cubes 33, dois dos quais estão relacionados com a sua
descrição original. Em particular, resolvemos um problema no procedimento
para resolver ambiguidades interiores do Marching Cubes 33, que impede
que a isosuperfície seja extraída corretamente para o caso ambíguo 13.5.
O algoritmo Marching Cubes é considerado simples, robusto e com baixo
custo computacional, características que contribuíram para torná-lo popular
entre os algoritmo de extração de isosuperfícies. Porém no que se refere a
qualidade da triangulação da malha resultante, não raramente observamos
um grande número de triângulos finos (triângulos com ângulos pequenos)
e até mesmo degenerados (triângulos com área zero). Buscando unir à coerência
topológica uma melhor qualidade na triangulação gerada, propomos
uma extensão da tabela de triangulação proposta por Chernyaev, de modo
que os vértices da grade passem a fazer parte da triangulação, eliminando
assim a possibilidade de geração de triângulos degenerados. Esta nova tabela
é utilizada para evitar a criação de triângulos finos, através de pequenas
alterações do campo escalar nos vértices da grade. / [en] Chernyaev s Marching Cubes 33 is one of the first isosurface extraction
algorithms intended to preserve the topology of the trilinear interpolant.
In this work, we address three issues in the Marching Cubes 33 algorithm,
two of which are related to its original description. In particular, we solve a
problem with the core disambiguation procedure of Marching Cubes 33 that
prevents the extraction of topologically correct isosurfaces for the ambiguous
configuration 13.5 thus fixing the original formulation of the algorithm.
The Marching Cubes algorithm is considered simple, robust and with low
computational cost, characteristics that contributed to make it the most
popular algorithm for isosurfaces extraction. However, regarding the quality
of the resulting mesh, frequently it is possible to observe a large number of
badly-shaped triangles (triangles with small angles) and even degenerate
(triangles with zero area) ones. Seeking to unite a better triangulation
quality of the resulting mesh to the topological consistency, we propose
an extension of the triangulation table proposed by Chernyaev, so that
the vertices of the grid become part of the triangulation generated, thus
eliminating the possibility of generation of degenerate triangles. This new
table is used to avoid the creation of badly-shaped triangles via small
changes of the scalar field on the vertices of the grid.
|
Page generated in 0.0379 seconds