1 |
Automatic classification of latin music : some experiments on musical genre classificationLopes, Miguel Alexandre Gaspar January 2009 (has links)
Estágio realizado no INESC Porto / Tese de mestrado integrado. Engenharia Electrotécnica e de Computadores. Faculdade de Engenharia. Universidade do Porto. 2009
|
2 |
Classificação ordinal com opção de rejeiçãoAlmeida, Ezilda Duarte January 2010 (has links)
Tese de mestrado integrado. Engenharia Informática e Computação. Faculdade de Engenharia. Universidade do Porto, INESC Porto. 2010
|
3 |
Classificação automática de páginas Web Multi-label via MDL e Support Vector MachinesOrmonde, Rodrigo de La Rocque January 2009 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2009. / Submitted by Ruthléa Nascimento (ruthleanascimento@bce.unb.br) on 2015-10-05T16:36:58Z
No. of bitstreams: 1
2009_RodrigodeLaRocqueOrmonde.pdf: 831778 bytes, checksum: c5976576592c690b8627dba88bbcac9f (MD5) / Approved for entry into archive by Ruthléa Nascimento(ruthleanascimento@bce.unb.br) on 2015-10-05T16:37:14Z (GMT) No. of bitstreams: 1
2009_RodrigodeLaRocqueOrmonde.pdf: 831778 bytes, checksum: c5976576592c690b8627dba88bbcac9f (MD5) / Made available in DSpace on 2015-10-05T16:37:14Z (GMT). No. of bitstreams: 1
2009_RodrigodeLaRocqueOrmonde.pdf: 831778 bytes, checksum: c5976576592c690b8627dba88bbcac9f (MD5) / Nesta pesquisa é feita a extensão de um novo algoritmo de classificação, chamado de CAH+MDL, anteriormente desenvolvido para lidar apenas com problemas de classificação binários ou multiclasse, para tratar diretamente também problemas de classificação multilabel. Foi estudado então seu desempenho para a classificação de uma base de páginas Web em Português e Inglês, divididas em sete categorias multi-label. Este algoritmo é baseado no princípio da Minimum Description Length (MDL), utilizado juntamente com a Codificação Adaptativa de Huffman e foi anteriormente estudado para a classificação binária na detecção de SPAM, tendo apresentado bons resultados. Não foram encontradas citações na literatura, entretanto, de sua utilização para o caso multi-label, que é bem mais complexo. Para avaliar seu desempenho, os resultados são comparados com os resultados obtidos na classificação da mesma base de dados por uma SVM linear, que é o algoritmo que normalmente apresenta os melhores resultados na classificação de padrões e, especialmente, na classificação de textos. _______________________________________________________________________________ ABSTRACT / In this research, it is developed the extension of a new classification algorithm, called CAH+MDL, previously conceived to deal only with binary or multi-class classification problems, to treat directly multi-label classification problems. Its accuracy is then studied in the classification of a database comprised of Web sites in Portuguese and English, divided into seven multi-label categories. This algorithm is based on the principle of the Minimum Description Length (MDL), used together with the Huffman Adaptive Coding. It has already been studied for binary classification in SPAM detection and has presented good results, however, to the best of my knowledge, it had never been studied before for the multi-label case, which is much more complex. In order to evaluate its performance, its results are compared with the results obtained in the classification of the same database by a linear SVM, which is the algorithm that usually presents the best results in pattern classification and, specially, in text classification.
|
4 |
Extracção e organização automática de informação MailRoom AutomationGonçalves, Jennifer Raquel da Silva January 2010 (has links)
Tese de mestrado. Ciência da Informação. Faculdade de Engenharia. Universidade do Porto. 2010
|
5 |
Classificando automaticamente diálogos colaborativos on-line com a oxentchê-chatVIEIRA, Ana Cláudia Helmann January 2004 (has links)
Made available in DSpace on 2014-06-12T15:58:28Z (GMT). No. of bitstreams: 2
arquivo4576_1.pdf: 2100456 bytes, checksum: 7e1e2671c8510294e36bc66a90297bef (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2004 / Atualmente existe uma grande demanda por ambientes virtuais de aprendizado.
Nestes, uma das principais ferramentas é o chat, tanto entre alunos e professor, quanto
somente entre alunos. Todavia, tais sistemas não fornecem ao professor informações
sobre a qualidade da interação entre os alunos. Assim, o objetivo principal deste trabalho
foi investigar a viabilidade da classificação automática de diálogos para o fornecimento
de feedback para professores em ambientes virtuais de aprendizado. Para tal, foram
utilizadas as redes neurais artificiais como classificadoras de padrões.
O trabalho começou com uma coleta de dados para a criação de uma base de
diálogos, obtidos em diferentes locais da internet. Com a base formada, foram extraídas
as características mais relevantes para a classificação dos diálogos quanto à presença
significativa de reflexão. Logo após, foram iniciados o treinamento e testes com as redes
neurais artificiais para a identificação de padrões de diálogos de qualidade e a melhoria
da capacidade de classificação de novos padrões. Por fim, foi realizada a implementação
de uma ferramenta de análise de diálogos colaborativos, a OXEnTCHÊ-Chat.
Foram realizados experimentos com a ferramenta, tanto para avaliar sua
usabilidade, quanto para avaliar a qualidade da classificação produzida. Os resultados
obtidos indicam que o problema da classificação automática de diálogos pode ser tratado
com redes neurais, e apontam para várias outras possibilidades de investigação.
Este trabalho faz parte do projeto CVA-On, e algumas extensões possíveis já estão
em desenvolvimento, tais como o aumento da base de dados com o pré-processamento
destes dados, testes com outros tipos de classificadores, e melhorias na apresentação do
feedback final
|
6 |
Busca guiada de patentes de Bioinformática / Guided Search of Bioinformatics PatentsDutra, Marcio Branquinho 17 October 2013 (has links)
As patentes são licenças públicas temporárias outorgadas pelo Estado e que garantem aos inventores e concessionários a exploração econômica de suas invenções. Escritórios de marcas e patentes recomendam aos interessados na concessão que, antes do pedido formal de uma patente, efetuem buscas em diversas bases de dados utilizando sistemas clássicos de busca de patentes e outras ferramentas de busca específicas, com o objetivo de certificar que a criação a ser depositada ainda não foi publicada, seja na sua área de origem ou em outras áreas. Pesquisas demonstram que a utilização de informações de classificação nas buscas por patentes melhoram a eficiência dos resultados das consultas. A pesquisa associada ao trabalho aqui reportado tem como objetivo explorar artefatos linguísticos, técnicas de Recuperação de Informação e técnicas de Classificação Textual para guiar a busca por patentes de Bioinformática. O resultado dessa investigação é o Sistema de Busca Guiada de Patentes de Bioinformática (BPS), o qual utiliza um classificador automático para guiar as buscas por patentes de Bioinformática. A utilização do BPS é demonstrada em comparações com ferramentas de busca de patentes atuais para uma coleção específica de patentes de Bioinformática. No futuro, deve-se experimentar o BPS em coleções diferentes e mais robustas. / Patents are temporary public licenses granted by the State to ensure to inventors and assignees economical exploration rights. Trademark and patent offices recommend to perform wide searches in different databases using classic patent search systems and specific tools before a patent\'s application. The goal of these searches is to ensure the invention has not been published yet, either in its original field or in other fields. Researches have shown the use of classification information improves the efficiency on searches for patents. The objetive of the research related to this work is to explore linguistic artifacts, Information Retrieval techniques and Automatic Classification techniques, to guide searches for Bioinformatics patents. The result of this work is the Bioinformatics Patent Search System (BPS), that uses automatic classification to guide searches for Bioinformatics patents. The utility of BPS is illustrated by a comparison with other patent search tools. In the future, BPS system must be experimented with more robust collections.
|
7 |
Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente. / Automatic text classification using word similarities: a more efficient algorithm.Catae, Fabricio Shigueru 08 January 2013 (has links)
A análise da semântica latente é uma técnica de processamento de linguagem natural, que busca simplificar a tarefa de encontrar palavras e sentenças por similaridade. Através da representação de texto em um espaço multidimensional, selecionam-se os valores mais significativos para sua reconstrução em uma dimensão reduzida. Essa simplificação lhe confere a capacidade de generalizar modelos, movendo as palavras e os textos para uma representação semântica. Dessa forma, essa técnica identifica um conjunto de significados ou conceitos ocultos sem a necessidade do conhecimento prévio da gramática. O objetivo desse trabalho foi determinar a dimensionalidade ideal do espaço semântico em uma tarefa de classificação de texto. A solução proposta corresponde a um algoritmo semi-supervisionado que, a partir de exemplos conhecidos, aplica o método de classificação pelo vizinho mais próximo e determina uma curva estimada da taxa de acerto. Como esse processamento é demorado, os vetores são projetados em um espaço no qual o cálculo se torna incremental. Devido à isometria dos espaços, a similaridade entre documentos se mantém equivalente. Esta proposta permite determinar a dimensão ideal do espaço semântico com pouco esforço além do tempo requerido pela análise da semântica latente tradicional. Os resultados mostraram ganhos significativos em adotar o número correto de dimensões. / The latent semantic analysis is a technique in natural language processing, which aims to simplify the task of finding words and sentences similarity. Using a vector space model for the text representation, it selects the most significant values for the space reconstruction into a smaller dimension. This simplification allows it to generalize models, moving words and texts towards a semantic representation. Thus, it identifies a set of underlying meanings or hidden concepts without prior knowledge of grammar. The goal of this study was to determine the optimal dimensionality of the semantic space in a text classification task. The proposed solution corresponds to a semi-supervised algorithm that applies the method of the nearest neighbor classification on known examples, and plots the estimated accuracy on a graph. Because it is a very time consuming process, the vectors are projected on a space in such a way the calculation becomes incremental. Since the spaces are isometric, the similarity between documents remains equivalent. This proposal determines the optimal dimension of the semantic space with little effort, not much beyond the time required by traditional latent semantic analysis. The results showed significant gains in adopting the correct number of dimensions.
|
8 |
Desenvolvimento e utilização de um novo sistema submersível de imageamento e visão computacional para o estudo da dinâmica de partículas e organismos planctônicos na Enseada do Flamengo, Ubatuba (SP) / Development and implementation of a new submersible imaging system and computer vision tools for a study on particle and plankton dynamics in the Flamengo bay, Ubatuba (SP)Gomes, Alessandra Colombo Simões 13 July 2018 (has links)
Neste trabalho foi desenvolvida uma instrumentação óptica in-line para filmagem de partículas in situ, utilizando a técnica de sombreamento, acompanhada de softwares para processamento das imagens. As novas ferramentas foram implementadas e foi conduzido um estudo de caso para a avaliação da dinâmica de partículas e suas forçantes ambientais em uma região costeira de Ubatuba. O sistema com 4 sensores acoplados, adquiriu dados oceanográficos e de imagens a cada 40 minutos, no período entre 20 de fevereiro e 7 de junho de 2017. Dados metereológicos adicionais foram obtidos para análises correlativas. Testes com os softwares de visão computacional estabeleceram o uso dos filtros de tamanho entre 500 e 16300 pixels e contraste maior que 50% para segmentação das Regiões de Interesse (ROIs). Os testes também indicaram a melhor performance do algoritmo de segmentação ModeValue e de uma base de treinamento composta por 9 classes com 300 organismos cada para a classificação automática. Devido à baixa acurácia obtida na etapa de classificação automática de imagens desconhecidas de organismos (27%), os objetos foram analisados nesse estudo como partículas, divididos de acordo com o tamanho de seu eixo maior em três ranges (<385 μm; 385-620 μm; >620μm). A análise das partículas, por questões estatísticas, considerou o maior intervalo de amostragens contínuas da série, de 5 de abril a 7 de maio de 2017. Primeiramente a série de cada variável foi decomposta em componentes harmônicas, com base na análise de Fourier, visando detectar padrões recorrentes e, em seguida, as variáveis com picos de densidade espectral mais expressivos em frequências da ordem de uma semana e de um dia foram comparadas por meio da coerência quadrada. As partículas menores, do range 1, foram as que melhor representaram a abundância total e os maiores valores de coerência foram entre as variáveis com período característico de um dia. A instrumentação implementada e testada ao longo de cerca de 3 meses possibilitou a aquisição de imagens de qualidade e de resultados iniciais úteis para o aprimoramento do sistema, visando instalações futuras de longo prazo em ambientes costeiros. / In this work, in-line optical optical instrumentation was developed for in situ particle filming, using the shadowgraphic technique, accompanied by image processing software. The new tools were implemented and a case study was carried out to evaluate the dynamics of particles and their environmental forcing in a coastal region of Ubatuba. The system, with 4 coupled environmental sensors, acquired oceanographic and image data every 40 minutes, between February 20 and June 7, 2017. Aditional meteorological data were obtained for correlative analyzes. Tests with the implemented computer vision software have stablished the use of size filters between 500 and 16300 pixels and contrast level greater than 50% for the segmentation of Regions of Interest (ROIs). The test also indicated the best performance of the Mode Value segmentation algorithm and of a training set composed by 9 classes with 300 organisms each for automatic classification. Due to the low global accuracy obtained in the automatic classification stage of unknown images of organisms (27%), the objects were analyzed in this study as particle, divided according to the size of their major axis in three ranges (<385 μm; 385 - 620 μm; >620μm). Particle analysis, for statistical reasons, considered the largest continuous sampling range of the series, from April 5 to May 7, 2017. First, the series of each variables decomposed into harmonic components, based on Fourier analysis, aiming to detect recurrent patterns, and then the variables with more expressive spectral density peaks at frequencies of the order of one week and one day were compared by means of square coherence. The smaller particles of range 1 were the ones that best represented the total abundance, and the highest values of coherence were among the variables with characteristic period of one day. The instrumentation implemented and tested over about 3 months allowed the acquisition og high-quality images and the initial results were useful for improving the system, aiming at future long-term deployments in coastal environments.
|
9 |
Desenvolvimento e utilização de um novo sistema submersível de imageamento e visão computacional para o estudo da dinâmica de partículas e organismos planctônicos na Enseada do Flamengo, Ubatuba (SP) / Development and implementation of a new submersible imaging system and computer vision tools for a study on particle and plankton dynamics in the Flamengo bay, Ubatuba (SP)Alessandra Colombo Simões Gomes 13 July 2018 (has links)
Neste trabalho foi desenvolvida uma instrumentação óptica in-line para filmagem de partículas in situ, utilizando a técnica de sombreamento, acompanhada de softwares para processamento das imagens. As novas ferramentas foram implementadas e foi conduzido um estudo de caso para a avaliação da dinâmica de partículas e suas forçantes ambientais em uma região costeira de Ubatuba. O sistema com 4 sensores acoplados, adquiriu dados oceanográficos e de imagens a cada 40 minutos, no período entre 20 de fevereiro e 7 de junho de 2017. Dados metereológicos adicionais foram obtidos para análises correlativas. Testes com os softwares de visão computacional estabeleceram o uso dos filtros de tamanho entre 500 e 16300 pixels e contraste maior que 50% para segmentação das Regiões de Interesse (ROIs). Os testes também indicaram a melhor performance do algoritmo de segmentação ModeValue e de uma base de treinamento composta por 9 classes com 300 organismos cada para a classificação automática. Devido à baixa acurácia obtida na etapa de classificação automática de imagens desconhecidas de organismos (27%), os objetos foram analisados nesse estudo como partículas, divididos de acordo com o tamanho de seu eixo maior em três ranges (<385 μm; 385-620 μm; >620μm). A análise das partículas, por questões estatísticas, considerou o maior intervalo de amostragens contínuas da série, de 5 de abril a 7 de maio de 2017. Primeiramente a série de cada variável foi decomposta em componentes harmônicas, com base na análise de Fourier, visando detectar padrões recorrentes e, em seguida, as variáveis com picos de densidade espectral mais expressivos em frequências da ordem de uma semana e de um dia foram comparadas por meio da coerência quadrada. As partículas menores, do range 1, foram as que melhor representaram a abundância total e os maiores valores de coerência foram entre as variáveis com período característico de um dia. A instrumentação implementada e testada ao longo de cerca de 3 meses possibilitou a aquisição de imagens de qualidade e de resultados iniciais úteis para o aprimoramento do sistema, visando instalações futuras de longo prazo em ambientes costeiros. / In this work, in-line optical optical instrumentation was developed for in situ particle filming, using the shadowgraphic technique, accompanied by image processing software. The new tools were implemented and a case study was carried out to evaluate the dynamics of particles and their environmental forcing in a coastal region of Ubatuba. The system, with 4 coupled environmental sensors, acquired oceanographic and image data every 40 minutes, between February 20 and June 7, 2017. Aditional meteorological data were obtained for correlative analyzes. Tests with the implemented computer vision software have stablished the use of size filters between 500 and 16300 pixels and contrast level greater than 50% for the segmentation of Regions of Interest (ROIs). The test also indicated the best performance of the Mode Value segmentation algorithm and of a training set composed by 9 classes with 300 organisms each for automatic classification. Due to the low global accuracy obtained in the automatic classification stage of unknown images of organisms (27%), the objects were analyzed in this study as particle, divided according to the size of their major axis in three ranges (<385 μm; 385 - 620 μm; >620μm). Particle analysis, for statistical reasons, considered the largest continuous sampling range of the series, from April 5 to May 7, 2017. First, the series of each variables decomposed into harmonic components, based on Fourier analysis, aiming to detect recurrent patterns, and then the variables with more expressive spectral density peaks at frequencies of the order of one week and one day were compared by means of square coherence. The smaller particles of range 1 were the ones that best represented the total abundance, and the highest values of coherence were among the variables with characteristic period of one day. The instrumentation implemented and tested over about 3 months allowed the acquisition og high-quality images and the initial results were useful for improving the system, aiming at future long-term deployments in coastal environments.
|
10 |
Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente. / Automatic text classification using word similarities: a more efficient algorithm.Fabricio Shigueru Catae 08 January 2013 (has links)
A análise da semântica latente é uma técnica de processamento de linguagem natural, que busca simplificar a tarefa de encontrar palavras e sentenças por similaridade. Através da representação de texto em um espaço multidimensional, selecionam-se os valores mais significativos para sua reconstrução em uma dimensão reduzida. Essa simplificação lhe confere a capacidade de generalizar modelos, movendo as palavras e os textos para uma representação semântica. Dessa forma, essa técnica identifica um conjunto de significados ou conceitos ocultos sem a necessidade do conhecimento prévio da gramática. O objetivo desse trabalho foi determinar a dimensionalidade ideal do espaço semântico em uma tarefa de classificação de texto. A solução proposta corresponde a um algoritmo semi-supervisionado que, a partir de exemplos conhecidos, aplica o método de classificação pelo vizinho mais próximo e determina uma curva estimada da taxa de acerto. Como esse processamento é demorado, os vetores são projetados em um espaço no qual o cálculo se torna incremental. Devido à isometria dos espaços, a similaridade entre documentos se mantém equivalente. Esta proposta permite determinar a dimensão ideal do espaço semântico com pouco esforço além do tempo requerido pela análise da semântica latente tradicional. Os resultados mostraram ganhos significativos em adotar o número correto de dimensões. / The latent semantic analysis is a technique in natural language processing, which aims to simplify the task of finding words and sentences similarity. Using a vector space model for the text representation, it selects the most significant values for the space reconstruction into a smaller dimension. This simplification allows it to generalize models, moving words and texts towards a semantic representation. Thus, it identifies a set of underlying meanings or hidden concepts without prior knowledge of grammar. The goal of this study was to determine the optimal dimensionality of the semantic space in a text classification task. The proposed solution corresponds to a semi-supervised algorithm that applies the method of the nearest neighbor classification on known examples, and plots the estimated accuracy on a graph. Because it is a very time consuming process, the vectors are projected on a space in such a way the calculation becomes incremental. Since the spaces are isometric, the similarity between documents remains equivalent. This proposal determines the optimal dimension of the semantic space with little effort, not much beyond the time required by traditional latent semantic analysis. The results showed significant gains in adopting the correct number of dimensions.
|
Page generated in 0.0909 seconds