Global ETD Search

151	Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos / Evaluation of unsupervised feature selection methods for Text Mining Nogueira, Bruno Magalhães 27 March 2009 (has links) Selecionar atributos é, por vezes, uma atividade necessária para o correto desenvolvimento de tarefas de aprendizado de máquina. Em Mineração de Textos, reduzir o número de atributos em uma base de textos é essencial para a eficácia do processo e a compreensibilidade do conhecimento extraído, uma vez que se lida com espaços de alta dimensionalidade e esparsos. Quando se lida com contextos nos quais a coleção de textos é não-rotulada, métodos não-supervisionados de redução de atributos são utilizados. No entanto, não existe forma geral predefinida para a obtenção de medidas de utilidade de atributos em métodos não-supervisionados, demandando um esforço maior em sua realização. Assim, este trabalho aborda a seleção não-supervisionada de atributos por meio de um estudo exploratório de métodos dessa natureza, comparando a eficácia de cada um deles na redução do número de atributos em aplicações de Mineração de Textos. Dez métodos são comparados - Ranking porTerm Frequency, Ranking por Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Método de Luhn, Método LuhnDF, Método de Salton e Zone-Scored Term Frequency - sendo dois deles aqui propostos - Método LuhnDF e Zone-Scored Term Frequency. A avaliação se dá em dois focos, supervisionado, pelo medida de acurácia de quatro classificadores (C4.5, SVM, KNN e Naïve Bayes), e não-supervisionado, por meio da medida estatística de Expected Mutual Information Measure. Aos resultados de avaliação, aplica-se o teste estatístico de Kruskal-Wallis para determinação de significância estatística na diferença de desempenho dos diferentes métodos de seleção de atributos comparados. Seis bases de textos são utilizadas nas avaliações experimentais, cada uma relativa a um grande domínio e contendo subdomínios, os quais correspondiam às classes usadas para avaliação supervisionada. Com esse estudo, este trabalho visa contribuir com uma aplicação de Mineração de Textos que visa extrair taxonomias de tópicos a partir de bases textuais não-rotuladas, selecionando os atributos mais representativos em uma coleção de textos. Os resultados das avaliações mostram que não há diferença estatística significativa entre os métodos não-supervisionados de seleção de atributos comparados. Além disso, comparações desses métodos não-supervisionados com outros supervisionados (Razão de Ganho e Ganho de Informação) apontam que é possível utilizar os métodos não-supervisionados em atividades supervisionadas de Mineração de Textos, obtendo eficiência compatível com os métodos supervisionados, dado que não detectou-se diferença estatística nessas comparações, e com um custo computacional menor / Feature selection is an activity sometimes necessary to obtain good results in machine learning tasks. In Text Mining, reducing the number of features in a text base is essential for the effectiveness of the process and the comprehensibility of the extracted knowledge, since it deals with high dimensionalities and sparse contexts. When dealing with contexts in which the text collection is not labeled, unsupervised methods for feature reduction have to be used. However, there aren\'t any general predefined feature quality measures for unsupervised methods, therefore demanding a higher effort for its execution. So, this work broaches the unsupervised feature selection through an exploratory study of methods of this kind, comparing their efficacies in the reduction of the number of features in the Text Mining process. Ten methods are compared - Ranking by Term Frequency, Ranking by Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Luhn\'s Method, LuhnDF Method, Salton\'s Method and Zone-Scored Term Frequency - and two of them are proposed in this work - LuhnDF Method and Zone-Scored Term Frequency. The evaluation process is done in two ways, supervised, through the accuracy measure of four classifiers (C4.5, SVM, KNN and Naïve Bayes), and unsupervised, using the Expected Mutual Information Measure. The evaluation results are submitted to the statistical test of Kruskal-Wallis in order to determine the statistical significance of the performance difference of the different feature selection methods. Six text bases are used in the experimental evaluation, each one related to one domain and containing sub domains, which correspond to the classes used for supervised evaluation. Through this study, this work aims to contribute with a Text Mining application that extracts topic taxonomies from unlabeled text collections, through the selection of the most representative features in a text collection. The evaluation results show that there is no statistical difference between the unsupervised feature selection methods compared. Moreover, comparisons of these unsupervised methods with other supervised ones (Gain Ratio and Information Gain) show that it is possible to use unsupervised methods in supervised Text Mining activities, obtaining an efficiency compatible with supervised methods, since there isn\'t any statistical difference the statistical test detected in these comparisons, and with a lower computational effort Aprendizado de máquina Aprendizado não-supervisionado Feature selection Machine learning Mineração de textos Seleção de atributos Text mining Unsupervised learning
152	MANIAC: uma metodologia para o monitoramento automatizado das condições dos pavimentos utilizando VANTs / MANIAC: a methodology for automated monitoring of the condition of pavements using UAVs Branco, Luiz Henrique Castelo 07 November 2016 (has links) Sistemas de Transportes Inteligentes (STIs) englobam um conjuntos de tecnologias (Sensoriamento Remoto, Tecnologia da Informação, Eletrônica, Sistemas de Comunicação de Dados entre outros) que visam oferecer serviços e gerenciamento de tráfego avançado para meios de transporte rodoviário, aéreo e outros. A obtenção de informações a respeito das características e das condições do pavimento das estradas constitui uma parte importante dentro do sensoriamento nesses STIs. Investigar novas técnicas, metodologias e meios de automatizar a obtenção dessas informações é parte deste trabalho. Uma vez que existem diferentes tipos de defeitos em vias pavimentadas, esta tese apresenta a proposta de uma metodologia que permite a obtenção, de forma automática, das condições dos pavimentos asfálticos. A obtenção dos dados foi realizada por meio do Sensoriamento Remoto com uso de Veículos Aéreos Não Tripulados. A utilização de técnicas de Aprendizado de Máquina na detecção automática possibilitou alcançar uma acurácia de 99% na detecção de pavimentos asfálticos flexíveis e 92% na identificação de defeitos em alguns experimentos. Como resultado obteve-se o diagnóstico automático, não só das condições da via, mas de diferentes tipos de defeitos presentes em pavimentos. / Intelligent Transport Systems (ITS) is a set of integrated technologies (Remote Sensing, Information Technology, Electronics, Data Communication Systems among others) that aims to provide services and advanced traffic management for road, air, rail and others transportation systems. Obtaining information about characteristics and road pavement conditions is an important part within the sensing these ITS. Investigating new techniques, methods and means to optimize and automate obtaining these information are part of this work, since there are different types of defects on paved roads. Thus, this thesis proposes a methodology that allows automatically obtain information about the condition of the pavement. Data collection was performed with remote sensing technology using Unmanned Aerial Vehicles. Automatic detection was possible through the use of Machine Learning techniques with 99% of accuracy in pavements and 92% in distress identification. As a result we obtained the self-diagnosis, not just the pavement, but different types of distress present in the pavement. Aprendizado de máquina Flexible pavement Machine learning Pavimento flexível asfáltico UAVs Unmanned aerial vehicles Veículo aéreo não tripulado
153	Uma nova abordagem energética da mobilidade urbana / A New Energy Approach to Urban Mobility Wermersch, Fabio Glauco 29 August 2018 (has links) A motivação desse trabalho se dá pelo impacto negativo ao meio ambiente dos sistemas de transporte urbano, devido ao consumo de energia. Com o objetivo de encontrar diretrizes sustentáveis para a melhor prática de mobilidade urbana, em termos de consumo de energia, foi desenvolvida uma nova abordagem, utilizando dados desagregados de viagens intraurbanas em 8 regiões metropolitanas mundiais, provenientes de redes sociais digitais. Para a atribuição do modo de transporte utilizado nas viagens nessas oito diferentes localidades, coletadas das redes sociais, foram empregados algoritmos de Aprendizado de Máquina ajustados a dados mesclados de duas pesquisas origem-destino, a de Londres e a de São Paulo. A cidade de menor consumo de energia devido à mobilidade urbana foi Nova Iorque e a de maior consumo foi Los Angeles. Da análise espacial conduzida constatou-se a existência de relação entre a densidade de locais da cidade e a energia média consumida em viagens para esses locais. Também se constatou a predominância da característica urbana de monocentrismo associado a abrangente rede de transporte rápido de massa como diretrizes sustentáveis da melhor prática observada, a cidade de Nova Iorque. Entretanto, apenas o monocentrismo tomado isoladamente pode não ter relação a um menor consumo energético devido à mobilidade urbana, uma vez que se observou o policentrismo na terceira cidade de menor consumo energético, Rio de Janeiro, dentre as oito enfocadas. Para fins de planejamento urbano, o ferramental desenvolvido neste estudo, com uso de dados provenientes de redes sociais, demonstra - de modo mais ágil e barato que as convencionais pesquisas o-d - a possibilidade de obtenção de bases de dados similares às pesquisas origem-destinos convencionais em localidades distantes onde não existem tais pesquisas o-d ou tais pesquisas não sejam fornecidas. Ainda, a observação sobre como se dá a distribuição espacial do consumo de energia devido à mobilidade urbana sobre a área de uma cidade, distribuição com fina granularidade espacial e vinculada a reais deslocamentos observados no espaço urbano - como a que foi propiciada com o ferramental desenvolvido neste estudo -, abre possibilidade a diversas análises de impactos e melhorias de implantação e/ou alteração de facilidades de transportes no ambiente construído. / The motivation of this work is the negative impact to the environment of the urban transport systems due to the consumption of energy. With the objective of finding sustainable guidelines for the best urban mobility practice in terms of energy consumption, a new approach was developed, using disaggregated intra-urban travel data in 8 metropolitan regions worldwide, from digital social networks. For the attribution of the transport mode used in the trips in these eight different locations, collected from the social networks, Machine Learning algorithms were adjusted to the data merged from two origin-destination surveys, London and São Paulo. The city with the lowest energy consumption due to urban mobility was New York and the one with the highest consumption was Los Angeles. From the spatial analysis conducted, it was verified the existence of a relation between the density of localities of the city and the average energy consumed in trips to these places. It was also verified the predominance of the urban characteristic of monocentrism associated with the comprehensive network of fast mass transport as sustainable directions of the best observed practice, the city of New York. However, only isolated monocentrism may not be related to lower energy consumption due to urban mobility, since polycentrism was observed in the third city of lower energy consumption, Rio de Janeiro, among the eight focused. For urban planning purposes, the tool developed in this study, using data from social networks, demonstrates - in a more agile and inexpensive way than conventional surveys o-d - the possibility of obtaining databases similar to conventional origin-destination surveys in distant locations where no such surveys exist, or such surveys are not provided. Also, the observation about the spatial distribution of energy consumption due to urban mobility over the area of a city, distribution with fine spatial granularity and linked to actual displacements observed in urban space - such as that provided with the developed tooling in this study - opens the possibility to several analyses of impacts and improvements of implantation and / or alteration of transport facilities in the built environment. Análise Espacial Aprendizado de Máquina City Planning Energia Energy Machine Learning Mobilidade Urbana Planejamento das Cidades Spatial Analysis Urban Mobility
154	Extração automática de termos simples baseada em aprendizado de máquina / Automatic simple term extraction based on machine learning Laguna, Merley da Silva Conrado 06 May 2014 (has links) A Mineração de Textos (MT) visa descobrir conhecimento inovador nos textos não estruturados. A extração dos termos que representam os textos de um domínio é um dos passos mais importantes da MT, uma vez que os resultados de todo o processo da MT dependerão, em grande parte, da qualidade dos termos obtidos. Nesta tese, considera-se como termos as unidades lexicais realizadas para designar conceitos em um cenário tematicamente restrito. Para a extração dos termos, pode-se fazer uso de abordagens como: estatística, linguística ou híbrida. Normalmente, para a Mineração de Textos, são utilizados métodos estatísticos. A aplicação desses métodos é computacionalmente menos custosa que a dos métodos linguísticos, entretanto seus resultados são geralmente menos interpretáveis. Ambos métodos, muitas vezes, não são capazes de identificar diferenças entre termos e não-termos, por exemplo, os estatísticos podem não identificar termos raros ou que têm a mesma frequência de não-termos e os linguísticos podem não distinguir entre termos que seguem os mesmo padrões linguísticos dos não-termos. Uma solução para esse problema é utilizar métodos híbridos, de forma a combinar as estratégias dos métodos linguísticos e estatísticos, visando atenuar os problemas inerentes a cada um deles. Considerando as características dos métodos de extração de termos, nesta tese, foram investigados métodos estatísticos, formas de obtenção de conhecimento linguístico e métodos híbridos para a extração de termos simples - aqueles constituídos de somente um radical, com ou sem afixos - na língua portuguesa do Brasil. Quatro medidas estatísticas (tvq, tv, tc e comGram), originalmente utilizadas em outras tarefas, foram avaliadas na extração de termos simples, sendo que duas delas (tvq e tv) foram consideradas relevantes para essa tarefa. Quatro novas medidas híbridas (n_subst., n_adj., n_po e n_verbo) foram propostas, sendo que três delas (n_subst,. n_adj., e n_po) auxiliaram na extração de termos. Normalmente os métodos de extração de termos selecionam candidatos a termos com base em algum conhecimento linguístico. Depois disso, eles aplicam a esses candidatos medidas ou combinação de medidas (e/ou heurísticas) para gerar um ranking com tais candidatos. Quanto mais ao topo desse ranking os candidatos estão, maior a chance de que eles sejam termos. A escolha do liminar a ser considerado nesse ranking é feita, em geral de forma manual ou semiautomática por especialistas do domínio e/ou terminólogos. Automatizar a forma de escolha dos candidatos a termos é a primeira motivação da extração de termos realizada nesta pesquisa. A segunda motivação desta pesquisa é minimizar o elevado número de candidatos a termos presente na extração de termos. Esse alto número, causado pela grande quantidade de palavras contidas em um corpus, pode aumentar a complexidade de tempo e os recursos computacionais utilizados para se extrair os termos. A terceira motivação considerada nesta pesquisa é melhorar o estado da arte da extração automática de termos simples da língua portuguesa do Brasil, uma vez que os resultados dessa extração (medida F = 16%) ainda são inferiores se comparados com a extração de termos em línguas como a inglesa (medida F = 92%) e a espanhola (medida F = 68%). Considerando essas motivações, nesta tese, foi proposto o método MATE-ML (Automatic Term Extraction based on Machine Learning) que visa extrair automaticamente termos utilizando técnicas da área de aprendizado de máquina. No método MATE-ML, é sugerido o uso de filtros para reduzir o elevado número de candidatos a termos durante a extração de termos sem prejudicar a representação do domínio em questão. Com isso, acredita-se que os extratores de termos podem gerar listas menores de candidatos extraídos, demandando, assim , menos tempo dos especialistas para avaliar esses candidatos. Ainda, o método MATE-ML foi instanciado em duas abordagens: (i) ILATE (Inductive Learning for Automatic Term Extraction), que utiliza a classificação supervisionada indutiva para rotular os candidatos a termos em termos e não termos, e (ii) TLATE (Transductive Learning for Automatic Term Extraction), que faz uso da classificação semissupervisionada transdutiva para propagar os rótulos dos candidatos rotulados para os não rotulados. A aplicação do aprendizado transdutivo na extração de termos e a aplicação ao mesmo tempo de um conjunto rico de características de candidatos pertencentes a diferentes níveis de conhecimento - linguístico, estatístico e híbrido também são consideradas contribuições desta tese. Nesta tese, são discutidas as vantagens e limitações dessas duas abordagens propostas, ILATE e TLATE. Ressalta-se que o uso dessas abordagens alcança geralmente resultados mais altos de precisão (os melhores casos alcançam mais de 81%), altos resultados de cobertura (os melhores casos atingem mai de 87%) e bons valores de medida F (máximo de 41%) em relação aos métodos e medidas comparados nas avaliações experimentais realizadas considerando três corpora de diferentes domínios na língua portuguesa do Brasil / Text Mining (TM) aims at discovering innovating knowledge in unstructured texts. The extraction of terms that represent that texts of a specific domain is one of the most important steps of TM, since the results of the overall TM process will mostly depend on the quality of these terms. In this thesis, we consider terms as lexical units used to assign concepts in thematically restricted scenarios. The term extraction task may use approaches such as: statistical, linguistic, or hybrid. Typically, statistical methods are the most common for Text Mining. These methods are computationally less expensive than the linguistic ones, however their results tend to be less human-interpretable. Both methods are not often capable of identifying differences between terms and non-terms. For example, statistical methods may not identify terms that have the same frequency of non-terms and linguistic methods may not distinguish between terms that follow the same patterns of non-terms. One solution to this problem is to use hybrid methods, combining the strategies of linguistic and ststistical methods, in order to attenuate their inherent problems. Considering the features of the term extraction methods, in this thesis, we investigated statistical melhods, ways of obtaining linguistic knowledge, and hybrid methods for extracting simple terms (only one radical, with or without the affixes) for the Braziian Portuguese language. We evaluated, in term extraction, four new hybrid measures (tvq, tv, and comGram) originally proposed for other tasks; and two of them (tvq and tv) were considered relevant for this task. e proposed four new hybrid measures(n_subs., n_adj., n_po, and n_verb); and there of them (n_subst., n_adj., and n_po) were helpful in the term extraction task. Typically, the extraction methods select term candidates based on some linguistic knowledge. After this process, they apply measures or combination of measures (and/or heuristics) to these candidates in order to generate a ranking. The higher the candidates are in the ranking, the better the chances of being terms. To decide up to which position must be considered in this ranking normally, a domain expert and/or terminologist manually or semiautomatically analyse the ranking. The first motivation of this thesis is to automate how to choose the candidates during the term extraction process. The second motivation of this research is to minimize the high number of candidates present in the term extraction. The high number of candidate, caused by the large amount of words in a corpus, could increase the time complexity and computational resources for extracting terms. The third motivation considered in this research is to improve the state of the art of the automatic simple term extraction for Brazilian Portuguese since the results of this extraction (F-measure = 16%) are still low when compared to other languages like English (F-measure = 92%) and Spanish (F-measure =68%). Given these motivations, we proposed the MATE-ML method (Automatic Term Extraction Based on Machine Learning), which aims to automatically extract simple terms using the machine learning techniques. MATE-ML method suggests the use of filters to reduce the high number of term candidates during the term extraction task without harming the domain representation. Thus, we believe the extractors may generate smaller candidate lists, requiring less time to evaluate these candidates. The MATE-ML method was instantiated in two approaches.: (i) ILATE (Inductive Learning for Automatic Term Extraction),. which uses the supervised inductive classification to label term candidates, and (ii) TLATE (Trnasductive Learning for Automatic Term Extraction), which uses transductive semi-supervised classification to propagate the classes from labeled candidates to unlabeled candidates. Using transductive learning in term extraction and using, at the same time, a rich set of candidate features belonging to different levels of knowledge (linguistic,statistical, and hybrid) are also considered as contributions. In this thesis, we discuss the advantages and limitations of these two proposed approaches. We emphasize taht the use of these approaches usually with higher precision (the best case is above of 81%), high coverage results (the best case is above of 87%), and good F-measure value (maximum of 41%) considering three corpora of different domains in the Brazilian Portuguese language Aprendizado de máquina Automatic term extraction Conhecimento linguístico estatístico e híbrido Extração automática de termos Linguistic Machine learning statistical statistical and hybrid
155	Detecção de faltas: uma abordagem baseada no comportamento de processos / Fault detection an approach based on process behavior Pereira, Cássio Martini Martins 25 March 2011 (has links) A diminuição no custo de computadores pessoais tem favorecido a construção de sistemas computacionais complexos, tais como aglomerados e grades. Devido ao grande número de recursos existentes nesses sistemas, a probabilidade de que faltas ocorram é alta. Uma abordagem que auxilia a tornar sistemas mais robustos na presença de faltas é a detecção de sua ocorrência, a fim de que processos possam ser reiniciados em estados seguros, ou paralisados em estados que não ofereçam riscos. Abordagens comumente adotadas para detecção seguem, basicamente, três tipos de estratégias: as baseadas em mensagens de controle, em estatística e em aprendizado de máquina. No entanto, elas tipicamente não consideram o comportamento de processos ao longo do tempo. Observando essa limitação nas pesquisas relacionadas, este trabalho apresenta uma abordagem para medir a variação no comportamento de processos ao longo do tempo, a fim de que mudanças inesperadas sejam detectadas. Essas mudanças são consideradas, no contexto deste trabalho, como faltas, as quais representam transições indesejadas entre estados de um processo e podem levá-lo a processamento incorreto, fora de sua especificação. A proposta baseia-se na estimação de cadeias de Markov que representam estados visitados por um processo durante sua execução. Variações nessas cadeias são utilizadas para identificar faltas. A abordagem proposta é comparada à técnica de aprendizado de máquina Support Vector Machines, bem como à técnica estatística Auto-Regressive Integrated Moving Average. Essas técnicas foram escolhidas para comparação por estarem entre as mais empregadas na literatura. Experimentos realizados mostraram que a abordagem proposta possui, com erro \'alfa\' = 1%, um F-Measure maior do que duas vezes o alcançado pelas outras técnicas. Realizou-se também um estudo adicional de predição de faltas. Nesse sentido, foi proposta uma técnica preditiva baseada na reconstrução do comportamento observado do sistema. A avaliação da técnica mostrou que ela pode aumentar em até uma ordem de magnitude a disponibilidade (em horas) de um sistema / The cost reduction for personal computers has enabled the construction of complex computational systems, such as clusters and grids. Because of the large number of resources available on those systems, the probability that faults may occur is high. An approach that helps to make systems more robust in the presence of faults is their detection, in order to restart or stop processes in safe states. Commonly adopted approaches for detection basically follow one of three strategies: the one based on control messages, on statistics or on machine learning. However, they typically do not consider the behavior of processes over time. Observing this limitation in related researches, this work presents an approach to measure the level of variation in the behavior of processes over time, so that unexpected changes are detected. These changes are considered, in the context of this work, as faults, which represent undesired transitions between process states and may cause incorrect processing, outside the specification. The approach is based on the estimation of Markov Chains that represent states visited by a process during its execution. Variations in these chains are used to identify faults. The approach is compared to the machine learning technique Support Vector Machines, as well as to the statistical technique Auto-Regressive Integrated Moving Average. These techniques have been selected for comparison because they are among the ones most employed in the literature. Experiments conducted have shown that the proposed approach has, with error \'alpha\'= 1%, an F-Measure higher than twice the one achieved by the other techniques. A complementary study has also been conducted about fault prediction. In this sense, a predictive approach based on the reconstruction of system behavior was proposed. The evaluation of the technique showed that it can provide up to an order of magnitude greater availability of a system in terms of uptime hours Agrupamento Aprendizado de máquina Clustering Detecção de faltas Fault detection Fault prediction Fault tolerance Machine learning Predição de faltas Tolerância a faltas
156	Análise de expressões referenciais em corpus anotado da língua portuguesa Abreu, Sandra Collovini de 23 February 2005 (has links) Made available in DSpace on 2015-03-05T13:53:44Z (GMT). No. of bitstreams: 0 Previous issue date: 23 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A análise de expressões referenciais é fundamental na interpretação do discurso. A identificação de expressões correferentes é importante em diversas aplicações de Processamento da Linguagem Natural. Expressões referenciais podem ser usadas para introduzir entidades em um discurso ou podem fazer referência a entidades já mencionadas, podendo fazer uso de redução lexical, como em: “O Eurocenter oferece cursos de Japonês na bela cidade de Kanazawa. Os cursos têm quatro semanas de duração”. Onde “cursos de Japonês” introduz uma nova entidade e “os cursos” retomam essa entidade. A resolução de correferência é o processo de identificar as expressões que se referem à mesma entidade no discurso. As expressões referenciais são analisadas e a existência de um antecedente textual é verificada. Aquelas que introduzem novos elementos, chamamos novas no discurso. Esta dissertação apresenta um estudo das características de um tipo específico de expressões referenciais (descrições definidas) com o objetivo de identi Ciências Exatas e da Terra aprendizado de máquina referenciais resolução de anáforas resolução de correferência expressões referenciais Inteligência artificial
157	Desenvolvimento de uma instrumentação de captura de imagens in situ para estudo da distribuição vertical do plâncton / Development of an in situ image capture instrumentation to study the vertical distri bution of plankton Maia Gomes Medeiros 18 December 2017 (has links) Desenvolveu-se, pela Universidade de São Paulo, o protótipo de um equipamento submersível de captura para estudo de plâncton. Baseado na técnica shadowgraph, é formado por um feixe de LED infravermelho colimado e uma câmera de alta resolução, executados por um sistema de controle automatizado. Foram utilizados softwares de visão computacional desenvolvidos pelo Laboratório de Sistemas Planctônicos (LAPS) que executam várias tarefas, incluindo a captura e segmentação de imagens e a extração de informações com o intuito de classificar automaticamente novos conjuntos de regiões de interesse (ROIs). O teste de aprendizado de máquina contou com 57 mil quadros e 230 mil ROIs e teve, como base, dois algoritmos de classificação: o Support Vector Machine (SVM) e o Random Forest (RF). O conjunto escolhido para o treinamento inicial continha 15 classes de fito e zooplâncton, às quais foi atribuído um subconjunto de 5 mil ROIs. Os ROIs foram separados em grandes classes de, pelo menos, 100 ROIs cada. O resultado, calculado por meio do algoritmo de aprendizagem RF e SVM e fundamentado no método de validação cruzada, teve uma precisão de 0,78 e 0,79, respectivamente. O conjunto de imagens é proveniente de Ubatuba, no estado de São Paulo. Os perfis verticais elaborados apresentaram diferentes padrões de distribuição de partículas. O instrumento tem sido útil para a geração de dados espacialmente refinados em ecossistemas costeiros e oceânicos. / The University of São Paulo developed an underwater image capture system prototype to study plankton. Based on the shadowgraphic image technique, the system consists of a collimated infrared LED beam and a high-resolution camera, both executed by an automated control system. Computer vision software developed by the research laboratory was used to perform various tasks, including image capturing; image segmentation; and extract information to automatic classify news regions of interest (ROIs). The machine learning test had 57,000 frames and 230,000 ROIs, based on two classification algorithms: Support Vector Machine (SVM) and Random Forest (RF). The chosen set of the initial training had 15 classes of phytoplankton and zooplankton, which was assigned a subset of 5,000 ROIs. Big classes of, at least, 100 ROIs each were organized. The result, calculated by the RF and SVM learning algorithm and based on the cross-validation method, had a 0.78 and 0.79 precision score, respectively. The image package comes from Ubatuba, in the state of São Paulo. The vertical profiles elaborated presented different particles distribution patterns. The instrument has been useful for spatially refined data generation in coastal and oceanic ecosystems. aprendizado de máquina automatização câmera desenvolvimento de software imageamento partículas zooplâncton automation camera imaging learning machine particles software development zooplankton
158	Influência das características mecânicas da entressola e da estrutura do cabedal de calçados esportivos na percepção do conforto e na biomecânica da corrida / Influence of mechanical characteristics of midsale and upper structure af running shaes in the comjort and biamechanics ot running Onodera, Andrea Naomi 26 August 2016 (has links) o presente estudo teve por objetivo investigar a influência de duas diferentes resiliências de materiais de amortecimento e de dois tipos de cabedais de calçados esportivos na cinemática e cinética de membro inferior e na percepção do conforto durante a corrida. Também investigamos as possíveis relações entre o conforto percebido e as variáveis biomecânicas capturadas. Para tal, foram avaliados 42 corredores recreacionais adultos, com no mínimo de um ano de experiência em corrida de rua, com mínimo de dois treinos regulares por semana, e com volume de treino semanal superior a 5 km. Foram avaliadas quatro condições de calçados aleatorizadas para cada corredor (material de amortecimento de baixa resiliência e cabedal estruturado, material amortecimento de alta resiliência e cabedal estruturado, material de amortecimento de baixa resiliência e cabedal minimalista, e material amortecimento de alta resiliência e cabedal minimalista). Após avaliação antropométrica e postural do complexo tornozelo/pé, os corredores realizaram corridas em uma pista de 25 metros em laboratório. A avaliação biomecânica foi realizada usando seis câmeras infravermelhas (VICON T-40, Oxford, UK) a 300 Hz, sincronizadas a duas plataformas de força (AMTI BP-600600, Watertown, USA) para aquisição da força reação do solo a 1200 Hz, e palmilhas instrumentas com sensores capacitivos (Pedar X System, Novel, Munique, Alemanha) a 100 Hz. A percepção subjetiva de conforto em cada condição foi avaliada por meio de um questionário de conforto para calçados. As comparações estatísticas entre os calçados foram verificadas por meio de análises de variância (ANOVAs) para medidas repetidas, e correlação de Pearson para verificar as relações entre o conforto e as variáveis biomecânicas (a=O,05). Realizou-se uma análise de Machine Learning para capturar variáveis da série temporal completa das curvas de cinemática e cinética que discriminassem os calçados estudados. Construímos uma matriz de entrada nas dimensões 1080 x 1242 para a análise por Machine learning. Os resultados demonstram que há uma interação entre as condições de cabedal e material de amortecimento que faz com que as comparações de resiliência se comportem de forma distinta para cabedais minimalistas e para cabedais estruturados. Contrariamente ao esperado, para os calçados de cabedal estruturado, as resiliências não foram diferentes entre si, e para o cabedal minimalista, os corredores apresentaram impactos mais altos com o material de baixa resiliência. A estrutura de cabedal influenciou a absorção de impacto, onde o cabedal minimalista apresentou impactos mais altos que o cabedal estruturado. Sobre o conforto, a condição de cabedal minimalista e material de baixa resiliência obteve as piores notas em cinco de nove quesitos do questionário. Em alguns quesitos ele foi o pior avaliado dentre todas as demais condições (como no amortecimento do calcanhar e no conforto geral). O cabedal minimalista recebeu pior avaliação que os cabedais estrutura dos no quesito controle médio-lateral da avaliação de conforto. Observou-se que a correlação entre as variáveis biomecânicas e as variáveis de conforto considerando todos os calçados conjuntamente, apesar de apresentarem valores significativos para algumas associações, foram sempre correlações fracas, abaixo de 30%. Ao se analisar cada condição de calçado isoladamente, em algumas se observou correlação moderada entre as variáveis biomecânicas e o conforto (r >31%, p < O,05), o que não se verificou em outras condições de calçados. Cada calçado gera condições particulares que favorecem ou não a associação entre conforto e repostas biomecânicas. Sobre a análise de Machine Learning, a metodologia foi capaz de diferenciar com sucesso os dois materiais de resiliência diferentes utilizando 200 (16%) variáveis biomecânicas disponíveis com uma precisão de 84,8%, e os dois cabedais com uma precisão de 93,9%. A discriminação da resiliência da entressola resultou em níveis de acurácia mais baixos do que a discriminação dos cabedais de calçados. Em ambos os casos, no entanto, as forças de reação do solo estavam entre as 25 variáveis mais relevantes. As 200 variáveis mais relevantes que discriminaram as duas resiliências estavam distribuídas em curtas janelas de tempo, ao longo de toda série temporal da cinemática e força. Estas janelas corresponderam a padrões individuais de respostas biomecânicas, ou a um grupo de indivíduos que apresentaram as mesmas respostas biomecânicas frente aos diferentes materiais de amortecimento. Como conclusão, destacamos que o cabedal tem maior influência que o material de amortecimento quando se trata da biomecânica da corrida e conforto subjetivo. Nos cabedais estruturados, a resiliência do material da entressola não diferenciou a biomecânica da corrida. A resiliência do material de amortecimento causa efeitos importantes sobre o impacto do calcanhar (menores loading rate, frequência mediana, pico de pressão em retropé) durante a corrida em cabedais com pouca estrutura. Alterações biomecânicas devido à resiliência do material de amortecimento parecem ser dependentes do sujeito, enquanto as relacionadas à estrutura de cabedal parecem ser mais sujeito independente. Sugere-se ter cautela ao afirmar que um calçado mais confortável também gerará respostas positivas biomecânicas, pois as associações entre essas variáveis analisando todos os calçados conjuntamente foram sempre correlações fracas. As correlações moderadas e particulares de cada condição de calçado com determinadas variáveis de conforto nos levam a concluir que os materiais aplicados nos calçado favorecem mais ou menos a percepção de determinada característica de conforto / The aim of this study was to investiga te the influence of two cushioning materiais with different resiliencies and two types of uppers of sportive shoes on kinematics and kinetics of lower limb and on the subjective perception of comfort during running. We also investigated the potential relationship between the perceived comfort and biomechanical variables analyzed. For this purpose, 42 adult recreational runners were evaluated. lhey had at least one year of experience on running, minimum of two regular running workouts per week, and weekly training volume above 5 km. We evaluated four randomized shoes conditions for each athlete (Iow resilience cushioning material and structured upper, high resilience cushioning material and structured upper, low resilience cushioning material and minimalist upper, and high resilience cushioning material and minimalist upper). After anthropometric and postura I assessment of the foot/ankle complex, runners held trials on a 25 meters long indoor track. Biomechanical data were collected by six infrared cameras (VICON l-40, Oxford, UK) at 300 Hz, synchronized with two force platforms (AMll BP-600600, Watertown, USA) at 1200Hz, and in- shoe plantar pressure insoles (Pedar X System, Nove\" Munich, Germany) at 100 Hz. Subjective perception of comfort in each shoe condition was assessed by a questionnaire of footwear comfort. lhe statistical comparisons between the shoes were verified by analysis of variance (ANOVA) for repeated measures and Pearson\'s correlation to verify the relationship between comfort and biomechanical variables (a=0.05). We conducted a Machine Learning analysis to capture variables from the complete kinematics and kinetics time series, which would be able to discriminate the studied footwear. We build an input matrix in the dimensions of 1080 x 1242 for Machine Learning analysis. There was an interaction between the upper structure and the resilience of cushioning material that made comparisons between resiliencies to behave differently for minimal uppers and for structured uppers. Contrary to expectation, for structured uppers, resiliencies were not different from each other, and for the minimal upper, runners had higher impact with the low-resilience material. lhe upper structure influenced the absorption of impact, in which the minimalist upper presented higher impacts than the structured upper. About comfort, minimalist upper condition and low resilience materiais had the worst grades for five of nine questions of the questionnaire. In some questions it was the worst of ali conditions (such as for the comfort in the heel cushioning and overall comfort). lhe minimalist upper received worse assessment than the structured uppers in the question about the mediolateral control. It was observed that the correlation between biomechanical variables and comfort, considering ali shoe conditions together, despite having significant values for some correlations were weak correlations (r <30%, p <0.05). When each shoe condition is analyzed alone, some footwear conditions had moderate correlation between comfort and biomechanical variables (r >31%, p <0.05L although the same behavior was not observed in other shoe conditions. Each shoe represents a specific condition that favor or not the association between comfort and biomechanical responses. On Machine Learning analysis, the method was able to successfully distinguish between the two different resiliencies using 200 (16%) of available biomechanical variables with an accuracy of 84.8%, and between the 2 uppers with an accuracy of 93.9 %. Discrimination of the resiliencies resulted in lower levels of accuracy than the discrimination of shoe uppers. In both cases, however, the ground reaction forces were among the 25 most important features. The 200 most relevant features which discriminate the two resiliencies were distribuited in short time windows along the kinematic and force time series. These windows corresponded to individual biomechanical patterns, or patterns of a group of people with similar behavior. In conclusion, we emphasize that the upper has greater influence than the resilience of cushioning material when it is about biomechanics of running and subjective comfort of the shoes. In structured uppers, the biomechanics did not differenciate the resiliencies of the midsole materiais. The resilience of the cushioning material has important effects on the heel impact (Iower loading rate, median frequency, peak pressure in rearfoot) during running on shoes with little structure on the upper. Biomechanical changes due to the resilience of the cushioning material seems to be dependent on the subject, while related to the upper structure seems to be more independent of the subject. It is suggested to be cautious to affirm that more comfortable footwear will also let to positive biomechanical responses. That is because the correlations between these variables when analyzing ali the footwear together were always weak. Moderate and positive correlations of each shoe condition with some of comfort variables lead us to conclude that the materiais applied on each footwear favors more or less the comfort perception Amortecimento Aprendizado de máquina supervisionada Biomechanical phenomena Corrida Damping Fenômenos biomecânicos Percepção Perception Pressão Pressure Running Sapatos Shoes Supervised machine learning
159	Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1 / In Silico identification of non-coding RNAs in Halobacterium salinarum NRC-1 model archeon organism Marcos Abraão de Souza Fonseca 25 April 2016 (has links) A regulação da expressão gênica ocorre como um fenômeno essencial nos processos celulares em resposta a dinamicidade mútua estabelecida entre um organismo e seu meio. Além dos elementos reguladores já conhecidos, como fatores de transcrição ou modificações pós-transcricionais, observa-se um crescente interesse no papel de regulação desempenhado por moléculas de RNA não codificadores (ncRNA), que podem atuar em vários níveis de processamento da informação biológica. Organismos modelos oferecem uma forma conveniente de pesquisa e diferentes grupos buscam direcionar seus estudos para um entendimento mais amplo no que se refere aos mecanismos celulares presentes nesses organismos. Apesar da existência de alguns elementos conhecidos para o organismo modelo Halobacterium salinarum, acreditamos que nem todos seus elementos de ncRNAs foram identificados. Nesse contexto, desenvolvemos uma análise in silico para a identificação de novos ncRNAs em H. salinarum NRC-1 e aplicamos metodologias para a predição de possíveis interações RNA-Proteína. Com base em uma pespectiva de integração de dados e diferentes metodologias existentes, modelos de Aprendizado de Máquina (AM) foram criados e utilizados para a definição de regiões candidatas a ncRNAs. De acordo com os resultados, 42 novos ncRNAs puderam ser identificados e possibilitaram completar o catálogo de genes ncRNAs de H. salinarum NRC-1 e aumentar o universo conhecido destes em 82%. A análise dos resultados obtidos por outras abordagens disponíveis para a identificação de ncRNAs corroboram com alguns dos candidatos sugeridos neste trabalho. Adicionalmente, foram aplicados e avaliados métodos, também baseados em AM, para a identificação de candidatos à interação com a proteína de interesse LSm, presente no organismo em estudo, no intuito de incluir uma possível caracterização funcional de ncRNAs. Os resultados alcançados na aplicação metodologias para a predição de interações RNA-Proteína não foram suficientes para a criação de um modelo com predições de alto grau de acurácia porém, contribuem como estudos preliminares e discussões para o desenvolvimento de outras estratégias. / The gene expression regulation occurs on different cell levels in response to dynamics established between an organism and its environment. In addition to the regulatory elements already known, for instance, transcription factors or post-translation modifications, there is growing interests in the regulatory role played by non-coding RNA molecules (ncRNA) whose functions can be performed on different level of biological information processing. Model organisms allow a convenient way to work on laboratory and different research groups aiming to guide their studies for a mutual and wide understanding of the cellular mechanisms present on these organisms. Although some ncRNAs elements have been found in Halobacterium salinarum model organism we believe that not enough is knowing about these genomic regions. In these context, an in silico analysis for ncRNAs identification and RNA-protein prediction approach were applied to H. salinarum NRC-1. Considering a data integration perspective and some available methodologies, several machine learning models was built and used to designate candidate ncRNAs genome regions. According to achieve results, 42 new ncRNAs could be identified, increasing 82% the total of known ncRNAs in H. salinarum NRC-1. Combing analysis with other available tools, it had been observed that some suggested candidates also was found with different methodologies and thus, it highlights the proposed results. Additionally, we developed and analyzed methods, also machine learning based, to predict ncRNAs candidates to interact with LSm protein, present on the interested model organism aiming a basic ncRNA characterization. The achieved results in this part was not satisfactory since the applied models were not substantially accurate predictions. However, we believe that these preliminary results can contribute with some discussions to new different approaches. Aprendizado de máquina Halobactrium salinarum Interação RNA-Proteína RNAs não-codificadores Halobacterium salinarum Machine learning Non-coding RNAs RNA-Protein interaction
160	Linguística e computação em diálogo para análise de textos e criação de atividades de leitura em língua inglesa / Dialogue between linguistics and computing to analyze texts and create reading activities in English José Lopes Moreira Filho 06 May 2015 (has links) A coleta e a exploração de corpora para a criação de atividades é um tema cada vez mais recorrente, uma vez que a prática visa a garantir materiais de ensino que privilegiam a língua em uso. A disponibilidade de instrumentação computacional para análise de corpora é enorme, assim como o seu potencial para o ensino de línguas. Apesar dos benefícios, o uso desses recursos ainda não é uma realidade para a maioria dos professores, principalmente fora do contexto acadêmico. Nesta tese, desenvolve-se um sistema de análise de textos e corpora e de criação automática de atividades de leitura e ensino de léxico-gramática em língua inglesa, com base na investigação das possibilidades de construção e exploração de corpora da Linguística de Corpus em diálogo com métodos e ferramentas de trabalho das áreas do Processamento de Línguas Naturais e Aprendizado de Máquina. Os objetivos da pesquisa estão relacionados a um estudo inicial que teve como produto final um software desktop para a preparação semiautomática de atividades de leitura em inglês, segundo o conceito de atividade-padrão, para facilitar a produção de materiais baseados em corpora. A proposta da tese concentra-se na automatização das análises linguísticas para a criação automática de atividades de ensino. Para tanto, a linguagem de programação Python, com a biblioteca Natural Language Toolkit (NLTK), foi utilizada na construção de módulos de análise de texto e corpora. Os principais corpora foram: a. o corpus de referência British National Corpus (BNC); b. o corpus de referência Floresta Sinta(c)tica do NLTK; c. o corpus de referência MacMorpho do NLTK; d. um corpus de estudo/treinamento com 135 textos de anúncios de emprego em inglês da Internet; e. um corpus de estudo/treinamento com 771 textos de divulgação científica das revistas eletrônicas Scientific American e NewScientist. A partir das análises automáticas programadas, foram criados modelos em XML, que extraem informações de texto e corpus para a criação de atividades. Uma interface gráfica foi desenhada para implementação do sistema, por meio das linguagens PHP, JavaScript, HTML e CSS, e disponibilizada online para a avaliação de possíveis usuários finais. A análise das avaliações mostrou-se positiva tanto em relação a aspectos da interface quanto a informações geradas pelo sistema. Os resultados obtidos no trabalho são significativos, pois sugerem que o sistema proposto, que permite a automatização de análises de texto e corpora para a criação automática de atividades didáticas de leitura e ensino de léxico-gramática em língua inglesa, apresenta um diferencial em relação a ferramentas disponíveis para análise de textos: fornece análises mais apuradas para a tarefa de elaboração de atividades didáticas, quando comparado, por exemplo, a programas como concordanciadores. Dentre as contribuições do trabalho, destacam-se o percurso do desenvolvimento do sistema como parte integrante da pesquisa, o diálogo entre as Humanidades a Linguística e a Língua Inglesa e as Ciências Exatas a Computação, com o Processamento de Línguas Naturais e o Aprendizado de Máquina , e a automatização de tarefas de análise de textos para fins de criação de materiais pedagógicos para o ensino de línguas. / Collecting and analyzing corpora in order to create activities is a topic that has risen by leaps and bounds, since practice is aimed at ensuring that the teaching material is focused on the language currently in use. There is a great amount of computer devices available for corpora analysis, and its potential for teaching languages is evident. Even though they present huge benefits, most of the teachers do not take advantage of these resources yet, chiefly when they do not take part in the academic environment. Through this thesis, a system for analysis of text and corpora and automatic creation of reading and English lexical-grammar teaching activities is developed, based on the investigation of possible ways of collecting and analyzing corpora from Corpus Linguistics, in partnership with methods and working tools related to Natural Language Processing and Machine Learning. The purpose for this research is related to an initial study that resulted in a desktop software that semi-automatically prepares reading activities in English, based on the standard-activity concept, in order to facilitate the creation of corpora-based material. This thesis puts forward the automatization of linguistic analyses so that teaching activities may be created automatically. For this purpose, the programming language Python, together with the Natural Language Toolkit (NLTK) library, was used for the creation of text-analysis and corpora modules. The main corpora used were: a. British National Corpus (BNC) reference corpus; b. Floresta Sinta(c)tica reference corpus from NLTK; c. MacMorpho reference corpus from NLTK; d. a study/training corpus with 135 texts of job announcements in English taken from the Internet; e. a study/training corpus with 771 texts of scientific disclosure of the following e-magazines: Scientific American and NewScientist. As from the scheduled automatic analyses, some XML models were created; they gather information about texts and corpus in order to create activities. A graphic interface was designed with the purpose of implementing the system by means of PHP, JavaScript, HTML and CSS languages and made available online, so that it could be evaluated by potential final users. The evaluations analysis had a positive outcome, both in relation to interface aspects and information provided by the system. The outcome of this work is meaningful, since this new system, which allows for the automatization of text and corpora analyses in order to create reading and English lexical-grammar activities, has a differential with regard to the tools available to analyze texts: it allows for more accurate analyses for the task of creating teaching activities, when it is compared, for instance, to softwares such as the concordance ones. Among the contributions to this work, it is important to highlight the system development process as an integral part of the research, the dialog between the Humanities Linguistics and English language and the Exact Sciences Computing, with the Natural Language Processing and the Machine Learning , as well as the automatization of text-analysis tasks in order to create teaching material for language teaching. Aprendizado de máquina Ensino de línguas Leitura Linguística de corpus Processamento de línguas naturais Corpus linguistics Language teaching Machine learning Natural language processing Reading

Search results