Global ETD Search

151	Using named entity recognition for relevance detection in social network messages Filipe Daniel da Gama Batista 10 August 2017 (has links) O crescimento contínuo das redes sociais ao longo da última década levou a que quantidades massivas de informação sejam geradas diariamente. Enquanto grande parte desta informação é de índole pessoal ou simplesmente sem interesse para a população em geral, tem-se por outro lado vindo a testemunhar cada vez mais a transmissão de notícias importantes através de redes sociais.Esta tese foca-se no estudo da relação entre entidades mencionadas numa publicação de rede social e a respetiva relevância jornalística dessa mesma publicação. Nesse sentido, este trabalho foi dividido em dois grandes objetivos: 1) implementar ou encontrar o melhor sistema de reconhecimento de entidades mencionadas (REM) para textos de redes sociais, e 2) analisar a importância de entidades extraídas de publicações como atributos para deteção de relevância com aprendizagem computacional.Apesar de já existirem diversas ferramentas para extração de entidades, a maioria destas ferramentas apresenta uma perda significativa de performance quando testada em textos de redes sociais, ao invés de textos formais. Isto deve-se essencialmente à informalidade característica deste tipo de textos, como por exemplo a ausência de contexto, pontuação desadequada, utilização errada de maiúsculas e minúsculas, a representação de emoticons com recurso a caracteres, erros gramáticos ou lexicais e até mesmo a utilização de diferentes línguas no mesmo texto. Para endereçar estes problemas, quatro ferramentas de reconhecimento de entidades - "Stanford NLP", "Gate" com "TwitIE", "Twitter NLP tools" e "OpenNLP" - foram testadas em "datasets" de redes sociais. Para além disso, tentamos compreender quão diferentes é que estas ferramentas eram, em termos de Precisão e "Recall" para 3 tipos de entidades (Pessoa, Local e Organização), e de que forma estas ferramentas se poderiam complementar de forma a obter um desempenho combinado superior ao de cada ferramenta utilizada individualmente, criando assim um Ensemble de ferramentas de REM. No seguimento da extração de entidades utilizando o Ensemble desenvolvido, diferentes atributos foram gerados baseados nestas entidades. Estes atributos incluíram o número de pessoas, locais e organizações mencionados numa publicação, estatísticas obtidas a partir da API pública do jornal "The Guardian", e foram também combinados com atributos baseados em "word embeddings". Vários modelos de aprendizagem foram treinados num "dataset" de tweets manualmente anotados. Os resultados obtidos das diferentes combinações de atributos, algoritmos, "hyperparameters" e "datasets" foram comparados e analisados. Os nossos resultados mostraram que utilizar um ensemble de ferramentas de NER pode melhorar o reconhecimento de certos tipos de entidades mencionadas, dependendo dos critérios de votação, e pode mesmo até melhorar a performance geral média dos tipos de entidades: Pessoa, Local e Organização. A análise de relevância mostrou que entidades mencionadas numa publicação podem de facto ser úteis na deteção da sua relevância, sendo não apenas uteis quando usadas isoladamente, tendo alcançado até 74% de AUC, mas também úteis quando combinadas com outros atributos como "word embeddings", tendo nesse caso alcançado um máximo de 94%, uma melhoria de 2.6% em relação a usar exclusivamente "word embeddings". / The continuous growth of social networks in the past decade has led to massive amounts of information being generated on a daily-basis. While a lot of this information is merely personal or simply irrelevant to a general audience, relevant news being transmitted through social networks is an increasingly common phenomenon, and therefore detecting such news automatically has become a field of interest and active research.The contribution of the present thesis consisted in studying the importance of named entities in the task of relevance detection. With that in mind, the goal of this work was twofold: 1) to implement or find the best named entity recognition tools for social media texts, and 2) to analyze the importance of extracted entities from posts as features for relevance detection with machine learning. There are already well-known named entity recognition tools, however, most state-of-the-art tools for named entity recognition show significant decrease of performance when tested on social media texts, in comparison to news media texts. This is mainly due to the informal character of social media texts: the absence of context, the lack of proper punctuation, wrong capitalization, the use of characters to represent emoticons, spelling errors and even the use of different languages in the same text. To address these problems, four different state-of-the-art toolkits - Stanford NLP, GATE with TwitIE, Twitter NLP tools and OpenNLP - were tested on social media datasets. In addition, we tried to understand how differently these toolkits predicted Named Entities, in terms of their precision and recall for three different entity types (Person, Location, Organization), and how they could complement each other in this task in order to achieve a combined performance superior to each individual one, creating an ensemble of toolkits.Following the extraction of entities using the developed Ensemble, different features were generated based on these entities. These features included the number of persons, locations and organizations mentioned in a post, statistics retrieved from The Guardian's open API, and were also combined with word embeddings features. Multiple machine learning models were then trained on a manually annotated datasets of tweets. The obtained performances of different combinations of selected features, ML algorithms, hyperparameters, and datasets, were analyzed. Our results showed that using an ensemble of toolkits can improve the recognition of specific entity types, depending on the criteria used for the voting, and even the overall performance average of the entity types Person, Location, and Organization. The relevance analysis showed that Named Entities can indeed be useful for relevance detection, proving to be useful not only when used alone, achieving up to 74% of AUC, but also helpful when combined with other features such as word embeddings, achieving a maximum AUC of 94%, a 2.6% improve over word embeddings alone.
152	Towards Interpretable Unbiased Behavioral Pattern Recognition Leonardo Castro Correia Machado 26 July 2018 (has links) No description available.
153	Automatic implementation of a re-configurable logic over ASIC design flow José Delfim Ribeiro Valverde 14 July 2017 (has links) A indústria semicondutora tem enfrentado desafios devido à evolução dos IC's para SoC, cujo design se encontra cada vez mais complexo. Assim, tem-se intensificado a necessidade de se efetuarem validações extensas dos circuitos, antes do processo de fabrico, de forma a assegurar um circuito produzido mais correto. Simultaneamente, com o intuito de dar resposta à atual procura de ciclos de produção mais rápidos, têm sido executados importantes testes de interoperabilidade no circuito final, em silicone. Contudo, destes testes poderão resultar erros inesperados, obrigando à completa recusa do chip produzido e à necessidade de se iniciar novamente todo o ciclo de produção, despendendo tempo e recursos extra. Uma das soluções para este tipo de problemas corresponde a substituir o circuito original, de lógica fixa, por um implementado em lógica reconfigurável. Ao recorrer a este tipo de arquiteturas, o designer fica habilitado a realizar pequenas alterações, localmente e em tempo útil, alterando algumas funcionalidades e corrigindo pequenos erros, resultantes dos testes de interoperabilidade efetuados em silicone. Assim sendo, os principais objetivos desta tese correspondem a estudar e desenvolver uma estrutura reconfigurável; criar um novo design flow que possa ser integrado num processo de trabalho de um IC designer e que possa ser utilizado em múltiplos projetos e tecnologias, criando uma arquitetura adaptável a diferentes implementações. / The available density and complexity on Integrated Circuits (IC) has been increasing, following the improvement of technologies to design and fabric ICs leading to a challenging evolution, in the complexity of digital ICs on SoC design, to the semiconductor industry. As so extensive validation prior to fabrication as become increasingly demanding to ensure design correctness of the produced circuit.At the same time, with the current demand for faster turnaround development cycles, major interoperability tests are already performed in actual silicon, as errors can result on testing , the disposal of the produced chip and the need to create a new production cycle results in time and resources wasting. One of the clear solutions to this problem is the replacement of the original fixed logic with a reprogrammable one.This type of architecture can empower the designer the ability to perform minor updates, on site, changing minor errors and adding some needed, minor, functionalities.The main objective of the thesis, is to study and develop a generic configurable hardware structure, and create a new design flow that can be integrated into the normal work of the IC developer, that can be used in multiple projects and technologies, to create an adaptable architecture suitable to different implementations.
154	Plataforma de comunicação multimédia para dispositivos de baixo custo com o uso de protocolos seguros Diogo Lima Monteiro Costa Leite 02 September 2014 (has links) Este projeto tem como finalidade o desenvolvimento de uma plataforma de comunicação multimédia. Consiste em permitir aos utilizadores realizarem comunicações de áudio e vídeo com outros utilizadores da mesma aplicação. Esta aplicação será implementada em um dispositivo de baixo-custo, um Raspeberry-Pi e terá apenas esse dispositivo como foco, tendo este um sistema operativo Linux. Assim, quem possuir um destes, poderá usar a aplicação para a realização de chamadas de voz e vídeo para outros utilizadores da mesma aplicação. O projecto será então focado no desenvolvimento de uma aplicação de comunicação multimédia, recorrendo aos melhores métodos de criptografia. Será importante garantir a segurança de toda a informação trocada e dos dados dos utilizadores, de modo a criar uma aplicação fiável que impeça o acesso a terceiros, garantindo assim que a informação permanece fidedigna e íntegra. A segurança é também essencial no que toca à comercialização e promoção do próprio produto, pois torna-o apetecível aos olhos do utilizador/consumidor. Durante o processo de desenvolvimento serão usados protocolos já existentes para a realização de comunicações multimédia sendo estes Session Initiation Protocol (SIP) e Secure Real-Time Transport Protocol(SRTP) com recurso ao algoritmo Diffie-Hellman(DH), sendo o primeiro necessário para a realização da fase de estabelecimento de sessão e o segundo para a transferência dos dados multimédia.
155	Autotuning de aplicações paralelas em sistemas heterogeneous João Alberto Trigo de Bordalo Morais 31 August 2017 (has links) Atualmente as plataformas computacionais têm vindo a evoluir na direção do elevado poder computacional, no entanto, estas requerem uma quantidade enorme de energia para atingir elevado desempenho individualmente.De modo a gerir este custo energético e manter a elevada performance, os computadores são construídos sobre a assunção de sistemas heterogéneos, isto é, computadores compostos por diferentes tipos de unidades de processamentos com diferentes funcionalidades, como por exemplo, CPU,GPU, Xeon Phi e FPGA.É neste sentido que os programadores devem tirar proveito de atividade paralela e escalonamento de tarefas recorrendo às várias partes que compõem o sistema heterogéneo.O problema incide sobre como atingir de forma eficiente o maior desempenho possível quando se corre uma aplicação de software, tirando o maior proveito dos sistemas heterogéneos e mantendo o nível de custo energético o mais baixo possível sem prejudicar o resultado e o desempenho da aplicação.Para solucionar este problema é esperado encontrar/criar um autotuner, ou pelo menos uma prova de conceito, que consegue atingir o melhor desempenho numa aplicação de software, aprimorando automaticamente o código da aplicação a um nível que take o melhor proveito do hardware disponível sem custos elevados de energia. Para tal, após o código criado, o programador correrá o autotuner e este irá aprimorar, automaticamente, o código para atingir o melhor desempenho.Este tipo de solução requer um processo de validação e métricas para assegurar que se está a fazer o trabalho corretamente e com resultados aceitáveis. Para tal, a ideia da validação do processo consiste em comparar o comportamento de três diferentes códigos: uma versão sequencial de um código; a versão deste mesmo código mas paralelizada por um perito; e a versão do código sequencial mas paralelizado automaticamente. As métricas que serão utilizadas para comprar estas três versões de código são as seguintes: poder de processamento; tempo de execução; número de acessos a memória; e custo energético.Com esta solução, as aplicações conseguiram atingir o seu melhor desempenho possível de forma automática e sobrecarregando menos os programadores a criarem código paralelo o que, consequentemente, poupar-lhes-á tempo. / Nowadays computational platforms have been evolving to the high computational power direction, however it requires a lot of energy to achieve such high performance with single but powerful processing unit.To manage this energy cost and keep with high performance, computers are built under the assumption of heterogeneous systems, in other words, computers that have different kind of processing units with different functions, such as CPU, GPU, Xeon Phi and FPGA. So, developers should take advantage of parallel activity and scheduling tasks by using the various parts of the heterogeneous systems.Now the problem is how to efficiently achieve the highest performance possible when running software applications by taking the most advantage of such heterogeneous systems and keeping the energy cost at the minimum level without jeopardizing the application performance and its results. Overall, the problem consists in the coexistence work of multicore, its parallelism and its shared cache problems; CPU and GPU parallelism and scheduling tasks; performance; and energy costs.For this problem's solution is expected to find/create an autotuner, or at least a concept proof, that can achieve the best performance in a software application by enhancing the application's code automatically in a level that takes the best benefit of the available hardware without elevated energy costs. To do so, after creating its code, the developer runs the autotuner and it will enhance, automatically, the code to get the best performance.This kind of solution requires some validation process and metrics to make sure that it is doing its work and with proper results. To do so, the idea of the process' validation is going to be about comparing the behaviour of three different codes: a version of a serialized code; a version of the same code but with an expert manually paralleling it; and a version of the serialized code but automatically parallelized. The metrics that will be used to compare these three code versions are the following: processing power; execution time; number of memory accesses; and energy consuming. With this solution, applications will achieve its highest performance possible in an automatic way and developers will have less burdened about creating parallel code, consequently, saving them time.
156	"Monitorização de parques solares fotovoltaicos" Pedro Filipe de Almeida Moreira 25 July 2017 (has links) No description available.
157	Teacher Assignment Problem at DEI Pedro Miguel Vieira da Câmara 05 September 2018 (has links) No description available.
158	HTML5-based Visualizations to Support Software Fault Isolation Carlos Miguel de Sousa Gouveia 23 August 2013 (has links) A fase de teste e depuração é a fase mais dispendiosa e propensa a erros no ciclo de desenvolvimento de software. A localização automatizada de falhas pode melhorar drasticamente a eficiência desta fase, melhorando assim a qualidade geral do software. Entre as técnicas mais bem conhecidas, dada a sua eficiência e eficácia, está a localização de falhas baseada no espetro. Neste projeto, propomos três visualizações dinâmicas baseadas em HTML5 para mostrar o relatório do diagnóstico resultante da localização de falhas baseadas no espetro. As visualizações propostas, de nome Sunburst, Vertical Partition e Bubble Hierarchy, foram implementadas dentro da ferramenta GZOLTAR, substituindo as visualizações anteriores e menos intuitivas baseadas em OpenGL. A ferramenta GZOLTAR é um plugin plug-and-play para o IDE Eclipse, para facilitar a adoção mundial. Por fim, fizemos um estudo de usabilidade com a ferramenta e confirmamos que as visualizações ajudam a reduzir drasticamente o tempo necessário para a depuração (p. e. todos os participantes que usaram as visualizações foram capazes de localizar a falha, enquanto que daqueles que usaram métodos tradicionais somente 35% encontraram a falha). O grupo que usou as visualizações utilizou em média menos 9 minutos e 17 segundos que aqueles que não as usaram. / Testing and debugging is the most expensive, error-prone phase in the software development life cycle. Automated software fault localization can drastically improve the efficiency of this phase, thus improving the overall quality of the software. Amongst the most well-known techniques, due to its efficiency and effectiveness, is spectrum-based fault localization. In this project, we propose three HTML5-based dynamic graphical forms to display the diagnostic reports yielded by spectrum-based fault localization. The visualizations proposed, namely Sunburst, Vertical Partition, and Bubble Hierarchy, have been implemented within the GZOLTAR toolset, replacing previous and less-intuitive OpenGL-based visualizations. The GZOLTAR toolset is a plug-and-play plugin for the Eclipse IDE to ease world-wide adoption. Finally, we performed an user study with GZOLTAR and confirmed that the visualizations help to drastically reduce the time needed in debugging (e.g., all participants using the visualizations were able to pinpoint the fault, whereas of those using traditional methods only 35% found the fault). The group that used the visualizations took on average 9 minutes and 17 seconds less than the group that did not use them.
159	DICOM Server: Aplicação para aquisição e encaminhamento automáticos de imagens médicas entre instituições de saúde Diogo Filipe da Costa Ramalho 25 February 2014 (has links) A imagiologia é uma especialidade médica com grande relevância para o diagnóstico e tratamentode inúmeras patologias. Ao longo das últimas décadas e seguindo a mesma tendêncianoutras áreas para a adaptação tecnológica, o serviço de imagiologia também tem evoluído paratirar maior partido das soluções e avanços da informática. Numa altura em que as imagens médicas digitais são amplamente utilizadas, surgem novos desafios para organizar toda a informação recolhida bem como o acesso dos dados entre instituições de saúde.Apesar de, na atualidade, uma grande parte das instituições de saúde possuírem sistemas deinformação que permitem o armazenamento e partilha de imagens médicas, a interoperabilidadeentre aplicações ainda não é uma realidade totalmente conseguida. Esta falta de interoperabilidade entre sistemas de informação condiciona os cuidados de saúde prestados aos doentes, que por vezes são sujeitos a avaliações clínicas repetidas e decisões baseadas em informação incompleta.O standard DICOM (Digital Imaging and Communication in Medicine) surgiu de forma amelhorar a interoperabilidade entre aplicações e definir normas que possibilitassem a colaboraçãodas mesmas. É amplamente utilizado, sendo o formato preferencial para o armazenamento deimagens médicas.Esta dissertação apresenta uma aplicação com base no standard DICOM, com o intuito de realizaro reencaminhamento e a aquisição de imagens entre instituições de saúde. Foram detalhadasas funcionalidades de comunicação desenvolvidas assim como os procedimentos para encaminhamento e aquisição automáticos de imagens médicas. A aplicação tem base numa arquitetura flexível, dinâmica e adaptável às necessidades. As funcionalidades desejáveis para a aplicação foram testadas através da análise do seu tempo de execução e, com os resultados obtidos desta análise, concluiu-se que a aplicação apresenta um desempenho satisfatório e estável cumprindo com os objetivos propostos.Em suma, esta aplicação constitui uma vantagem por compreender o standard DICOM já implementado e bastante disseminado nas instituições de saúde, o que torna desnecessária a modificação de software preexistente. A aplicação é ainda dotada das funcionalidades requeridas inicialmente,o reencaminhamento e aquisição automáticos de imagens médicas, que poderão possibilitara cooperação entre entidades de saúde dispersas, e permitir um fluxo de trabalho mais dinâmico. / Medical Imaging is a specialty with great relevance for the diagnosis and treatment of numerouspathologies. Over the past decades, and following the same trend in other areas for technologicalevolution, imaging service has also evolved to take greater advantage of advances incomputer technology. At a time when the digital medical images are widely used, there are newchallenges to organize the collected information as well as access of data between institutions.Although currently a large part of health institutions possess systems that allow the storageand sharing of medical images, interoperability between applications is not yet a reality totallyachieved. The aim of this thesis is to study and develop a solution to simplify the exchange ofimaging information scattered across many institutions.This lack of interoperability among information systems affects the heath care provided to thepatient, which sometimes may be subject to repeat clinical evaluations and decisions based onincomplete information.The DICOM standard (Digital Imaging and Communication in Medicine) appeared in orderto improve interoperability between applications and set rules that would enable collaborationbetween them. It is widely used and is the preferred format for storing medical images.This thesis presents an application based on the DICOM standard, in order to perform forwardingand image acquisition between health institutions.The communication features such as procedures developed for routing and automatic acquisitionof medical images were detailed. The application is based on an architecture flexible, dynamicand adaptable to the needs. Desirable features for the application were tested by analysis of itsexecution time, and with the results of this analysis, it was concluded that the application displaysa satisfactory and stable performance fulfilling the proposed objectives.In summary, this application has an advantage by comprehending the DICOM standard whichis implemented and quite widespread in health institutions, making unnecessary the modificationof existing software.The application also provides functionality for forwarding and automatic acquisition of medical images, which could enable cooperation between entities dispersed and allow a more dynamic workflow.
160	Estimating the Remaining Lifetime of Power Transformers Using Paper Insulation Degradation Nuno Filipe Osório Morais 15 October 2018 (has links) Transformadores de potência são equipamentos essenciais para o bom funcionamento de uma rede eléctrica. Devido ao seu elevado custo e a todos os inconvenientes que a paragem de funcionamento de um transformador pode causar, é importante que as empresas que possuem este tipo de equipamentos possam prever qual o tempo de vida restante dos mesmos. Esta necessidade, torna-se ainda mais acentuada, quando a esperança média de vida de aproximadamente 40 anos já foi ultrapassada. Esta situação verifica-se com frequência nos equipamentos instalados onde, em alguns casos, já foram atingidos os 60 anos de idade. Desta forma, o presente trabalho incide na conceção e implementação de um método que permita estimar o tempo restante de vida dos transformadores de potência, permitindo assim aos seus proprietários realizar um planeamento adequado e atempado de manutenção e possível substituição.Esta estimação é feita através da análise do estado de degradação do papel isolante, sendo para isso analisada a concentração de 2-furfuraldeído (2FAL) e o valor de Degree of Polymerization (DP).A viabilidade do método desenvolvido é avaliada através de testes realizados com medições reais em Transformadores de Potência. Através destes testes, é possível perceber que este é um método viável, não podendo no entanto a sua eficácia ser avaliada, devido à falta de informação sobre o fim de vida dos Transformadores de Potência estudados. / Power transformers play a major role in electrical networks. Due to their high price and the inconveniences that may derive from them reaching the end of life, it is crucial that companies who own this type of equipment may predict what is its remaining lifetime. This prediction becomes even more important when the expected useful life (approximately 40 years) has been overcome. This specific situation is very common and, in some cases, there are 60 years old devices.Therefore, the present work conceives and implements an algorithm that allows to estimate the remaining lifetime of power transformers, making it possible to owners to make an adequate and early plan for maintenance and replacement when it is needed. This estimation is made using the paper insulation degradation, with the analysis of 2-furaldehyde (2FAL) content and Degree of Polymerization(DP) measures.This method's viability is evaluated by performing tests with real Power Transformers' data. By performing this tests, it is possible to conclude that this is a viable method. However, it's effectiveness can not be confirmed due to the lack of information on the studied power transformers' end of life.

Search results