Global ETD Search

241	Extractive document summarization using complex networks / Sumarização extractiva de documentos usando redes complexas Jorge Andoni Valverde Tohalino 15 June 2018 (has links) Due to a large amount of textual information available on the Internet, the task of automatic document summarization has gained significant importance. Document summarization became important because its focus is the development of techniques aimed at finding relevant and concise content in large volumes of information without changing its original meaning. The purpose of this Masters work is to use network theory concepts for extractive document summarization for both Single Document Summarization (SDS) and Multi-Document Summarization (MDS). In this work, the documents are modeled as networks, where sentences are represented as nodes with the aim of extracting the most relevant sentences through the use of ranking algorithms. The edges between nodes are established in different ways. The first approach for edge calculation is based on the number of common nouns between two sentences (network nodes). Another approach to creating an edge is through the similarity between two sentences. In order to calculate the similarity of such sentences, we used the vector space model based on Tf-Idf weighting and word embeddings for the vector representation of the sentences. Also, we make a distinction between edges linking sentences from different documents (inter-layer) and those connecting sentences from the same document (intra-layer) by using multilayer network models for the Multi-Document Summarization task. In this approach, each network layer represents a document of the document set that will be summarized. In addition to the measurements typically used in complex networks such as node degree, clustering coefficient, shortest paths, etc., the network characterization also is guided by dynamical measurements of complex networks, including symmetry, accessibility and absorption time. The generated summaries were evaluated by using different corpus for both Portuguese and English language. The ROUGE-1 metric was used for the validation of generated summaries. The results suggest that simpler models like Noun and Tf-Idf based networks achieved a better performance in comparison to those models based on word embeddings. Also, excellent results were achieved by using the multilayered representation of documents for MDS. Finally, we concluded that several measurements could be used to improve the characterization of networks for the summarization task. / Devido à grande quantidade de informações textuais disponíveis na Internet, a tarefa de sumarização automática de documentos ganhou importância significativa. A sumarização de documentos tornou-se importante porque seu foco é o desenvolvimento de técnicas destinadas a encontrar conteúdo relevante e conciso em grandes volumes de informação sem alterar seu significado original. O objetivo deste trabalho de Mestrado é usar os conceitos da teoria de grafos para o resumo extrativo de documentos para Sumarização mono-documento (SDS) e Sumarização multi-documento (MDS). Neste trabalho, os documentos são modelados como redes, onde as sentenças são representadas como nós com o objetivo de extrair as sentenças mais relevantes através do uso de algoritmos de ranqueamento. As arestas entre nós são estabelecidas de maneiras diferentes. A primeira abordagem para o cálculo de arestas é baseada no número de substantivos comuns entre duas sentenças (nós da rede). Outra abordagem para criar uma aresta é através da similaridade entre duas sentenças. Para calcular a similaridade de tais sentenças, foi usado o modelo de espaço vetorial baseado na ponderação Tf-Idf e word embeddings para a representação vetorial das sentenças. Além disso, fazemos uma distinção entre as arestas que vinculam sentenças de diferentes documentos (inter-camada) e aquelas que conectam sentenças do mesmo documento (intra-camada) usando modelos de redes multicamada para a tarefa de Sumarização multi-documento. Nesta abordagem, cada camada da rede representa um documento do conjunto de documentos que será resumido. Além das medições tipicamente usadas em redes complexas como grau dos nós, coeficiente de agrupamento, caminhos mais curtos, etc., a caracterização da rede também é guiada por medições dinâmicas de redes complexas, incluindo simetria, acessibilidade e tempo de absorção. Os resumos gerados foram avaliados usando diferentes corpus para Português e Inglês. A métrica ROUGE-1 foi usada para a validação dos resumos gerados. Os resultados sugerem que os modelos mais simples, como redes baseadas em Noun e Tf-Idf, obtiveram um melhor desempenho em comparação com os modelos baseados em word embeddings. Além disso, excelentes resultados foram obtidos usando a representação de redes multicamada de documentos para MDS. Finalmente, concluímos que várias medidas podem ser usadas para melhorar a caracterização de redes para a tarefa de sumarização. Inteligência artificial Processamento de linguagem natural Redes complexas Sumarização automática Artificial intelligence Automatic summarization Complex networks Natural language processing
242	Aperfeiçoamento de um tradutor automático Português-Inglês: tempos verbais / Development of a Portuguese-to-English machine translation system: tenses Lucia Helena Rozario da Silva 03 August 2010 (has links) Esta dissertação apresenta o aperfeiçoamento de um sistema de tradução automática português-inglês. Nosso objetivo principal é criar regras de transferência estrutural entre o par de línguas português e inglês e avaliar, através do uso da métrica de avaliação METEOR, o desempenho do sistema. Para isto, utilizamos um corpus teste criado especialmente para esta pesquisa. Tendo como ponto de partida a relevância de uma correta tradução para os tempos verbais de uma sentença, este trabalho priorizou a criação de regras que tratassem a transferência entre os tempos verbais do português brasileiro para o inglês americano. Devido ao fato de os verbos em português estarem distribuídos por três conjugações, criamos um corpus para cada uma dessas conjugações. O objetivo da criação desses corpora é verificar a aplicação das regras de transferência estrutural entre os tempos verbais em todas as três classes de conjugação. Após a criação dos corpora, mapeamos os tempos verbais em português no modo indicativo, subjuntivo e imperativo para os tempos verbais do inglês. Em seguida, iniciamos a construção das regras de transferência estrutural entre os tempos verbais mapeados. Ao final da construção das regras, submetemos os corpora obedecendo as três classes de conjugação à métrica de avaliação automática METEOR. Os resultados da avaliação do sistema após a inserção das regras apresentaram uma regressão quando comparado a avaliação do sistema no estágio inicial da pesquisa. Detectamos, através de análises dos resultados, que a métrica de avaliação automática METEOR não foi sensível às modificações feitas no sistema, embora as regras criadas sigam a gramática tradicional da língua portuguesa e estejam sendo aplicadas a todas as três classes de conjugação. Apresentamos em detalhes o conjunto de regras sintáticas e os corpora utilizados neste estudo, e que acreditamos serem de utilidade geral para quaisquer sistemas de tradução automática entre o português brasileiro e o inglês americano. Outra contribuição deste trabalho está em discutir os valores apresentados pela métrica METEOR e sugerir que novos ajustes sejam feitos a esses parâmetros utilizados pela métrica. / This dissertation presents the development of a Portuguese-to-English Machine Translation system. Our main objective is creating structural transfer rules between this pair of languages, and evaluate the performance of the system using the METEOR evaluation metric. Therefore, we developed a corpus to enable this study. Taking translation relevance as a starting point, we focused on verbal tenses and developed rules that dealt with transfer between verbal tenses from the Brazilian Portuguese to US English. Due to the fact that verbs in Portuguese are distributed in three conjugations, we created one corpus for each of these conjugations. The objective was to verify the application of structural transfer rules between verbal tenses in each conjugation class in isolation. After creating these corpora, we mapped the Portuguese verbal tenses in the indicative, subjunctive and imperative modes to English. Next, we constructed structural transfer rules to these mapped verbal tenses. After constructing these rules, we evaluated our corpora using the METEOR evaluation metric. The results of this evaluation showed lack of improvement after the insertion of these transfer rules, when compared to the initial stage of the system. We detected that the METEOR evaluation metric was not sensible to these modi_cations made to the system, even though they were linguistically sound and were being applied correctly to the sentences. We introduce in details the set of transfer rules and corpora used in this study, and we believe they are general enough to be useful in any rule-based Portuguese-to-English Machine Translation system. Another contribution of this work lies in the discussion of the results presented by the METEOR metric. We suggest adjustments to be made to its parameters, in order to make it more sensible to sentences variation such as those introduced by our rules. Inteligência artifical Linguística Linguística computacional Processamento de linguagem natural Tradução automática Articial intelligence Computational linguistics Linguistics Machine translation Natural language processing
243	Resolução automática de pronomes em português utilizando coerência do discurso / Automatic pronoun resolution in portuguese using discourse coherence Silva, Fernando José Vieira da, 1986- 20 August 2018 (has links) Orientador: Ariadne Maria Brito Rizzoni Carvalho / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-20T03:50:58Z (GMT). No. of bitstreams: 1 Silva_FernandoJoseVieirada_M.pdf: 1134176 bytes, checksum: a3e6489420245269fc086ab2eb5d803e (MD5) Previous issue date: 2012 / Resumo: ...Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: ...Note: The complete abstract is available with the full electronic document / Mestrado / Ciência da Computação / Mestre em Ciência da Computação Anáfora (Linguística) Análise do discurso Anaphora (Linguistics) Discourse Analysis
244	Uma arquitetura de question-answering instanciada no domínio de doenças crônicas / A question-answering architecture instantiated on the domains of chronic disease Luciana Farina Almansa 08 August 2016 (has links) Nos ambientes médico e de saúde, especificamente no tratamento clínico do paciente, o papel da informação descrita nos prontuários médicos é registrar o estado de saúde do paciente e auxiliar os profissionais diretamente ligados ao tratamento. A investigação dessas informações de estado clínico em pesquisas científicas na área de biomedicina podem suportar o desenvolvimento de padrões de prevenção e tratamento de enfermidades. Porém, ler artigos científicos é uma tarefa que exige tempo e disposição, uma vez que realizar buscas por informações específicas não é uma tarefa simples e a área médica e de saúde está em constante atualização. Além disso, os profissionais desta área, em sua grande maioria, possuem uma rotina estressante, trabalhando em diversos empregos e atendendo muitos pacientes em um único dia. O objetivo deste projeto é o desenvolvimento de um Framework de Question Answering (QA) para suportar o desenvolvimento de sistemas de QA, que auxiliem profissionais da área da saúde na busca rápida por informações, especificamente, em epigenética e doenças crônicas. Durante o processo de construção do framework, estão sendo utilizados dois frameworks desenvolvidos anteriormente pelo grupo de pesquisa da mestranda: o SisViDAS e o FREDS, além de desenvolver os demais módulos de processamento de pergunta e de respostas. O QASF foi avaliado por meio de uma coleção de referências e medidas estatísticas de desempenho e os resultados apontam valores de precisão em torno de 0.7 quando a revocação era 0.3, para ambos o número de artigos recuperados e analisados eram 200. Levando em consideração que as perguntas inseridas no QASF são longas, com 70 termos por pergunta em média, e complexas, o QASF apresentou resultados satisfatórios. Este projeto pretende contribuir na diminuição do tempo gasto por profissionais da saúde na busca por informações de interesse, uma vez que sistemas de QA fornecem respostas diretas e precisas sobre uma pergunta feita pelo usuário / The medical record describes health conditions of patients helping experts to make decisions about the treatment. The biomedical scientific knowledge can improve the prevention and the treatment of diseases. However, the search for relevant knowledge may be a hard task because it is necessary time and the healthcare research is constantly updating. Many healthcare professionals have a stressful routine, because they work in different hospitals or medical offices, taking care many patients per day. The goal of this project is to design a Question Answering Framework to support faster and more precise searches for information in epigenetic, chronic disease and thyroid images. To develop the proposal, we are reusing two frameworks that have already developed: SisViDAS and FREDS. These two frameworks are being exploited to compose a document processing module. The other modules (question and answer processing) are being completely developed. The QASF was evaluated by a reference collection and performance measures. The results show 0.7 of precision and 0.3 of recall for two hundred articles retrieved. Considering that the questions inserted on the framework have an average of seventy terms, the QASF shows good results. This project intends to decrease search time once QA systems provide straight and precise answers in a process started by a user question in natural language Extração de Informação Processamento de Linguagem Natural Recuperação de Informação Sistema de Perguntas e Respostas Information Extraction Information Retrieval Natural Language Processing Question Answering
245	[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA / [en] SEMANTIC JOB VACANCY SEGMENTATION: COMPARATIVE STUDY OF CLASSICAL MACHINE LEARNING ALGORITHMS DAVID EVANDRO AMORIM MARTINS 18 August 2020 (has links) [pt] Este trabalho demonstra como web mining, processamento de linguagem natural e aprendizado de máquina podem ser combinados para melhorar a compreensão de vagas de emprego segmentando semanticamente os textos de suas descrições. Para atingir essa finalidade, foram coletados dados textuais de três grandes sites de vagas de emprego: Catho, LinkedIn e VAGAS.com.br. Baseado na literatura, este trabalho propôe uma estrutura semântica simplificada em que cada sentença da descrição da vaga de emprego pode pertencer a uma dessas classes: Responsabilidades, Requisitos, Benefícios e Outros. De posse dessa ideia, a tarefa de segmentação semântica pode ser repensada como uma segmentação de sentenças seguida de uma classificação. Usando o Python como ferramenta, são experimentadas algumas formas de construção de atributos a partir de textos, tanto léxicas quanto semânticas, e quatro algoritmos clássicos de aprendizado de máquina: Naive Bayes, Regressão Logística, Máquina de Vetores de Suporte e Floresta Aleatória. Como resultados, este trabalho traz um classificador (Regressão Logística com representação binária) com 95.58 porcento de acurácia, sem sobreajuste de modelo e sem degenerar as classificações por desbalanceio de classes, que é comparável ao estado da arte para Classificação de Texto. Esse classificador foi treinado e validado usando dados do Catho, mas foi testado também nos dados do VAGAS.com.br (88.60 porcento) e do LinkedIn (91.14 porcento), apresentando uma evidência de que seu aprendizado é generalizável para dados de outros sites. Além disso, o classificador foi usado para segmentação semântica das vagas de emprego e obteve uma métrica Pk de 3.67 porcento e uma métrica WindowDiff de 4.78 porcento, que é comparável ao estado da arte de Segmentação de Texto. Por fim, vale salientar duas contribuições indiretas deste trabalho: 1) uma estrutura para pensar e analisar vagas de emprego e 2) uma indicação de que algoritmos clássicos também podem alcançar o estado da arte e, portanto, sempre devem experimentados. / [en] This dissertation demonstrates how web mining, natural language processing, and machine learning can be combined to improve understanding of job openings by semantically segmenting the texts of their descriptions. To achieve this purpose, textual data were collected from three major job sites: Catho, LinkedIn and VAGAS.com.br. Based on the literature, this work proposes a simplified semantic structure in which each sentence of the job description can belong to one of these classes: Responsibilities, Requirements, Benefits and Others. With this idea, the semantic segmentation task can be rethought as a sentence segmentation followed by a classification. Using Python as a tool, some ways of constructing features from texts are tried out, both lexical and semantic, and four classic machine learning algorithms: Naïve Bayes, Logistic Regression, Support Vector Machine, and Random Forest. As a result, this work presents a classifier (Logistic Regression with binary representation) with 95.58 percent accuracy, without model overfitting and without degeneration by class unbalance, which is comparable to state-of-the-art for Text Classification. This classifier was trained and validated using Catho data, but was also tested on VAGAS.com.br (88.60 percent) and LinkedIn (91.14 percent) data, providing evidence that its learning is generalizable to data from other sites. In addition, the classifier was used for semantic segmentation of job openings and obtained a Pk metric equals to 3.67 percent and a WindowDiff metric equals to 4.78 percent, which is comparable to state-of-the-art for Text Segmentation. Finally, it is worth highlighting two indirect contributions of this work: 1) a structure for thinking and analyzing job openings and 2) an indication that classical algorithms can also reach the state of the art and therefore should always be tried. [pt] APRENDIZADO DE MAQUINA [pt] VAGA DE EMPREGO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] JOB VACANCIES [en] NATURAL LANGUAGE PROCESSING
246	[pt] MODELAGEM DE EVENTOS DE TRÂNSITO COM BASE EM CLIPPING DE GRANDES MASSAS DE DADOS DA WEB / [en] TRAFFIC EVENTS MODELING BASED ON CLIPPING OF HUGE QUANTITY OF DATA FROM THE WEB LUCIANA ROSA REDLICH 28 January 2015 (has links) [pt] Este trabalho consiste no desenvolvimento de um modelo que auxilie na análise de eventos ocorridos no trânsito das grandes cidades. Utilizando uma grande massa de dados publicados na Internet, em especial no twitter, por usuários comuns, este trabalho fornece uma ontologia para eventos do trânsito publicados em notícias da internet e uma aplicação que use o modelo proposto para realizar consultas aos eventos modelados. Para isso, as notícias publicadas em linguagem natural são processadas, isto é, as entidades relevantes no texto são identificadas e depois estruturadas de tal forma que seja feita uma analise semântica da notícia publicada. As notícias publicadas são estruturadas no modelo proposto de eventos e com isso é possível que sejam feitas consultas sobre suas propriedades e relacionamentos, facilitando assim a análise do processo do trânsito e dos eventos ocorridos nele. / [en] This work proposes a traffic event model to assist the analysis of traffic events on big cities. This paper aims to provide not only an ontology for traffic events considering published news over the Internet, but also a prototype of a software architecture that uses the proposed model to perform queries on the events, using a huge quantity of published data on the Internet by regular users, especially on twitter. To do so, the news published in natural language is processed, and the relevant entities in the text are identified and structured in order to make a semantic analysis of them. The news reported is structured in the proposed model of events and thus the queries about their properties and relationships could be answered. As a consequence, the result of this work facilitates the analysis of the events occurred on the traffic process. [pt] APRENDIZADO DE MAQUINA [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] EVENTO [pt] ONTOLOGIAS [en] MACHINE LEARNING [en] NATURAL LANGUAGE PROCESSING [en] EVENT [en] ONTOLOGIES
247	[en] AN APPROACH TO ANSWERING NATURAL LANGUAGE QUESTIONS IN PORTUGUESE FROM ONTOLOGIES AND KNOWLEDGE BASES / [pt] UMA ABORDAGEM PARA RESPONDER PERGUNTAS EM LINGUAGEM NATURAL NA LÍNGUA PORTUGUESA A PARTIR DE ONTOLOGIAS E BASES DE CONHECIMENTO ALYSSON GOMES DE SOUSA 29 April 2020 (has links) [pt] Nos últimos anos temos visto o crescimento do volume de dados não estruturados gerados naWeb tradicional, e por isso aWeb Semântica nasceu como um paradigma que se propõe a estruturar o conteúdo da Web de uma forma flexível, por meio de ontologias de domínio e o modelo RDF, tornando os computadores capazes de processar automaticamente esses dados e possibilitando a geração de mais informação e conhecimento. Mas para tornar estas informações acessíveis para usuários de outros domínios, é necessário que haja uma maneira mais conveniente de consultar estas bases de conhecimento. A área de Processamento de Linguagem Natural (PLN) forneceu ferramentas para permitir que a linguagem natural (falada ou escrita) seja um meio conveniente para realizar consultas em bases de conhecimento. Contudo, para que o uso da linguagem natural seja realmente efetivo, é necessário um método que converta uma pergunta ou pedido em linguagem natural em uma consulta estruturada. Tendo em vista este objetivo, o presente trabalho propõe uma abordagem que converte uma pergunta/pedido em Português em uma consulta estruturada na linguagem SPARQL, por meio do uso de árvores de dependências e ontologias estruturada em grafos, e que também permite o enriquecimento dos resultados das perguntas/pedidos por meio da geração de perguntas relacionadas. / [en] In recent years we have seen the growth of the volume of unstructured data generated in the traditional Web. Therefore the Semantic Web was born as a paradigm that proposes to structure the content of the Web flexibly through domain ontologies and the RDF model, making computers capable of automatically processing this data, enabling the generation of more information and knowledge. However, to make this information accessible to users in other domains, there needs to be a more convenient way of looking at these knowledge bases. The Natural Language Processing (NLP) area has provided tools to allow natural (spoken or writing) is a convenient way to perform queries in knowledge bases. However, for the use of natural language to be useful, a method is required that converts a natural language question or request into a structured query. With this objective, the present work proposes an approach that converts a question/request in Portuguese into a structured query in the SPARQL language, through the use of dependency trees and structured ontologies in graphs, and that also enables the enrichment of question/request results by generating related questions. [pt] ONTOLOGIA [pt] BASE DE CONHECIMENTO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] WEB SEMANTICA [en] ONTOLOGY [en] KNOWLEDGE BASES [en] NATURAL LANGUAGE PROCESSING [en] SEMANTIC WEB
248	[en] DEEP SEMANTIC ROLE LABELING FOR PORTUGUESE / [pt] ANOTAÇÃO PROFUNDA DE PAPÉIS SEMÂNTICOS PARA O PORTUGUÊS GUILHERME SANT ANNA VARELA 06 August 2019 (has links) [pt] Vivemos em um mundo complexo, no qual incontáveis fatores aparentemente desconexos – tais como a lei de Moore que dita um aumento exponencial da capacidade de processamento em um chip de silício, a queda do custo de espaço de armazenamento e a adoção em massa de smartphones colaboram para a formação de uma sociedade progressivamente interdependente. Todos os dias são criados 2,5 quintilhões de bytes de dados, de fato 90 por cento dos dados no mundo foram criados nos últimos dois anos. Domar os padrões salientes aos dados separando informação do caos torna-se uma necessidade iminente para a tomada de decisão dos indivíduos e para sobrevivência de organizações. Nesse cenário a melhor resposta dos pesquisadores de Processamento de Linguagem Natural encontra-se na tarefa de Anotação de Papéis Semânticos. APS é a tarefa que tem o audacioso objetivo de compreender eventos, buscando determinar Quem fez o que e aonde, Quais foram os beneficiados? ou Qual o meio utilizado para atingir os fins. APS serve como tarefa intermediária para várias aplicações de alto nível e.g information extraction, question and answering e agentes conversacionais. Tradicionalmente, resultados satisfatórios eram obtidos apenas com alta dependência de conhecimento específico de domínio. Para o português, através desta abordagem, o sistema estado da arte da tarefa para é de 79,6 por cento de pontuação F1. Sistemas mais recentes dependem de uma série de subtarefas, obtém 58 por cento de pontuação F1. Nessa dissertação, exploramos um novo paradigma utilizando redes neurais recorrentes, para o idioma do português do Brasil, e sem subtarefas intermediárias obtendo uma pontuação de 66,23. / [en] We live in a complex world in which a myriad of seemingly unrelated factors – such as Moore s law which states that the processing capacity on a silicon wafer should increase exponentially, the fall of storage costs and mass adoption of smart-phones contribute to the formation of an increasingly inter-dependent society: 2.5 quintillion bytes of data are generated every day, in fact ninety percent of the world s data were created in the last few years. Harnessing the emerging patterns within the data, effectively separating information from chaos is crucial for both individual decision making as well as for the survival of organizations. In this scenario the best answer from Natural Language Processing researchers is the task of Semantic Role Labeling. SRL is the task the concerns itself with the audacious goal of event understanding, which means determining Who did what to whom, Who was the beneficiary? or What were the means to achieve some goal. APS is also an intermediary task to high level applications such as information extraction, question and answering and chatbots. Traditionally, satisfactory results were obtained only by the introduction of highly specific domain knowledge. For Portuguese, this approach is able to yields a F1 score of 79.6 percent. Recent systems, rely on a pipeline of sub-tasks, yielding a F1 score of 58 percent. In this dissertation, we adopt a new paradigm using recurrent neural networks for the Brazilian Portuguese, that does not rely on a pipeline, our system obtains a score of 66.23 percent. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [pt] ANOTACAO DE PAPEIS SEMANTICOS [en] SEMANTIC ROLE LABELING [pt] APRENDIZADO DE MAQUINA PROFUNDO [en] DEEP LEARNING
249	Leis de Escala nos gastos com saneamento básico: dados do SIOP e DOU / Scaling Patterns in Basic Sanitation Expenditure: data from SIOP and DOU Ribeiro, Ludmila Deute 14 March 2019 (has links) A partir do final do século 20, o governo federal criou vários programas visando a ampliação de acesso ao saneamento básico. Embora esses programas tenham trazido o abastecimento de água potável e a coleta de resíduos sólidos para a maioria dos municípios brasileiros, o esgotamento sanitário ainda está espacialmente concentrado na região Sudeste e nas áreas mais urbanizadas. Para explicar esse padrão espacialmente concentrado, é frequentemente assumido que o tamanho das cidades realmente importa para o saneamento básico, especialmente para o esgotamento sanitário. De fato, à medida que as cidades crescem em tamanho, devemos esperar economias de escala no volume de infraestrutura de saneamento. Economias de escala na infra-estrutura implicam uma redução nos custos de saneamento básico, de forma proporcional ao tamanho da cidade, levando também a uma (esperada) relação de lei de escala (ou de potência) entre os gastos com saneamento básico e o tamanho da cidade. Usando a população, N(t), como medida do tamanho da cidade no momento t, a lei de escala para infraestrutura assume o formato Y(t) = Y0N(t)&#946 onde &#946 &#8776 0.8 < 1, Y denota o volume de infraestrutura e Y0 é uma constante. Diversas propriedades das cidades, desde a produção de patentes e renda até a extensão da rede elétrica, são funções de lei de potência do tamanho da população com expoentes de escalamento, &#946, que se enquadram em classes distintas. As quantidades que refletem a criação de riqueza e a inovação têm &#946 &#8776 1.2 > 1 (retornos crescentes), enquanto aquelas responsáveis pela infraestrutura exibem &#946 &#8776 0.8 < 1 (economias de escala). Verificamos essa relação com base em dados extraídos do Sistema Integrado de Planejamento e Orçamento (SIOP), que abrangem transferências com recursos não onerosos, previstos na Lei Orçamentária Anual (LOA), na modalidade saneamento básico. No conjunto, os valores estimados de &#946 mostram redução das transferências da União Federal para saneamento básico, de forma proporcional ao tamanho dos municípios beneficiários. Para a dotação inicial, valores programados na LOA, estimado foi de aproximadamente: 0.63 para municípios com população superior a dois mil habitantes; 0.92 para municípios acima de vinte mil habitantes; e 1.18 para municípios com mais de cinquenta mil habitantes. A segunda fonte de dados identificada foi o Diário Oficial da União (DOU), periódico do governo federal para publicação de atos oficiais. Os dados fornecidos pelo DOU referem-se aos recursos não onerosos e também aos empréstimos com recursos do Fundo de Garantia por Tempo de Serviço (FGTS). Para extração dos dados textuais foram utilizadas técnicas de Processamento de Linguagem Natural(PLN). Essas técnicas funcionam melhor quando os algoritmos são alimentados com anotações - metadados que fornecem informações adicionais sobre o texto. Por isso geramos uma base de dados, a partir de textos anotados do DOU, para treinar uma rede LSTM bidirecional aplicada à etiquetagem morfossintática e ao reconhecimento de entidades nomeadas. Os resultados preliminares obtidos dessa forma estão relatados no texto / Starting in the late 20th century, the Brazilian federal government created several programs to increase the access to water and sanitation. However, although these programs made improvements in water access, sanitation was generally overlooked. While water supply, and waste collection are available in the majority of the Brazilian municipalities, the sewage system is still spatially concentrated in the Southeast region and in the most urbanized areas. In order to explain this spatially concentrated pattern it is frequently assumed that the size of cities does really matter for sanitation services provision, specially for sewage collection. As a matter of fact, as cities grow in size, one should expect economies of scale in sanitation infrastructure volume. Economies of scale in sanitation infrastructure means a decrease in basic sanitation costs, proportional to the city size, leading also to a (expected) power law relationship between the expenditure on sanitation and city size.Using population, N(t), as the measure of city size at time t, power law scaling for infrastructure takes the form Y(t) = Y0N(t)&#946 where &#946 &#8776 0.8 < 1, Y denotes infrastructure volume and is a constant. Many diverse properties of cities from patent production and personal income to electrical cable length are shown to be power law functions of population size with scaling exponents, &#946, that fall into distinct universality classes. Quantities reflecting wealth creation and innovation have &#946 &#8776 1.2 > 1 (increasing returns), whereas those accounting for infrastructure display &#946 &#8776 0.8 < 1 (economies of scale). We verified this relationship using data from federal government databases, called Integrated Planning and Budgeting System, known as SIOP. SIOP data refers only to grants, funds given to municipalities by the federal government to run programs within defined guidelines. Preliminary results from SIOP show decrease in Federal Grants to Brazilian Municipalities, proportional to the city size. For the initial budget allocation, &#946 was found to be roughly 0.63 for municipalities above twenty thousand inhabitants; to be roughly 0.92 for municipalities above twenty thousand inhabitants; and to be roughly 1.18 for municipalities above fifty thousand inhabitants. The second data source is DOU, government journal for publishing official acts. DOU data should give us information not only about grants, but also about FGTS funds for basic sanitation loans. In order to extract data from DOU we have applied Natural Language Processing (NLP) tools. These techniques often work better when the algorithms are provided with annotations metadata that provides additional information about the text. In particular, we fed a database with annotations into a bidirectional LSTM model applied to POS Tagging and Named-entity Recognition. Preliminary results are reported in the paper Basic Sanitation Cidades Cities Etiquetagem Morfossintática Leis de Escala Named-entity Recognition Natural Language Processing POS Tagging Power Law Scaling Processamento de Linguagem Natural Reconhecimento de Entidades Nomeadas Saneamento Básico
250	Tradução grafema-fonema para a língua portuguesa baseada em autômatos adaptativos. / Grapheme-phoneme translation for portuguese based on adaptive automata. Shibata, Danilo Picagli 25 March 2008 (has links) Este trabalho apresenta um estudo sobre a utilização de dispositivos adaptativos para realizar tradução texto-voz. O foco do trabalho é a criação de um método para a tradução grafema-fonema para a língua portuguesa baseado em autômatos adaptativos e seu uso em um software de tradução texto-voz. O método apresentado busca mimetizar o comportamento humano no tratamento de regras de tonicidade, separação de sílabas e as influências que as sílabas exercem sobre suas vizinhas. Essa característica torna o método facilmente utilizável para outras variações da língua portuguesa, considerando que essas características são invariantes em relação à localidade e a época da variedade escolhida. A variação contemporânea da língua falada na cidade de São Paulo foi escolhida como alvo de análise e testes neste trabalho. Para essa variação, o modelo apresenta resultados satisfatórios superando 95% de acerto na tradução grafema-fonema de palavras, chegando a 90% de acerto levando em consideração a resolução de dúvidas geradas por palavras que podem possuir duas representações sonoras e gerando uma saída sonora inteligível aos nativos da língua por meio da síntese por concatenação baseada em sílabas. Como resultado do trabalho, além do modelo para tradução grafema-fonema de palavras baseado em autômatos adaptativos, foi criado um método para escolha da representação fonética correta em caso de ambigüidade e foram criados dois softwares, um para simulação de autômatos adaptativos e outro para a tradução grafema-fonema de palavras utilizando o modelo de tradução criado e o método de escolha da representação correta. Esse último software foi unificado ao sintetizador desenvolvido por Koike et al. (2007) para a criação de um tradutor texto-voz para a língua portuguesa. O trabalho mostra a viabilidade da utilização de autômatos adaptativos como base ou como um elemento auxiliar para o processo de tradução texto-voz na língua portuguesa. / This work presents a study on the use of adaptive devices for text-to-speech translation. The work focuses on the development of a grapheme-phoneme translation method for Portuguese based on Adaptive Automata and the use of this method in a text-to-speech translation software. The presented method resembles human behavior when handling syllable separation rules, syllable stress definition and influences syllables have on each other. This feature makes the method easy to use with different variations of Portuguese, since these characteristics are invariants of the language. Portuguese spoken nowadays in São Paulo, Brazil has been chosen as the target for analysis and tests in this work. The method has good results for such variation of Portuguese, reaching 95% accuracy rate for grapheme-phoneme translation, clearing the 90% mark after resolution of ambiguous cases in which different representations are accepted for a grapheme and generating phonetic output intelligible for native speakers based on concatenation synthesis using syllables as concatenation units. As final results of this work, a model is presented for grapheme-phoneme translation for Portuguese words based on Adaptive Automata, a methodology to choose the correct phonetic representation for the grapheme in ambiguous cases, a software for Adaptive Automata simulation and a software for grapheme-phoneme translation of texts using both the model of translation and methodology for disambiguation. The latter software was unified with the speech synthesizer developed by Koike et al. (2007) to create a text-to-speech translator for Portuguese. This work evidences the feasibility of text-to-speech translation for Portuguese using Adaptive Automata as the main instrument for such task. Adaptive automata Alfabeto fonético Computational linguistics International phonetic alphabet Linguagem natural Natural language processing Síntese da fala Teoria dos autômatos Text-to-speech translation Tradução automática

Search results