41 |
Data mining in large sets of complex data / Mineração de dados em grande conjuntos de dados complexosRobson Leonardo Ferreira Cordeiro 29 August 2011 (has links)
Due to the increasing amount and complexity of the data stored in the enterprises\' databases, the task of knowledge discovery is nowadays vital to support strategic decisions. However, the mining techniques used in the process usually have high computational costs that come from the need to explore several alternative solutions, in different combinations, to obtain the desired knowledge. The most common mining tasks include data classification, labeling and clustering, outlier detection and missing data prediction. Traditionally, the data are represented by numerical or categorical attributes in a table that describes one element in each tuple. Although the same tasks applied to traditional data are also necessary for more complex data, such as images, graphs, audio and long texts, the complexity and the computational costs associated to handling large amounts of these complex data increase considerably, making most of the existing techniques impractical. Therefore, especial data mining techniques for this kind of data need to be developed. This Ph.D. work focuses on the development of new data mining techniques for large sets of complex data, especially for the task of clustering, tightly associated to other data mining tasks that are performed together. Specifically, this Doctoral dissertation presents three novel, fast and scalable data mining algorithms well-suited to analyze large sets of complex data: the method Halite for correlation clustering; the method BoW for clustering Terabyte-scale datasets; and the method QMAS for labeling and summarization. Our algorithms were evaluated on real, very large datasets with up to billions of complex elements, and they always presented highly accurate results, being at least one order of magnitude faster than the fastest related works in almost all cases. The real data used come from the following applications: automatic breast cancer diagnosis, satellite imagery analysis, and graph mining on a large web graph crawled by Yahoo! and also on the graph with all users and their connections from the Twitter social network. Such results indicate that our algorithms allow the development of real time applications that, potentially, could not be developed without this Ph.D. work, like a software to aid on the fly the diagnosis process in a worldwide Healthcare Information System, or a system to look for deforestation within the Amazon Rainforest in real time / O crescimento em quantidade e complexidade dos dados armazenados nas organizações torna a extração de conhecimento utilizando técnicas de mineração uma tarefa ao mesmo tempo fundamental para aproveitar bem esses dados na tomada de decisões estratégicas e de alto custo computacional. O custo vem da necessidade de se explorar uma grande quantidade de casos de estudo, em diferentes combinações, para se obter o conhecimento desejado. Tradicionalmente, os dados a explorar são representados como atributos numéricos ou categóricos em uma tabela, que descreve em cada tupla um caso de teste do conjunto sob análise. Embora as mesmas tarefas desenvolvidas para dados tradicionais sejam também necessárias para dados mais complexos, como imagens, grafos, áudio e textos longos, a complexidade das análises e o custo computacional envolvidos aumentam significativamente, inviabilizando a maioria das técnicas de análise atuais quando aplicadas a grandes quantidades desses dados complexos. Assim, técnicas de mineração especiais devem ser desenvolvidas. Este Trabalho de Doutorado visa a criação de novas técnicas de mineração para grandes bases de dados complexos. Especificamente, foram desenvolvidas duas novas técnicas de agrupamento e uma nova técnica de rotulação e sumarização que são rápidas, escaláveis e bem adequadas à análise de grandes bases de dados complexos. As técnicas propostas foram avaliadas para a análise de bases de dados reais, em escala de Terabytes de dados, contendo até bilhões de objetos complexos, e elas sempre apresentaram resultados de alta qualidade, sendo em quase todos os casos pelo menos uma ordem de magnitude mais rápidas do que os trabalhos relacionados mais eficientes. Os dados reais utilizados vêm das seguintes aplicações: diagnóstico automático de câncer de mama, análise de imagens de satélites, e mineração de grafos aplicada a um grande grafo da web coletado pelo Yahoo! e também a um grafo com todos os usuários da rede social Twitter e suas conexões. Tais resultados indicam que nossos algoritmos permitem a criação de aplicações em tempo real que, potencialmente, não poderiam ser desenvolvidas sem a existência deste Trabalho de Doutorado, como por exemplo, um sistema em escala global para o auxílio ao diagnóstico médico em tempo real, ou um sistema para a busca por áreas de desmatamento na Floresta Amazônica em tempo real
|
42 |
Auxílio à leitura de textos em português facilitado: questões de acessibilidade / Reading assistance for texts in facilitated portuguese: accessibility issuesWatanabe, Willian Massami 05 August 2010 (has links)
A grande capacidade de disponibilização de informações que a Web possibilita se traduz em múltiplas possibilidades e oportunidades para seus usuários. Essas pessoas são capazes de acessar conteúdos provenientes de todas as partes do planeta, independentemente de onde elas estejam. Mas essas possibilidades não são estendidas a todos, sendo necessário mais que o acesso a um computador e a Internet para que sejam realizadas. Indivíduos que apresentem necessidades especiais (deficiência visual, cognitiva, dificuldade de locomoção, entre outras) são privados do acesso a sites e aplicações web que façam mal emprego de tecnologias web ou possuam o conteúdo sem os devidos cuidados para com a acessibilidade. Um dos grupos que é privado do acesso a esse ambiente é o de pessoas com dificuldade de leitura (analfabetos funcionais). A ampla utilização de recursos textuais nas aplicações pode tornar difícil ou mesmo impedir as interações desses indivíduos com os sistemas computacionais. Nesse contexto, este trabalho tem por finalidade o desenvolvimento de tecnologias assistivas que atuem como facilitadoras de leitura e compreensão de sites e aplicações web a esses indivíduos (analfabetos funcionais). Essas tecnologias assistivas utilizam recursos de processamento de língua natural visando maximizar a compreensão do conteúdo pelos usuários. Dentre as técnicas utilizadas são destacadas: simplificação sintática, sumarização automática, elaboração léxica e reconhecimento das entidades nomeadas. Essas técnicas são utilizadas com a finalidade de promover a adaptação automática de conteúdos disponíveis na Web para usuários com baixo nível de alfabetização. São descritas características referentes à acessibilidade de aplicações web e princípios de design para usuários com baixo nível de alfabetização, para garantir a identificação e entendimento das funcionalidades que são implementadas nas duas tecnologias assistivas resultado deste trabalho (Facilita e Facilita Educacional). Este trabalho contribuiu com a identificação de requisitos de acessibilidade para usuários com baixo nível de alfabetização, modelo de acessibilidade para automatizar a conformidade com a WCAG e desenvolvimento de soluções de acessibilidade na camada de agentes de usuários / The large capacity of Web for providing information leads to multiple possibilities and opportunities for users. The development of high performance networks and ubiquitous devices allow users to retrieve content from any location and in different scenarios or situations they might face in their lives. Unfortunately the possibilities offered by the Web are not necessarily currently available to all. Individuals who do not have completely compliant software or hardware that are able to deal with the latest technologies, or have some kind of physical or cognitive disability, find it difficult to interact with web pages, depending on the page structure and the ways in which the content is made available. When specifically considering the cognitive disabilities, users classified as functionally illiterate face severe difficulties accessing web content. The heavy use of texts on interfaces design creates an accessibility barrier to those who cannot read fluently in their mother tongue due to both text length and linguistic complexity. In this context, this work aims at developing an assistive technologies that assists functionally illiterate users during their reading and understanding of websites textual content. These assistive technologies make use of natural language processing (NLP) techniques that maximize reading comprehension for users. The natural language techniques that this work uses are: syntactic simplification, automatic summarization, lexical elaboration and named entities recognition. The techniques are used with the goal of automatically adapting textual content available on the Web for users with low literacy levels. This work describes the accessibility characteristics incorporated into both resultant applications (Facilita and Educational Facilita) that focus on low literacy users limitations towards computer usage and experience. This work contributed with the identification of accessibility requirements for low-literacy users, elaboration of an accessibility model for automatizing WCAG conformance and development of accessible solutions in the user agents layer of web applications
|
43 |
Sumarização e extração de conceitos de notas explicativas em relatórios financeiros: ênfase nas notas das principais práticas contábeisCagol, Adriano 27 April 2017 (has links)
Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2018-04-18T16:33:53Z
No. of bitstreams: 1
Adriano Cagol_.pdf: 619508 bytes, checksum: 490415002d6a9bb9ff9bb7f968e23b21 (MD5) / Made available in DSpace on 2018-04-18T16:33:53Z (GMT). No. of bitstreams: 1
Adriano Cagol_.pdf: 619508 bytes, checksum: 490415002d6a9bb9ff9bb7f968e23b21 (MD5)
Previous issue date: 2017-04-27 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / As demonstrações financeiras apresentam o desempenho financeiro das empresas e são uma importante ferramenta para análise da situação patrimonial e financeira, bem como para tomada de decisões de investidores, credores, fornecedores, clientes, entre outros. Nelas constam as notas explicativas que descrevem em detalhes as práticas e políticas de comunicação dos métodos de contabilidade da empresa, além de informações adicionais. Dependendo dos objetivos, não é possível uma correta análise da situação de uma entidade através das demonstrações financeiras, sem a interpretação e análise das notas explicativas que as acompanham. Porém, apesar da importância, a análise automática das notas explicativas das demonstrações financeiras ainda é um obstáculo. Em vista desta deficiência, este trabalho propõe um modelo que aplica técnicas de mineração textual para efetivar a extração de conceitos e a sumarização das notas explicativas, relativas à seção de principais práticas contábeis adotadas pela empresa, no sentido de identificar e estruturar os principais métodos de apuração de contas contábeis e a geração de resumos. Um algoritmo de extração de conceitos e seis algoritmos de sumarização foram aplicados sobre as notas explicativas das demonstrações financeiras de empresas da Comissão de Valores Mobiliários do Brasil. O trabalho mostra que a extração de conceitos gera resultados promissores para identificação do método de apuração da conta contábil, visto que apresenta acurácia de 100% na nota explicativa do estoque e do imobilizado e acurácia de 96,97% na nota explicativa do reconhecimento da receita. Além disso, avalia os algoritmos de sumarização com a medida ROUGE, apontando os mais promissores, com destaque para o LexRank, que no geral conseguiu as melhores avaliações. / Financial statements present the financial performance of companies and are an important tool for analyzing the financial and equity situation, as well as for making decisions of investors, creditors, suppliers, customers, among others. These are listed explanatory notes that describe in detail how practices and policies of accounting methods of the company. Depending on the objectives, a correct analysis of the situation of a company on the financial statements is not possible without an interpretation and analysis of the footnotes. However, despite the importance, an automatic analysis of the footnotes to the financial statements is still an obstacle. In view of this deficiency, this work proposes a model that applies text mining techniques without the sense of identifying the main methods of calculating the accounting accounts, the reports in the footnotes, with concept extraction, as well as generating a summary that contemplates the main idea of these, through summarization. A concept extraction algorithm and six summarization algorithms are applied in financial statements of companies of Brazilian Securities and Exchange Commission. The work shows that concept extraction generates promising results for the identification of the method of calculating the accounting account, since it presents a 100% accuracy in the footnote of inventory and property, plant and equipment, and accuracy of 96.97% in the footnote on revenue recognition. In addition, it evaluates the algorithms for summarization with the ROUGE measure, pointing out the most promising ones, especially LexRank, which in general obtained the best evaluations.
|
44 |
Da improcedência à procedência liminar: hipóteses de incidência e aplicação da norma do art. 285-A do Código de Processo Civil de lege lata e de lege ferenda / From the injunction dismissal to the judgment of injunction on merit: hypotheses of the incidence and application of the rule of article 285-A of the Brazilian Code of Civil Procedure de lege lata and de lege ferendaLima, Lucas Rister de Sousa 09 October 2014 (has links)
Made available in DSpace on 2016-04-26T20:23:19Z (GMT). No. of bitstreams: 1
Lucas Rister de Sousa Lima.pdf: 2245580 bytes, checksum: 854e86021e2ee1b949f289b37dd1f66b (MD5)
Previous issue date: 2014-10-09 / Over time and as society evolved, the civil procedural system has tended to conceive techniques intended to expedite judicial protection and case-law uniformity, in order to optimize the services provided by the Judiciary and make them more efficient. Article 285-A of the Brazilian Code of Civil Procedure embodies this trend, with features of both aspects and that, ultimately, in addition to abiding by the constitutional model in force, attempts to align it with and adapt it to new prevailing social standards (particularly in connection with dual jurisdiction) on behalf of procedural economy and rationality. This rule stands as a very important tool for better utilization of the civil procedural system in general, as a time-saving method for judges, clerks of justice and other practitioners of the law, avoiding the activities with little or no influence on the outcome of proceedings, thereby contributing to better adjudication results, with decreased expenditure of time and energy, as prescribed by the principle of timely judicial protection. Moreover, as it implies a substantial change in the how procedural acts unfold (beginning, in fact, at 'the end' of a proceeding s first phase), empirical application of the technique is somewhat hampered, which is not to say that it should cease to be applied or, or that its contribution to the improvement of the system as a whole should be denied, as this study attempts to demonstrate. The technique s power and potentialities in the face of an increasingly mass-oriented society with countless repetitive activities (and its clear reflections on the design of the Judiciary itself) allow concluding, without offense to the Constitution (especially the principle of due process and the adversarial principle) and in clear obedience of the principle of equality, in favor of extending the faculties of article 285-A of the Brazilian Code of Civil Procedure to the plaintiff as well, who would be granted the same privileges afforded to defendants under similar circumstances / Com o tempo e a evolução da sociedade, verificou-se uma tendência do sistema
processual civil em conceber técnicas de sumarização da tutela jurisdicional e
uniformização da jurisprudência, de molde a otimizar e tornar mais eficientes os
serviços prestados pelo Poder Judiciário. O art. 285-A do Código de Processo Civil
brasileiro não é nada mais do que uma norma que materializa essa tendência, com
traços de ambas as vertentes e que, em última análise, além de respeitar o modelo
constitucional vigente, procura alinhá-lo e adequá-lo ao novo arquétipo social vigente
(especialmente à chamada dualidade de jurisdições), em prestígio da economia e da
racionalidade do processo. Afigura-se o aludido preceptivo em ferramenta muito
importante para a oxigenação e o melhor aproveitamento do sistema processual civil
de uma maneira geral, com vistas a poupar o tempo de juízes, serventuários da
justiça e demais operadores do direito, com a prática de atividades que pouco ou
nada influirão para o resultado final do processo, contribuindo, assim, para que se
extraiam melhores resultados da prestação jurisdicional, com menor dispêndio de
tempo e energia, em prestígio ao princípio da tempestividade da tutela jurisdicional.
Ademais, é técnica que, por implicar sensível mudança na forma como
ordinariamente ocorrem os atos de um processo (que, deveras, começa pelo fim de
sua primeira fase), acaba gerando certa dificuldade na sua adequada aplicação no
plano empírico, mas que, nem por isso, deve deixar de ser aplicada ou recusada a
sua contribuição para o bem do sistema como um todo, como se procurará
demonstrar no curso do presente trabalho. A pujança e o potencial verificados na
aludida técnica, diante de uma sociedade cada vez mais massificada e com
inúmeras atividades repetitivas (o que reflete, peremptoriamente, no próprio desenho
do Poder Judiciário), permitem concluir, sem ofensa à Constituição Federal
(notadamente aos princípios do devido processo legal e do contraditório) e
prestigiando o princípio da igualdade, pela possibilidade de se estender a norma
nela contida também para o autor, ao qual passaria a ser franqueada, mediante
alteração legislativa, igual benesse à conferida ao réu, em semelhantes condições
|
45 |
Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)Chaud, Matheus Rigobelo 03 March 2015 (has links)
Made available in DSpace on 2016-06-02T20:25:24Z (GMT). No. of bitstreams: 1
6636.pdf: 3131517 bytes, checksum: 2afb763348af4eeb377c36a05732707f (MD5)
Previous issue date: 2015-03-03 / Financiadora de Estudos e Projetos / The field of Natural Language Processing (NLP) has witnessed increased attention to Multilingual Multidocument Summarization (MMS), whose goal is to process a cluster of source documents in more than one language and generate a summary of this collection in one of the target languages. In MMS, the selection of sentences from source texts for summary generation may be based on either shallow or deep linguistic features. The purpose of this research was to investigate whether the use of deep knowledge, obtained from a conceptual representation of the source texts, could be useful for content selection in texts within the newspaper genre. In this study, we used a formal representation system the UNL (Universal Networking Language). In order to investigate content selection strategies based on this interlingua, 3 clusters of texts were represented in UNL, each consisting of 1 text in Portuguese, 1 text in English and 1 human-written reference summary. Additionally, in each cluster, the sentences of the source texts were aligned to the sentences of their respective human summaries, in order to identify total or partial content overlap between these sentences. The data collected allowed a comparison between content selection strategies based on conceptual information and a traditional selection method based on a superficial feature - the position of the sentence in the source text. According to the results, content selection based on sentence position was more closely correlated with the selection made by the human summarizer, compared to the conceptual methods investigated. Furthermore, the sentences in the beginning of the source texts, which, in newspaper articles, usually convey the most relevant information, did not necessarily contain the most frequent concepts in the text collection; on several occasions, the sentences with the most frequent concepts were in the middle or at the end of the text. These results indicate that, at least in the clusters analyzed, other criteria besides concept frequency help determine the relevance of a sentence. In other words, content selection in human multidocument summarization may not be limited to the selection of the sentences with the most frequent concepts. In fact, it seems to be a much more complex process. / Na área de Processamento Automático das Línguas Naturais (PLN), há um destaque crescente para a Sumarização Automática Multidocumento Multilíngue (SAMM), cujo objetivo é processar uma coleção de documentos-fonte em mais de uma língua e gerar um sumário correspondente a essa coleção em uma das línguas-alvo. Na SAMM, a seleção das sentenças dos textos-fonte para composição do sumário pode ser feita com base em atributos linguísticos superficiais ou profundos. O objetivo deste projeto foi investigar se a utilização de conhecimento profundo, obtido a partir de uma representação conceitual dos textos-fonte, pode ser útil na seleção de conteúdo em textos do gênero jornalístico. Para isso, utilizou-se um sistema de representação formal a UNL (Universal Networking Language). Visando investigar estratégias de seleção de conteúdo baseadas nessa interlíngua, fez-se a representação em UNL de 3 coleções de textos, cada qual com 1 texto-fonte em português, 1 texto-fonte em inglês e 1 sumário humano de referência. Fez-se também o alinhamento das sentenças dos textos-fonte de cada coleção às sentenças de seus respectivos sumários humanos, objetivando identificar sobreposição total ou parcial de conteúdo entre essas sentenças. Esses dados permitiram a comparação entre estratégias de seleção de conteúdo baseadas em informações conceituais e um método de seleção tradicional baseado em um atributo superficial a posição da sentença no texto-fonte. De acordo com os resultados obtidos, a seleção de conteúdo com base na posição no texto-fonte correlacionou-se mais adequadamente com a seleção realizada pelo sumarizador humano, comparado aos métodos conceituais investigados. Além disso, as sentenças iniciais dos textos-fonte, que, em textos jornalísticos, normalmente veiculam as informações mais relevantes, não necessariamente continham os conceitos mais frequentes da coleção; em diversas ocasiões, as sentenças com os conceitos mais frequentes estavam em posição intermediária ou final no texto. Esses resultados indicam que, ao menos nas coleções analisadas, outros critérios, além da frequência de conceitos, concorrem para determinar a relevância de uma sentença. Em outras palavras, na sumarização humana multidocumento, a seleção de conteúdo provavelmente não se resume a selecionar sentenças com os conceitos mais frequentes, tratando-se de um processo bem mais complexo.
|
46 |
Técnicas para compreensão de rastros de execução de programas orientados a objetosSilva, Luciana Lourdes 22 February 2011 (has links)
Several attempts to facilitate understanding the behavior of software systems have
been proposed. Perfective changes in well-established software systems are easier to perform
when the development team has a solid understanding of the internals. However,
it is reasonable to assume that the use of an open source system to incorporate new
features and obtain a new software product is an appealing approach instead of coding
a new product from scratch. Considering this scenario, and considering that it is not
uncommon that systems are poorly documented, there is no widely accepted approach to
guide the perfective maintenance for developers with low understanding of the system or
that recovers high-level information about both the structure and the behavior of large
systems.
This work proposes a new approach to simplify comprehension tasks of object oriented
programs through the analysis of summarized execution traces. The approach is perfomed
on two techniques: The rst technique enables the separation of common parts of source
code from specic parts related to important features that drive the addition of the new
one. An evaluation is done to verify if the summarized execution traces helps the technique
to locate potential elements of code that can guide the development of a new feature. The
evaluation was conducted with real-world systems and with meaningful evolution tasks.
The second is based on a technique that reconstructs structural and behavioral highlevel
diagrams by the analysis of summarized execution traces. Precision and recall were
evaluated using two third-party open-source systems, including the webserver Tomcat.
The result suggests the feasibility for using the approach on real world large scale systems. / Várias abordagens para facilitar a compreensão do comportamento de sistemas de software
têm sido propostas. Mudanças perfectivas em sistemas de software bem estabelecidos
são mais fáceis de executar quando a equipe de desenvolvimento tem um entendimento
sólido do código fonte. Mas é razoável assumir que o uso de um sistema de código aberto
para incorporar novas características e obter um novo produto de software é uma abordagem
interessante, ao invés de codificar um novo produto a partir do zero. Em consideração
a este cenário e considerando que não é incomum sistemas pobres em documentação, não
existe uma abordagem amplamente aceita para guiar em mudanças perfectivas desenvolvedores
com baixo conhecimento do sistema ou que recupera informações em alto nível
de abstração sobre a estrutura e comportamento de sistemas complexos.
Este trabalho propõe uma nova abordagem para simplificar tarefas de compreensão
de programas orientados a objetos através da análise de rastros de execução sumarizados.
A abordagem é aplicada sobre duas técnicas: a primeira permite a separação de partes
comuns do código fonte das partes específicas relacionadas a características importantes
que conduz a adição de uma nova. Uma avaliação é feita para verificar se os rastros de
execução sumarizados ajudam a técnica na localização de elementos potenciais de código
que podem guiar o desenvolvimento de uma nova característica. A avaliação foi realizada
com sistemas do mundo real e com tarefas de evolução significativas. A segunda é baseada
na reconstrução de diagramas estruturais e comportamentais de alto nível baseada na
análise de rastros de execução sumarizados. É apresentada uma avaliação do desempenho
da abordagem em termos de precisão e recall em dois sistemas públicos de terceiros, dentre
eles o servidor Web Tomcat. O resultado sugere a viabilidade da abordagem para uso em
sistemas reais de larga escala. / Mestre em Ciência da Computação
|
47 |
Auxílio à leitura de textos em português facilitado: questões de acessibilidade / Reading assistance for texts in facilitated portuguese: accessibility issuesWillian Massami Watanabe 05 August 2010 (has links)
A grande capacidade de disponibilização de informações que a Web possibilita se traduz em múltiplas possibilidades e oportunidades para seus usuários. Essas pessoas são capazes de acessar conteúdos provenientes de todas as partes do planeta, independentemente de onde elas estejam. Mas essas possibilidades não são estendidas a todos, sendo necessário mais que o acesso a um computador e a Internet para que sejam realizadas. Indivíduos que apresentem necessidades especiais (deficiência visual, cognitiva, dificuldade de locomoção, entre outras) são privados do acesso a sites e aplicações web que façam mal emprego de tecnologias web ou possuam o conteúdo sem os devidos cuidados para com a acessibilidade. Um dos grupos que é privado do acesso a esse ambiente é o de pessoas com dificuldade de leitura (analfabetos funcionais). A ampla utilização de recursos textuais nas aplicações pode tornar difícil ou mesmo impedir as interações desses indivíduos com os sistemas computacionais. Nesse contexto, este trabalho tem por finalidade o desenvolvimento de tecnologias assistivas que atuem como facilitadoras de leitura e compreensão de sites e aplicações web a esses indivíduos (analfabetos funcionais). Essas tecnologias assistivas utilizam recursos de processamento de língua natural visando maximizar a compreensão do conteúdo pelos usuários. Dentre as técnicas utilizadas são destacadas: simplificação sintática, sumarização automática, elaboração léxica e reconhecimento das entidades nomeadas. Essas técnicas são utilizadas com a finalidade de promover a adaptação automática de conteúdos disponíveis na Web para usuários com baixo nível de alfabetização. São descritas características referentes à acessibilidade de aplicações web e princípios de design para usuários com baixo nível de alfabetização, para garantir a identificação e entendimento das funcionalidades que são implementadas nas duas tecnologias assistivas resultado deste trabalho (Facilita e Facilita Educacional). Este trabalho contribuiu com a identificação de requisitos de acessibilidade para usuários com baixo nível de alfabetização, modelo de acessibilidade para automatizar a conformidade com a WCAG e desenvolvimento de soluções de acessibilidade na camada de agentes de usuários / The large capacity of Web for providing information leads to multiple possibilities and opportunities for users. The development of high performance networks and ubiquitous devices allow users to retrieve content from any location and in different scenarios or situations they might face in their lives. Unfortunately the possibilities offered by the Web are not necessarily currently available to all. Individuals who do not have completely compliant software or hardware that are able to deal with the latest technologies, or have some kind of physical or cognitive disability, find it difficult to interact with web pages, depending on the page structure and the ways in which the content is made available. When specifically considering the cognitive disabilities, users classified as functionally illiterate face severe difficulties accessing web content. The heavy use of texts on interfaces design creates an accessibility barrier to those who cannot read fluently in their mother tongue due to both text length and linguistic complexity. In this context, this work aims at developing an assistive technologies that assists functionally illiterate users during their reading and understanding of websites textual content. These assistive technologies make use of natural language processing (NLP) techniques that maximize reading comprehension for users. The natural language techniques that this work uses are: syntactic simplification, automatic summarization, lexical elaboration and named entities recognition. The techniques are used with the goal of automatically adapting textual content available on the Web for users with low literacy levels. This work describes the accessibility characteristics incorporated into both resultant applications (Facilita and Educational Facilita) that focus on low literacy users limitations towards computer usage and experience. This work contributed with the identification of accessibility requirements for low-literacy users, elaboration of an accessibility model for automatizing WCAG conformance and development of accessible solutions in the user agents layer of web applications
|
48 |
Um estudo comparativo de modelos baseados em estatísticas textuais, grafos e aprendizado de máquina para sumarização automática de textos em portuguêsLeite, Daniel Saraiva 21 December 2010 (has links)
Made available in DSpace on 2016-06-02T19:05:48Z (GMT). No. of bitstreams: 1
3512.pdf: 1897835 bytes, checksum: 598f309a846cb201fe8f13be0f2e37da (MD5)
Previous issue date: 2010-12-21 / Automatic text summarization has been of great interest in Natural Language Processing due to the need of processing a huge amount of information in short time, which is usually delivered through distinct media. Thus, large-scale methods are of utmost importance for synthesizing and making access to information simpler. They aim at preserving relevant content of the sources with little or no human intervention. Building upon the extractive summarizer SuPor and focusing on texts in Portuguese, this MsC work aimed at exploring varied features for automatic summarization. Computational methods especially driven towards textual statistics, graphs and machine learning have been explored. A meaningful extension of the SuPor system has resulted from applying such methods and new summarization models have thus been delineated. These are based either on each of the three methodologies in isolation, or are hybrid. In this dissertation, they are generically named after the original SuPor as SuPor-2. All of them have been assessed by comparing them with each other or with other, well-known, automatic summarizers for texts in Portuguese. The intrinsic evaluation tasks have been carried out entirely automatically, aiming at the informativeness of the outputs, i.e., the automatic extracts. They have also been compared with other well-known automatic summarizers for Portuguese. SuPor-2 results show a meaningful improvement of some SuPor-2 variations. The most promising models may thus be made available in the future, for generic use. They may also be embedded as tools for varied Natural Language Processing purposes. They may even be useful for other related tasks, such as linguistic studies. Portability to other languages is possible by replacing the resources that are language-dependent, namely, lexicons, part-of-speech taggers and stop words lists. Models that are supervised have been so far trained on news corpora. In spite of that, training for other genres may be carried out by interested users using the very same interfaces supplied by the systems. / A tarefa de Sumarização Automática de textos tem sido de grande importância dentro da área de Processamento de Linguagem Natural devido à necessidade de se processar gigantescos volumes de informação disponibilizados nos diversos meios de comunicação. Assim, mecanismos em larga escala para sintetizar e facilitar o acesso a essas informações são de extrema importância. Esses mecanismos visam à preservação do conteúdo mais relevante e com pouca ou nenhuma intervenção humana. Partindo do sumarizador extrativo SuPor e contemplando o Português, este trabalho de mestrado visou explorar variadas características de sumarização pela utilização de métodos computacionais baseados em estatísticas textuais, grafos e aprendizado de máquina. Esta exploração consistiu de uma extensão significativa do SuPor, pela definição de novos modelos baseados nessas três abordagens de forma individual ou híbrida. Por serem originários desse sistema, manteve-se a relação com seu nome, o que resultou na denominação genérica SuPor-2. Os diversos modelos propostos foram, então, comparados entre si em diversos experimentos, avaliando-se intrínseca e automaticamente a informatividade dos extratos produzidos. Foram realizadas também comparações com outros sistemas conhecidos para o Português. Os resultados obtidos evidenciam uma melhora expressiva de algumas variações do SuPor-2 em relação aos demais sumarizadores extrativos existentes para o Português. Os sistemas que se evidenciaram superiores podem ser disponibilizados no futuro para utilização geral por usuários comuns ou ainda para utilização como ferramentas em outras tarefas do Processamento de Língua Natural ou em áreas relacionadas. A portabilidade para outras línguas é possível com a substituição dos recursos dependentes de língua, como léxico, etiquetadores morfossintáticos e stoplist Os modelos supervisionados foram treinados com textos jornalísticos até o momento. O treino para outros gêneros pode ser feito pelos usuários interessados através dos próprios sistemas desenvolvidos
|
Page generated in 0.0793 seconds