Spelling suggestions: "subject:"rótulos."" "subject:"ntulos.""
1 |
Do cachaço à branquinha: um estudo histórico e gráfico dos rótulos de cachaça pernambucanosCristina Silva de Oliveira, Tatalina 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T16:26:20Z (GMT). No. of bitstreams: 2
arquivo19_1.pdf: 1877613 bytes, checksum: f932fe7fd10dd435471a876a95e187d0 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2010 / Prefeitura de Olinda / Bebida genuinamente brasileira que atingiu uma popularidade das
classes mais baixas para as mais bem colocadas socialmente, a
cachaça tem passado por uma evolução no que concerne à tecnologia
de produção, maior qualidade de impressão de seus rótulos e à queda
de certo estigma relativo à idéia de ser, a bebida, apenas consumida
pelas classes mais baixas.
Objetiva-se com esta pesquisa aprofundar o conhecimento sobre as
dinâmicas de representação gráfica, bem como os cânones gráficos,
relativos aos rótulos de cachaça pertencentes ao Estado de Pernambuco
representativos da década de 1950 e anos 2000. Deseja-se apreciar
mais nitidamente os fatores envolvidos com a diferenciação dos
rótulos pertencentes a cada uma das fases históricas em questão:
mudanças tecnológicas quanto ao processo de impressão e pressões
de mercado, aliadas à dinâmica de redução do estigma carregado pela
bebida por parte de instâncias de legitimação da bebida e dos próprios
consumidores. Para tal, junto ao referencial teórico, foram feitas
análises gráficas dos rótulos, bem como entrevistas com apreciadores,
comerciantes e colecionadores da bebida de diversas faixas etárias e
classes sociais
|
2 |
Design de embalagem : a legibilidade pelo usuário idoso /Andrade Neto, Mariano Lopes de. January 2011 (has links)
Orientador: Paula da Cruz Landim / Banca: José Carlos Plácido da Silva / Banca: Lucy Carlinda da Rocha de Niemeyer / Resumo: O presente aumento substancial da parcela idosa da população brasileira gera a demanda por projetos inclusivos, orientados pelo conhecimento do processo de envelhecimento e de como levá-lo com qualidade de vida. No caso de projetos gráficos de embalagens há de se observar que essse grupo etário apresenta uma série de especificidades, principalmente quanto à capacidade visual. Considerando-se que na embalagem enfocam-se as informações de identificação e instruções, de acordo com as regulamentações governamentais; a oferta e apresentação destes produtos devem garantir o direito do usuário de ter acesso a todos as informações necessárias de maneira eficiente, inclusive sobre os riscos que apresentam à saúde e segurança do mesmo. O objetivo dessa investigação é verificar se o usuário idoso encontra dificuldades na leitura das embalagens. Para tanto, realizou-se uma pesquisa nas seguintes etapas: Pesquisa bibliográfica, orientada a três principais temas - embalagens, projeto gráfico de embalagens e idosos; Pesquisa Exploratória de modalidade mista, sendo a quantitativa realizada para delimitar o grupo de embalagens a ser estudado; e a segunda, qualitativa, a investigação com um grupo de discussão de indivíduos idosos. Os resultados da estapa exploratóra revelaram que há dificuldades de legibilidade e compreensão das informações das embalagens. E sua análise possibilitou verificar que algumas medidas gerais poderiam melhorar a legibilidade para os usuários idosos / Abstract: The projection of a substantial raise of the Brazilian population's senior fraction generation a demand for specific projects, guided by the awareness of aging process and focusing on quality of life. In the case of packaging design, it's necessary to realize that this age-group possers many specifities, including the ones related to visual capacity, although product's labels not always convey appropriate communication. Considering that packages focus information related to identification and instructions, according to the governmental regulations; the offers and presentation of these products must guarantee the user's right of access to all necessary information in an efficient manner, including ones related to the risks they might bring for the health and safety. This investigation aims to verify if the elderly user find difficulties in reading information from packages. For so, the research involved the following phases: Bibliographic Research, guided by three main topics - packaging, packages graphic projects and elderly; Exploratory Research of a varied nature, being the quantitative approach performed to delimitate the group of packages to be studied; and the second approach, qualitative, being and investigation involving a focus group formed of elderly individuals. The results of the exploratory phase reveal the existence of reading and comprehension difficulties, concerning information in packages. Its analysis permitted to observe that some general measures might improve legibility to elderly users / Mestre
|
3 |
A organização da informação nos rótulos de produtos industrializados : uma análise da categoria açúcar /Gomes, Luciana. January 2019 (has links)
Orientador: Daniel Martínez-Ávila / Banca: Maria Cláudia Cabrini Grácio / Banca: Leilah Santiago Bufrem / Resumo: Os rótulos de alimentos deveriam ser uma das principais fontes de informação ao consumidor. O espaço destinado à rotulagem é utilizado pela indústria de alimentos como meio de propaganda e se utiliza de informações nutricionais dos produtos processados. A forma como os ingredientes estão dispostos na lista de ingredientes dos rótulos atende a exigência legislativa, contudo, o açúcar pode estar presente por meio de diversos sinônimos. Este fato pode causar confusões e incompreensões sobre quantidades de etapas e de ingredientes artificiais ou processados contidos nos produtos ultraprocessados de ampla penetração nas casas brasileiras, o que tem relação com o aumento das doenças crônicas não transmissíveis na sociedade. Como alternativa e enquanto crítica a estas questões, que envolvem desde a rotulagem até o combate ao aumento dessas doenças, a soberania alimentar erige-se como defesa do direito dos povos de melhorar e escolher a alimentação de acordo com sua cultura, além de criticar e alertar para problemas saúde pública resultante da utilização indiscriminada de alguns produtos pela indústria. Diante disso, uma nova proposta de rotulagem dos alimentos, em consonância com as aplicações e princípios da Organização do Conhecimento, visa à proteção do consumidor diante da possibilidade de maior autonomia das escolhas. Considerando os rótulos dos alimentos como espaços de organização do conhecimento, a pesquisa busca implicações éticas nas relações de equivalência que podem ser ... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Food labels should be one of the main sources of consumer information. The space for labeling is used by the food industry as a means of advertising and uses nutritional information of processed products. The way ingredients are placed on the label ingredient list meets the legislative requirement, however, sugar may be present through several synonyms. This fact can cause confusion and misunderstandings about quantities of steps and artificial or processed ingredients contained in the widely penetrated ultra-processed products in Brazilian homes, which is related to the increase of chronic non-communicable diseases in society. As an alternative and critical to these issues, which range from labeling to combating the spread of these diseases, food sovereignty stands as a defense of the right of peoples to improve and choose food according to their culture, in addition to criticizing and warn of public health problems resulting from the indiscriminate use of some products by the industry. Given this, a new proposal for food labeling, in line with the applications and principles of the Knowledge Organization, aims to protect consumers in the face of the possibility of greater autonomy of choices. Considering food labels as spaces of knowledge organization, the research seeks ethical implications in the equivalence relations that can be used in these spaces. For this, the study analyzes the list of ingredients in relation to the synonyms of sucrose and other types of sugar in ce... (Complete abstract click electronic access below) / Mestre
|
4 |
Análise lógica de protocolos, proposta e avaliação de desempenho de um algoritmo de atribuição de rótulo baseado em SRLG em um ambiente GMPLS-WDM. / Protocol logical analysis, proposal and performance evaluation of a label assignment algorithm based on SRLG in a GMPLS-WDM environment.Cunha, Daniela Vieira 04 April 2006 (has links)
Para satisfazer o explosivo aumento na demanda de tráfego de voz e dados, as redes ópticas baseadas em WDM e GMPLS estão sendo desenvolvidas. A suíte de protocolos GMPLS é atualmente considerada como um plano de controle para as redes ópticas e é composta por protocolos de sinalização e de roteamento, como também do protocolo de gerenciamento de enlace (LMP). O LMP é um importante protocolo que interfere na atribuição de rótulos (comprimentos de onda) e é necessário fazer sua análise lógica para verificar se o mesmo está livre de erros de progresso. Para esta finalidade, o método denominado alcançabilidade justa foi utilizado. Verificada a corretude do LMP, o estudo foca o subproblema de atribuição de comprimento de onda do RWA nas redes GMPLS-WDM por ser um dos principais problemas que causam o baixo desempenho destas redes. O cenário estudado é das redes GMPLS-WDM que operam em um ambiente RWA dinâmico com restrição de continuidade de comprimento de onda. O problema RWA é examinado bem como as várias heurísticas de atribuição de comprimento de onda apresentadas na literatura. Com o objetivo de melhorar o desempenho das redes GMPLS-WDM com restrição de continuidade de comprimento de onda, propõe-se um algoritmo de atribuição de rótulos que utiliza os conceitos conjunto de rótulos e SRLG já implementados pelo GMPLS. O algoritmo proposto melhora a eficiência no uso de recursos nas redes em questão. O desempenho é verificado através da métricas de probabilidade de bloqueio de conexão, desempenho este próximo do ótimo e demonstrado através de simulações. / To satisfy the explosive increasing demands of voice and data traffic, optical networks based on WDM and GMPLS are being developed. The GMPLS´ suite of protocols is currently being considered as the control plane for optical networks and it is compounded of signaling and routing protocols, and also the link management protocol (LMP). The LMP is an important protocol that interferes with label (wavelength) assignment and it is necessary to logically analyse this protocol in order to verify if it is free from progress errors. For this purpose, the method called fair reachability has been used. Verified the LMP is correctable, the study focuses on the RWA wavelength assignment problem in GMPLS-WDM networks because it is one of the main problems which causes the low performance of these networks. The studied scene is GMPLS-WDM networks operating under a dynamic RWA environment with wavelength continuity constraint. The RWA problem is examined and also the various wavelength-assignment heuristics proposed in the literature. With the goal to improve the performance of the GMPLS-WDM networks with wavelength continuity constraint, it is proposed a label assignment algorithm, which uses the concepts of label set and SRLG, already implemented by GMPLS. The proposed algorithm provides an improvement in efficiency of resource use. The performance is verified by using the blocking probability metric, and it is very close to the optimum and demonstrated through simulations.
|
5 |
Análise lógica de protocolos, proposta e avaliação de desempenho de um algoritmo de atribuição de rótulo baseado em SRLG em um ambiente GMPLS-WDM. / Protocol logical analysis, proposal and performance evaluation of a label assignment algorithm based on SRLG in a GMPLS-WDM environment.Daniela Vieira Cunha 04 April 2006 (has links)
Para satisfazer o explosivo aumento na demanda de tráfego de voz e dados, as redes ópticas baseadas em WDM e GMPLS estão sendo desenvolvidas. A suíte de protocolos GMPLS é atualmente considerada como um plano de controle para as redes ópticas e é composta por protocolos de sinalização e de roteamento, como também do protocolo de gerenciamento de enlace (LMP). O LMP é um importante protocolo que interfere na atribuição de rótulos (comprimentos de onda) e é necessário fazer sua análise lógica para verificar se o mesmo está livre de erros de progresso. Para esta finalidade, o método denominado alcançabilidade justa foi utilizado. Verificada a corretude do LMP, o estudo foca o subproblema de atribuição de comprimento de onda do RWA nas redes GMPLS-WDM por ser um dos principais problemas que causam o baixo desempenho destas redes. O cenário estudado é das redes GMPLS-WDM que operam em um ambiente RWA dinâmico com restrição de continuidade de comprimento de onda. O problema RWA é examinado bem como as várias heurísticas de atribuição de comprimento de onda apresentadas na literatura. Com o objetivo de melhorar o desempenho das redes GMPLS-WDM com restrição de continuidade de comprimento de onda, propõe-se um algoritmo de atribuição de rótulos que utiliza os conceitos conjunto de rótulos e SRLG já implementados pelo GMPLS. O algoritmo proposto melhora a eficiência no uso de recursos nas redes em questão. O desempenho é verificado através da métricas de probabilidade de bloqueio de conexão, desempenho este próximo do ótimo e demonstrado através de simulações. / To satisfy the explosive increasing demands of voice and data traffic, optical networks based on WDM and GMPLS are being developed. The GMPLS´ suite of protocols is currently being considered as the control plane for optical networks and it is compounded of signaling and routing protocols, and also the link management protocol (LMP). The LMP is an important protocol that interferes with label (wavelength) assignment and it is necessary to logically analyse this protocol in order to verify if it is free from progress errors. For this purpose, the method called fair reachability has been used. Verified the LMP is correctable, the study focuses on the RWA wavelength assignment problem in GMPLS-WDM networks because it is one of the main problems which causes the low performance of these networks. The studied scene is GMPLS-WDM networks operating under a dynamic RWA environment with wavelength continuity constraint. The RWA problem is examined and also the various wavelength-assignment heuristics proposed in the literature. With the goal to improve the performance of the GMPLS-WDM networks with wavelength continuity constraint, it is proposed a label assignment algorithm, which uses the concepts of label set and SRLG, already implemented by GMPLS. The proposed algorithm provides an improvement in efficiency of resource use. The performance is verified by using the blocking probability metric, and it is very close to the optimum and demonstrated through simulations.
|
6 |
Pós-processamento de regras de associação via redes e propagação de rótulos / Post-processing association rules using networks and label propagationPadua, Renan de 27 February 2015 (has links)
Dentre as técnicas de mineração existentes encontra-se a associação, responsável por identificar relações que ocorrem no conjunto de dados. Embora a associação seja uma das técnicas mais utilizadas, a quantidade de padrões extraídos pode vir a sobrecarregar o usuário de tal maneira que encontrar algo interessante dentre a imensidão de padrões obtidos passa a ser um novo desafio. Para solucionar esse problema, uma grande parte dos trabalhos relacionados à associação está voltada a etapa de pós-processamento. Esses trabalhos geralmente propõem abordagens de pós-processamento que visam, segundo determinada estratégia, facilitar a busca pelos padrões interessantes ao domínio. Nos últimos anos, essas abordagens têm incluído no processo o conhecimento e/ou interesse do usuário sobre o domínio. Contudo, nas abordagens atualmente existentes, o usuário deve, por meio de algum formalismo descrever explicitamente seu conhecimento e/ou interesse, requerendo do usuário um tempo considerável, podendo levar, inclusive, a especificações incompletas e/ou incorretas. Além disso, na maioria das vezes, o usuário não tem ideia do que é provavelmente interessante, nem a partir de quais relações iniciar a busca. Nota-se, portanto, que um dos desafios dessas abordagens é considerar o conhecimento e/ou interesse do usuário. Além disso, é necessário considerar também o número de regras que o usuário analisará. A análise de regras feita por um especialista é custosa e, na maioria dos casos, o usuário quer explorar as regras geradas sem limitar a exploração ao conhecimento que ele já possui. Portanto, é importante que o usuário avalie o menor número de regras possível e, com base nessa avaliação, abordagens de pós-processamento consigam o auxiliar na busca pelas regras que ele poderá considerar interessante. Para tanto, é proposto neste trabalho que o pós-processamento seja tratado como um problema de classificação semissupervisionada transdutiva, uma vez que permite que o usuário rotule, considerando classes pré-definidas (por exemplo, \"Interessante\" ou \"Não Interessante\"), apenas algumas regras do conjunto a ser explorado para que todas as outras regras sejam automaticamente rotuladas. Além disso, por meio da definição dos rótulos de algumas regras, é possível capturar implicitamente o conhecimento e/ou interesse do usuário sobre o domínio. Para tanto, é necessário que as regras sejam modeladas de maneira a permitir: (a) selecionar as regras a serem rotuladas pelo usuário a fim de capturar implicitamente seu conhecimento e/ou interesse; (b) propagar os rótulos das regras já classificadas pelo usuário a todas as outras regras não rotuladas. Desse modo, neste trabalho, as regras foram modeladas via redes, uma vez que: (i) uma vasta quantidade de medidas de exploração de redes pode ser utilizada, em conjunto com as informações fornecidas pelo usuário, a fim de viabilizar o item (a); (ii) algoritmos de propagação de rótulos podem ser utilizados a fim de viabilizar o item (b). Diante do apresentado, ressalta-se que as contribuições deste trabalho estão na capacidade de se extrair o conhecimento e/ou interesse do usuário de acordo com as características da base de dados e direcionar sua exploração sem a necessidade de se definir previamente o que será explorado. Além disso, os resultados obtidos demonstram a capacidade da PARLP em direcionar o usuário para o conhecimento considerado interessante, reduzindo, para tanto, a quantidade de regras a serem exploradas. Por fim, este trabalho contribui também para demonstrar que é possível tratar o pós-processamento de regras de associação como um problema de propagação de rótulos. / One of the existing data mining techniques is association rules, responsible for identifying relationships that occur in the data set. Although the association rule is one of the most widely used techniques, the amount of extracted patterns can overload the user in such a way that finding interesting patterns among the large amount of obtained patterns becomes a challenge. To solve this problem, a large part of the association-related work is focused on the post-processing step. These works generally propose a post-processing approaches that, according to a certain strategy, aims facilitating the search for interesting patterns. Nowadays, approaches have included the user knowledge in the domain and / or interests on the process. However, in the current existing approaches, the user knowledge and/or interest must be explicitly described by some formalism, requiring a considerable time and may even lead to incomplete and / or incorrect specifications. In addition, the user has no idea what probably is interesting or which patterns to begin the searching. Notice that one of the challenges of these approaches is to consider the knowledge and / or user interest. In addition, consider the number of rules the user will examine is necessary. The analysis of the rules by an expert is expensive and, in most cases, the user wants to explore the rules generated without limiting exploration to the knowledge he already has. Therefore, the user evaluate the fewest amount of rules possible is important and, based on this assessment, the post-processing approaches be able to assist in the search for the rules that he may consider interesting. So, in this work is proposed that the post-processing is treated as a transductive semi supervised classification problem, since it allows the user to label some rules based on two predefined classes (e.g. \"interesting\"or \"not interesting\"), in a way that just a small amount of the rule set needs to be explored and all other association rules are automatically labeled. Furthermore, you can implicitly capture the knowledge and / or user interest in the domain by labeling some rules. Thus, the rules need to be modeled to allow: (a) select the rules to be labeled by the user to implicitly capture their knowledge and / or interest; (b) propagate the rules\' labels classified by the user to all not labeled rules. To do so, the rules were modeled via networks in this work, due to: (i) a large amount of network measures can be used in conjunction with the information provided by the user, to make item (a) possible; (ii) label propagation algorithms can be used in order to make item (b) possible. Therefore, we highlight that the contributions of this work are the ability to extract knowledge and / or user interest according to database characteristics and direct the user exploration without previously defining what will be explored. In addition, the results demonstrate that the proposed approach is able to direct the user to the knowledge considered interesting, reducing the amount of rules to be explored. Finally, this work also contributes to demonstrate that treat the post-processing of association rules as a problem of propagation of labels is possible.
|
7 |
Avaliação e comparação de desempenho entre a arquitetura IP e a arquitetura IP sobre MPLS\" / Performance evaluation and comparison between IP architecture and IP over MPLS architectureKakihara, Carlos Marcos 26 September 2006 (has links)
Este trabalho apresenta uma comparação e avaliação das arquiteturas de roteamento IP e IP sobre MPLS. Inicialmente, são apresentados alguns conceitos básicos dos protocolos IP e MPLS, e suas relações com a camada 2 do modelo OSI. Duas características foram analisadas: o processo de encaminhamento e as granularidades para engenharia de tráfego. A medição de desempenho foi feita com computadores Linux realizando a tarefa de roteamento/encaminhamento de datagramas IP em diferentes tipos de redes Ethernet. Com base nos resultados dos testes, é feita uma discussão sobre o desempenho e topologias adequadas para cada arquitetura. / This work presents a comparison and evaluation of IP and the IP over MPLS routing architectures. Initially, some basic concepts of IP and MPLS protocols and their relationship with layer 2 of OSI model are introduced. Two characteristics were analyzed: the forwarding process and traffic engineering granularity. The performance analysis was realized on Linux computers routing/forwarding IP datagramas at different types of Ethernet networks. Considering the results of the tests, a discussion about performance and suitable topologies is made for each architecture.
|
8 |
Estudo da caracterização e dimensionamento de uma unidade de produção de pellets de aparas de papel cartão SBS com PETGoll, Maiara Fernanda Gonçalves Holz, 1987-, Tavares, Lorena Benathar Ballod, 1959-, Vegini, Atilano Antonio, 1964-, Universidade Regional de Blumenau. Programa de Pós-Graduação em Engenharia Ambiental. January 2016 (has links) (PDF)
Orientador: Lorena Benathar Ballod Tavares. / Co-orientador: Atilano Antonio Vegini. / Dissertação (Mestrado em Engenharia Ambiental) - Programa de Pós-Graduação em Engenharia Ambiental, Centro de Ciências Tecnológicas, Universidade Regional de Blumenau, Blumenau.
|
9 |
Conformidade da rotulagem de alimentos consumidos por escolares à legislação brasileira /Garcia, Márcia Regina, 1982- January 2012 (has links)
Orientador: Rogério Lopes Vieites / Banca: Flávia Queiroga A. Almeida / Banca: Juliana Audi Giannoni / Resumo: Rótulo é toda e qualquer informação referente a um produto que esteja transcrita em sua embalagem. Para o consumidor é por meio das tabelas de informação nutricional contidas nos rótulos que se tem acesso a dados como quantidade e porcentagem dos nutrientes presentes nos alimentos. Através desse conhecimento, pode-se realizar escolhas alimentares mais saudáveis, mitigando os efeitos negativos referentes à má nutrição na população, principalmente entre as crianças, alvo mais crítico da incidência da obesidade. O presente trabalho buscou verificar se os aspectos gerais dos rótulos de alimentos consumidos pelo público infantil estavam em acordo com a legislação brasileira vigente. Foram analisados os rótulos de vinte e cinco produtos por meio da Ficha de Avaliação de Rotulagem, elaborada com base nas RDC N° 259 e N° 360. Analisou-se também a adequação nutricional dos nutrientes destes alimentos (carboidratos, proteínas, gordura total, gordura saturada, gordura trans, fibra alimentar e sódio) em relação à preconizada pela IDR para crianças de 4 a 8 anos de idade. Dentre os 181 rótulos avaliados, notou-se percentual de 36,2% de inadequações das informações obrigatórias, destacando-se a ocorrência de vocábulos induzindo ao equívoco o consumidor em 36,1% das embalagens e da não especificação, na lista de ingredientes, dos aditivos alimentares utilizados em 33,4% dos rótulos. Em alguns alimentos como empanados de frango e macarrões instantâneos, observou-se que com apenas uma porção já se atingia a totalidade das necessidades diárias infantis para o nutriente sódio. Constatou-se alto percentual de gorduras totais e saturadas em grande parte dos alimentos, assim como elevado índice de carboidratos e baixo teor de fibras alimentares. Desta forma, conclui-se que, apesar da legislação... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Label is every and any information regarding to a product that is transcribed in its package. Through this knowledge, it is possible to make healthier food choices, minimizing the negative effects related to poor nutrition in the population, especially among children, the most critical rate of obesity incidence. Labels of twenty-five products were analyzed hrough Labelling assessment form, drawn up on the basis of the RDC N° 259 and N° 360. The nutritional adequacy of the food's nutrients was also examined in relation of advocated by IDR to children from 4 to 8 years old. Among the 181 labels evaluated, the percentage of 36.2% for inadequacies from required information was noted, highlighting the occurrence of words inducing the misconception to consumer in 36.1% of packges and, in the ingredients list, the lack of specification for food additives used in 33.4% of labels. In certain foods such as breaded chicken and the noodles, it was noted that with only one portion the children's daily sodium nutrient needs are achieved. High percentage of total fat and saturated fat was found in the majority of the food, as well as high level of carbohydrates and low rate for dietary fiber. In this way, it is concluded that, in spite of the food labelling legislation be comprehensive and serve as an example to other countries, there is still the need for increased monitoring for compliance with established standards. In addition, because it is valuable for the nutritional education strategy, the labelling of foods should receive greater attention from companies, providing more reliable data so that consumers make healthy food choices / Mestre
|
10 |
Classificação automática de textos por meio de aprendizado de máquina baseado em redes / Text automatic classification through machine learning based on networksRossi, Rafael Geraldeli 26 October 2015 (has links)
Nos dias atuais há uma quantidade massiva de dados textuais sendo produzida e armazenada diariamente na forma de e-mails, relatórios, artigos e postagens em redes sociais ou blogs. Processar, organizar ou gerenciar essa grande quantidade de dados textuais manualmente exige um grande esforço humano, sendo muitas vezes impossível de ser realizado. Além disso, há conhecimento embutido nos dados textuais, e analisar e extrair conhecimento de forma manual também torna-se inviável devido à grande quantidade de textos. Com isso, técnicas computacionais que requerem pouca intervenção humana e que permitem a organização, gerenciamento e extração de conhecimento de grandes quantidades de textos têm ganhado destaque nos últimos anos e vêm sendo aplicadas tanto na academia quanto em empresas e organizações. Dentre as técnicas, destaca-se a classificação automática de textos, cujo objetivo é atribuir rótulos (identificadores de categorias pré-definidos) à documentos textuais ou porções de texto. Uma forma viável de realizar a classificação automática de textos é por meio de algoritmos de aprendizado de máquina, que são capazes de aprender, generalizar, ou ainda extrair padrões das classes das coleções com base no conteúdo e rótulos de documentos textuais. O aprendizado de máquina para a tarefa de classificação automática pode ser de 3 tipos: (i) indutivo supervisionado, que considera apenas documentos rotulados para induzir um modelo de classificação e classificar novos documentos; (ii) transdutivo semissupervisionado, que classifica documentos não rotulados de uma coleção com base em documentos rotulados; e (iii) indutivo semissupervisionado, que considera documentos rotulados e não rotulados para induzir um modelo de classificação e utiliza esse modelo para classificar novos documentos. Independente do tipo, é necessário que as coleções de documentos textuais estejam representadas em um formato estruturado para os algoritmos de aprendizado de máquina. Normalmente os documentos são representados em um modelo espaço-vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a um termo ou atributo da coleção de documentos. Algoritmos baseados no modelo espaço-vetorial consideram que tanto os documentos quanto os termos ou atributos são independentes, o que pode degradar a qualidade da classificação. Uma alternativa à representação no modelo espaço-vetorial é a representação em redes, que permite modelar relações entre entidades de uma coleção de textos, como documento e termos. Esse tipo de representação permite extrair padrões das classes que dificilmente são extraídos por algoritmos baseados no modelo espaço-vetorial, permitindo assim aumentar a performance de classificação. Além disso, a representação em redes permite representar coleções de textos utilizando diferentes tipos de objetos bem como diferentes tipos de relações, o que permite capturar diferentes características das coleções. Entretanto, observa-se na literatura alguns desafios para que se possam combinar algoritmos de aprendizado de máquina e representações de coleções de textos em redes para realizar efetivamente a classificação automática de textos. Os principais desafios abordados neste projeto de doutorado são (i) o desenvolvimento de representações em redes que possam ser geradas eficientemente e que também permitam realizar um aprendizado de maneira eficiente; (ii) redes que considerem diferentes tipos de objetos e relações; (iii) representações em redes de coleções de textos de diferentes línguas e domínios; e (iv) algoritmos de aprendizado de máquina eficientes e que façam um melhor uso das representações em redes para aumentar a qualidade da classificação automática. Neste projeto de doutorado foram propostos e desenvolvidos métodos para gerar redes que representem coleções de textos, independente de domínio e idioma, considerando diferentes tipos de objetos e relações entre esses objetos. Também foram propostos e desenvolvidos algoritmos de aprendizado de máquina indutivo supervisionado, indutivo semissupervisionado e transdutivo semissupervisionado, uma vez que não foram encontrados na literatura algoritmos para lidar com determinados tipos de relações, além de sanar a deficiência dos algoritmos existentes em relação à performance e/ou tempo de classificação. É apresentado nesta tese (i) uma extensa avaliação empírica demonstrando o benefício do uso das representações em redes para a classificação de textos em relação ao modelo espaço-vetorial, (ii) o impacto da combinação de diferentes tipos de relações em uma única rede e (iii) que os algoritmos propostos baseados em redes são capazes de superar a performance de classificação de algoritmos tradicionais e estado da arte tanto considerando algoritmos de aprendizado supervisionado quanto semissupervisionado. As soluções propostas nesta tese demonstraram ser úteis e aconselháveis para serem utilizadas em diversas aplicações que envolvam classificação de textos de diferentes domínios, diferentes características ou para diferentes quantidades de documentos rotulados. / A massive amount of textual data, such as e-mails, reports, articles and posts in social networks or blogs, has been generated and stored on a daily basis. The manual processing, organization and management of this huge amount of texts require a considerable human effort and sometimes these tasks are impossible to carry out in practice. Besides, the manual extraction of knowledge embedded in textual data is also unfeasible due to the large amount of texts. Thus, computational techniques which require little human intervention and allow the organization, management and knowledge extraction from large amounts of texts have gained attention in the last years and have been applied in academia, companies and organizations. The tasks mentioned above can be carried out through text automatic classification, in which labels (identifiers of predefined categories) are assigned to texts or portions of texts. A viable way to perform text automatic classification is through machine learning algorithms, which are able to learn, generalize or extract patterns from classes of text collections based on the content and labels of the texts. There are three types of machine learning algorithms for automatic classification: (i) inductive supervised, in which only labeled documents are considered to induce a classification model and this model are used to classify new documents; (ii) transductive semi-supervised, in which all known unlabeled documents are classified based on some labeled documents; and (iii) inductive semi-supervised, in which labeled and unlabeled documents are considered to induce a classification model in order to classify new documents. Regardless of the learning algorithm type, the texts of a collection must be represented in a structured format to be interpreted by the algorithms. Usually, the texts are represented in a vector space model, in which each text is represented by a vector and each dimension of the vector corresponds to a term or feature of the text collection. Algorithms based on vector space model consider that texts, terms or features are independent and this assumption can degrade the classification performance. Networks can be used as an alternative to vector space model representations. Networks allow the representations of relations among the entities of a text collection, such as documents and terms. This type of representation allows the extraction patterns which are not extracted by algorithms based on vector-space model. Moreover, text collections can be represented by networks composed of different types of entities and relations, which provide the extraction of different patterns from the texts. However, there are some challenges to be solved in order to allow the combination of machine learning algorithms and network-based representations to perform text automatic classification in an efficient way. The main challenges addressed in this doctoral project are (i) the development of network-based representations efficiently generated which also allows an efficient learning; (ii) the development of networks which represent different types of entities and relations; (iii) the development of networks which can represent texts written in different languages and about different domains; and (iv) the development of efficient learning algorithms which make a better use of the network-based representations and increase the classification performance. In this doctoral project we proposed and developed methods to represent text collections into networks considering different types of entities and relations and also allowing the representation of texts written in any language or from any domain. We also proposed and developed supervised inductive, semi-supervised transductive and semi-supervised inductive learning algorithms to interpret and learn from the proposed network-based representations since there were no algorithms to handle certain types of relations considered in this thesis. Besides, the proposed algorithms also attempt to obtain a higher classification performance and a faster classification than the existing network-based algorithms. In this doctoral thesis we present (i) an extensive empirical evaluation demonstrating the benefits about the use of network-based representations for text classification, (ii) the impact of the combination of different types of relations in a single network and (iii) that the proposed network-based algorithms are able to surpass the classification performance of traditional and state-of-the-art algorithms considering both supervised and semi-supervised learning. The solutions proposed in this doctoral project have proved to be advisable to be used in many applications involving classification of texts from different domains, areas, characteristics or considering different numbers of labeled documents.
|
Page generated in 0.0331 seconds