Spelling suggestions: "subject:"neverending 1earning"" "subject:"neverending c1earning""
1 |
Análise retórica com base em grande quantidade de dados / Rhetorical analysis based on large amount of dataMaziero, Erick Galani 09 November 2016 (has links)
Com uma quantidade quase incontável de informação textual disponível na web, a automatização de diversas tarefas referentes ao processamento automático de textos é uma necessidade inegável. Em abordagens superficiais do PLN (Processamento da Linguagem Natural), importantes propriedades do texto são perdidas, como posição, ordem, adjacência e contexto dos segmentos textuais. Uma análise textual mais profunda, como a realizada no nível do discurso, ocupa-se da busca e identificação da organização retórica do texto, gerando uma estrutura hierárquica em que as intenções do autor são explicitadas e relacionadas entre si. Para a automatização dessa tarefa, tem-se utilizado técnicas de aprendizado automático, predominantemente do paradigma supervisionado. Nesse paradigma, são necessários dados rotulados manualmente para a geração dos modelos de classificação. Como a anotação para essa tarefa é algo custoso, os resultados obtidos no aprendizado são insatisfatórios, pois estão bem aquém do desempenho humano na mesma tarefa. Nesta tese, o uso massivo de dados não rotulados no aprendizado semissupervisionado sem fim foi empregado na tarefa de identificação das relações retóricas. Foi proposto um framework que utiliza textos obtidos continuamente da web. No framework, realiza-se a monitoração da mudança de conceito, que pode ocorrer durante o aprendizado contínuo, e emprega-se uma variação dos algoritmos tradicionais de semissupervisão. Além disso, foram adaptados para o Português técnicas do estado da arte. Sem a necessidade de anotação humana, a medida-F melhorou, por enquanto, em 0,144 (de 0,543 para 0,621). Esse resultado consiste no estado da arte da análise discursiva automática para o Português. / Considering the almost uncountable textual information available on the web, the auto- matization of several tasks related to the automatic text processing is an undeniable need. In superficial approaches of NLP (Natural Language Processing), important properties of the text are lost, as position, order, adjacency and context of textual segments. A de- eper analysis, as carried out in the discursive level, deals with the identification of the rhetoric organization of the text, generating a hierarchical structure. In this structure, the intentions of the author are identified and related among them. To the automati- zation of this task, most of the works have used machine learning techniques, mainly from the supervised paradigm. In this paradigm, manually labeled data is required to obtain classification models, specially to identify the rhetorical relations. As the manual annotation is a costly process, the obtained results in the task are unsatisfactory, because they are below the human perfomance. In this thesis, the massive use of unlabeled data was applied in a semi-supervised never-ending learning to identify the rhetorical relations. In this exploration, a framework was proposed, which uses texts continuously obtained from the web. In the framework, a variation of traditional semi-supervised algorithms was employed, and it uses a concept-drift monitoring strategy. Besides that, state of the art techniques for English were adapted to Portuguese. Without the human intervention, the F-measure increased, for while, 0.144 (from 0.543 to 0.621). This result consists in the state-of-the-art for Discourse Analysis in Portuguese.
|
2 |
Uma abordagem de sistema de recomendação orientada pelo aprendizado sem fimGotardo, Reginaldo Aparecido 28 February 2014 (has links)
Made available in DSpace on 2016-06-02T19:03:59Z (GMT). No. of bitstreams: 1
6340.pdf: 3337556 bytes, checksum: 693a6a9cfb4dc2a26651724099fcf890 (MD5)
Previous issue date: 2014-02-28 / Financiadora de Estudos e Projetos / Recommender Systems have a very well defined function: recommend something to someone. Through Artificial Intelligence techniques, more particularly from areas such as Data Mining and Machine Learning, it is possible to build recommendation systems. These systems will analyze large amounts of data and will inform users about some items that will probably interest them. However, some limitations of the recommender systems, which are sometimes, caused by the Mining or Learning models themselves or by the lack of available data make them computationally expensive or inaccurate. Besides, recommender systems in real environments are dynamic: data change over time or with new ratings, new users, new items or when user updates previous ratings. The Never Ending-Learning Approach (NEL) aims at a self-supervised and self-reflexive learning to mainly maximize learning of a system based on data from several sources, algorithms that can cooperate to make a better knowledge base considering the dynamic of real learning problems: learning improves along the time. As mentioned before, recommender systems are dynamic and depend on data between user and items. In order to minimize this dependency and to provide meaningful and useful results to users, this work presents a Recommender System approach guided by NEL Principles. Results show that it is possible to minimize or delay the data dependency through classifiers coupling techniques and concept deviation control. Due to that, it is possible to start with little data from a recommender system that will be dynamic and will receive new information. These new information will help even more in controlling the concept deviation and promoting the most useful recommendations. Then, this thesis presents how the Recommender System guided by NEL principles can contribute to the state of the art in recommender systems and implement a system with practical results through the Never-Ending Learning Approach. / Os Sistemas de Recomendação possuem uma função muito bem definida: recomendar algo a alguém. Através de técnicas de Inteligência Artificial, mais particularmente de áreas como a Mineração de Dados e o Aprendizado de Máquina é possível construir Sistemas de Recomendação que analisem grandes volumes de dados e consigam predizer aos usuários algo que provavelmente irá lhes interessar. No entanto, algumas limitações dos Sistemas de Recomendações, causadas as vezes pelos próprios modelos de Mineração ou Aprendizado utilizados ou pela escassez dos dados disponíveis, os tornam computacionalmente caros ou imprecisos. Além disto, Sistemas de Recomendação em ambientes reais são dinâmicos, ou seja, os dados mudam com o passar do tempo seja com novas avaliações, novos usuários, novos itens ou mesmo atualizações de avaliações anteriores. A abordagem de Aprendizado Sem-Fim (SASF) visa um aprendizado autossupervisionado e autorreflexivo para, sobretudo, maximizar o aprendizado de um sistema com base em dados de fontes diversas, algoritmos que cooperem entre si para melhor modelar uma base de conhecimento e considerar a dinamicidade de problemas reais de aprendizado: Aprender amadurece com o tempo. Como já dito, sistemas de recomendação são dinâmicos e dependem de dados entre usuários e itens. Para minimizar esta dependência e prover resultados significativos e úteis aos usuários é apresentada neste trabalho uma abordagem de Sistema de Recomendação orientada pelos Princípios do Aprendizado Sem-Fim. Os resultados obtidos sugerem que é possível minimizar ou retardar a dependência de dados através de técnicas de acoplamento de classificadores e do controle do desvio de conceito. Com isto, é possível atuar com poucos dados de um sistema de recomendação que será dinâmico e receberá novas informações. Estas novas informações auxiliarão ainda mais no controle do desvio de conceito e na promoção de recomendações mais úteis. Por tudo isto, este trabalho apresenta como proposta o desenvolvimento de uma Abordagem para Sistemas de Recomendação baseada no Aprendizado Sem Fim, como forma de contribuir para o estado da arte em sistemas de recomendação e de implementar um sistema com resultados práticos através do Aprendizado sem Fim.
|
3 |
Análise retórica com base em grande quantidade de dados / Rhetorical analysis based on large amount of dataErick Galani Maziero 09 November 2016 (has links)
Com uma quantidade quase incontável de informação textual disponível na web, a automatização de diversas tarefas referentes ao processamento automático de textos é uma necessidade inegável. Em abordagens superficiais do PLN (Processamento da Linguagem Natural), importantes propriedades do texto são perdidas, como posição, ordem, adjacência e contexto dos segmentos textuais. Uma análise textual mais profunda, como a realizada no nível do discurso, ocupa-se da busca e identificação da organização retórica do texto, gerando uma estrutura hierárquica em que as intenções do autor são explicitadas e relacionadas entre si. Para a automatização dessa tarefa, tem-se utilizado técnicas de aprendizado automático, predominantemente do paradigma supervisionado. Nesse paradigma, são necessários dados rotulados manualmente para a geração dos modelos de classificação. Como a anotação para essa tarefa é algo custoso, os resultados obtidos no aprendizado são insatisfatórios, pois estão bem aquém do desempenho humano na mesma tarefa. Nesta tese, o uso massivo de dados não rotulados no aprendizado semissupervisionado sem fim foi empregado na tarefa de identificação das relações retóricas. Foi proposto um framework que utiliza textos obtidos continuamente da web. No framework, realiza-se a monitoração da mudança de conceito, que pode ocorrer durante o aprendizado contínuo, e emprega-se uma variação dos algoritmos tradicionais de semissupervisão. Além disso, foram adaptados para o Português técnicas do estado da arte. Sem a necessidade de anotação humana, a medida-F melhorou, por enquanto, em 0,144 (de 0,543 para 0,621). Esse resultado consiste no estado da arte da análise discursiva automática para o Português. / Considering the almost uncountable textual information available on the web, the auto- matization of several tasks related to the automatic text processing is an undeniable need. In superficial approaches of NLP (Natural Language Processing), important properties of the text are lost, as position, order, adjacency and context of textual segments. A de- eper analysis, as carried out in the discursive level, deals with the identification of the rhetoric organization of the text, generating a hierarchical structure. In this structure, the intentions of the author are identified and related among them. To the automati- zation of this task, most of the works have used machine learning techniques, mainly from the supervised paradigm. In this paradigm, manually labeled data is required to obtain classification models, specially to identify the rhetorical relations. As the manual annotation is a costly process, the obtained results in the task are unsatisfactory, because they are below the human perfomance. In this thesis, the massive use of unlabeled data was applied in a semi-supervised never-ending learning to identify the rhetorical relations. In this exploration, a framework was proposed, which uses texts continuously obtained from the web. In the framework, a variation of traditional semi-supervised algorithms was employed, and it uses a concept-drift monitoring strategy. Besides that, state of the art techniques for English were adapted to Portuguese. Without the human intervention, the F-measure increased, for while, 0.144 (from 0.543 to 0.621). This result consists in the state-of-the-art for Discourse Analysis in Portuguese.
|
4 |
Leitura da web em português em ambiente de aprendizado sem-fimDuarte, Maísa Cristina 04 January 2016 (has links)
Submitted by Alison Vanceto (alison-vanceto@hotmail.com) on 2017-01-03T12:49:19Z
No. of bitstreams: 1
TeseMCD.pdf: 1564245 bytes, checksum: fbb9eb1099a1b38351371c97e8e49bb4 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2017-01-16T16:47:27Z (GMT) No. of bitstreams: 1
TeseMCD.pdf: 1564245 bytes, checksum: fbb9eb1099a1b38351371c97e8e49bb4 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2017-01-16T16:47:38Z (GMT) No. of bitstreams: 1
TeseMCD.pdf: 1564245 bytes, checksum: fbb9eb1099a1b38351371c97e8e49bb4 (MD5) / Made available in DSpace on 2017-01-16T16:47:46Z (GMT). No. of bitstreams: 1
TeseMCD.pdf: 1564245 bytes, checksum: fbb9eb1099a1b38351371c97e8e49bb4 (MD5)
Previous issue date: 2016-01-04 / Não recebi financiamento / NELL is a computer system that has the goal of learn to learn 24 hours per day, continuously
and learn more an better than the last day, to perform the knowledge base (KB). NELL is
running since January 12 of 2010. Furthermore, NELL goals is have hight precision to be able to continue the learning.
NELL is developed in macro-reading context, because this NELL needs very much redundancy to run. The first step to run NELL is to have an big (all-pairs-data). An all-pairs-data
is a preprocessed base using Natural Language Processing (NLP), that base has all sufficient statistics about a corpus of web pages. The proposal of this project was to create a instance of NELL (currently in English) in Portuguese. For this, the first goal was the developing an all-pairs-data in Portuguese. The
second step was to create a new version of Portuguese NELL. And finally, the third goal
was to develop a coreference resolution hybrid method focused in features semantics and
morphologics. This method is not dependent of a specific language, it is can be applied for
another languages with the same alphabet of Portuguese language. The NELL in Portuguese was developed, but the all-pairs-data is not big enough. Because it Portuguese NELL is not running for ever, like the English version. Even so, this project present the steps about how to develop a NELL in other language and some ideas about how to improve the all-pairs-data. By the way, this project present a coreference resolution hybrid method with good results to NELL. / A NELL é um sistema de computador que possui o objetivo de executar 24 horas por dia,
7 dias por semana, sem parar. A versão atual da NELL foi iniciada em 12 de Janeiro de
2010 e continua ativa. Seu objetivo é aprender cada vez mais fatos da web para popular sua
base de conhecimento (Knowlegde Base - KB). Além de aprender cada vez mais, a NELL
também objetiva alcançar alta confiança no aprendizado para garantir a continuidade do
aprendizado. A NELL foi desenvolvida e atua no contexto da macroleitura, no qual é necessária uma grande quantidade e redundância de dados. Para que o sistema possa aprender, o primeiro passo é criar uma base preprocessada (all-pairs-data) a partir do uso de técnicas linguísticas. O all-pairs-data deve possuir todas as estatísticas suficientes para a execução da NELL e também deve ser de um tamanho suficientemente grande para que o aprendizado possa ocorrer. Neste projeto, foi proposta a criação de uma nova instância da NELL em português. Inicialmente
foi proposta a criação de um all-pairs-data e, em seguida, a criação de uma abordagem híbrida para a resolução de correferências independente de língua por base em
características semânticas e morfológicas. A proposta híbrida objetivou aperfeiçoar o processo atual de tratamento de correferências na NELL, melhorando assim a confiabilidade
no aprendizado. Todas as propostas foram desenvolvidas e a NELL em português obteve bons resultados. Tais resultados evidenciam que a leitura da web em português poderá se tornar um sistema de aprendizado sem-fim. Para que isso ocorra são também apresentadas as futuras abordagens
e propostas. Além disso, este projeto apresenta a metodologia de criação da instância da NELL em português, uma proposta de resolução de correferência que explora atributos linguisticos,bem como a ontologia da NELL, além de apontar trabalhos futuros, nos quais inclui-se processos de adição de outras línguas na NELL, principalmente para aquelas que possuem
poucas páginas web disponíveis para o aprendizado.
|
Page generated in 0.1056 seconds