• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 611
  • 146
  • 19
  • 14
  • 9
  • 9
  • 9
  • 8
  • 7
  • 5
  • 5
  • 4
  • 2
  • 1
  • Tagged with
  • 807
  • 178
  • 170
  • 156
  • 156
  • 120
  • 107
  • 98
  • 92
  • 84
  • 84
  • 84
  • 83
  • 79
  • 77
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
401

Significado afectivo social y cultural atribuido a los textos escolares de Lenguaje y Comunicación distribuidos por el MINEDUC.

Oyarzún, Lucía January 2004 (has links) (PDF)
No description available.
402

A compreensão de textos em crianças da educação infantil

Marinho, Adriétt de Luna Silvino 10 February 2015 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-04-18T12:25:42Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissert ALSM BC 27.11.2015.pdf: 1228269 bytes, checksum: 7f394fc3f8e5356e291eb7623627f94e (MD5) / Made available in DSpace on 2016-04-18T12:25:42Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissert ALSM BC 27.11.2015.pdf: 1228269 bytes, checksum: 7f394fc3f8e5356e291eb7623627f94e (MD5) Previous issue date: 2015-02-10 / A compreensão de um texto envolve um conjunto de habilidades, a principal delas permeia todo o processo de construção do significado de um texto e sua efetiva compreensão e está na capacidade de elaborar inferências. Nesta pesquisa, buscou-se investigar como a compreensão acontece em sujeitos muito jovens e que ainda não sabem ler convencionalmente. Como base teórica desse estudo, adotou-se o Modelo de Construção-Integração proposto por Kintsch, em que as inferências têm lugar de destaque na compreensão de textos. Sendo assim, o presente estudo teve por principal objetivo investigar, por meio de diferentes recursos metodológicos, se as crianças da educação infantil estabeleciam inferências de diferentes tipos (causais, de estado e de previsão) enquanto ouviam um texto (metodologia on-line), no caso, uma história. Além disso, checou-se a compreensão global do texto através de tarefas realizadas após a leitura (metodologia off-line). Participaram desse estudo 60 crianças de 4 a 6 anos de idade, de classe média baixa, matriculadas em uma escola pública da Região Metropolitana do Recife. Foram divididos dois grupos de crianças (Grupo 1, composto por sujeitos da Educação Infantil 2, com idade entre 4 e 5 anos, e Grupo 2, crianças da Educação Infantil 3, com idade entre 5 e 6 anos). Cada criança foi entrevistada individualmente em duas sessões. A sessão 1 envolvia as tarefas 1 e 2. A tarefa 1 consistia na leitura interrompida de um texto narrativo pela pesquisadora dividido em partes, mediante as quais iam sendo feitas perguntas inferenciais (causais, de estado e de previsão). As respostas dadas nesta tarefa foram analisadas por dois juízes independentes, sendo classificadas nas seguintes categorias: Categoria I (não responde); Categoria II (incoerente e/ou improvável); e Categoria III (coerente e/ ou provável). Imediatamente após a audição da história, a Tarefa 2 foi aplicada, solicitando que a criança desse o tema da história ouvida. As respostas das crianças foram analisadas pelos mesmos juízes, de acordo com a seguinte classificação: T1 (não responde), T 2 (inapropriado), T 3 (apropriado/ vago), T4 (apropriado/ preciso). No dia seguinte, foi realizada a sessão 2, que dizia respeito à Tarefa 3, em que a criança era solicitada a recontar a historia ouvida no dia anterior. As reproduções elaboradas pelas crianças foram analisadas pelos dois juízes independentes de acordo com as seguintes categorias: R1 (reproduções desconectadas), R 2 (pouco fieis à historia original), R 3 (limitam-se a eventos de alguns blocos), R4 (reproduções globais), R5 (reproduções completas). De modo geral, comparações entre os diferentes tipos de inferências (causais, de estado e de previsão) mostraram que o tipo de pergunta realizada não influenciou o desempenho das crianças, uma vez que nos três tipos de inferências investigados e nos dois grupos de crianças houve maior frequência de respostas da categoria III. Verificou-se que a idade e o ano escolar não tiveram influência no desempenho das crianças. Considerando o desempenho nos dois grupos na elaboração dos temas para a história ouvida, a concentração de respostas esteve no tipo de tema T3 (apropriado/ vago), não se verificando diferenças entre os grupos para esta tarefa. Observou-se ainda uma grande dificuldade por parte das crianças de ambos os grupos na tarefa de reprodução oral da história. Contudo, as crianças do Grupo 2 demonstraram mais habilidade ao reproduzir do que as do Grupo 1. Uma comparação entre as tarefas demonstrou que as crianças da Educação Infantil tinham mais facilidade para propor um tema adequado e responder perguntas inferenciais do que reproduzir a história oralmente. O cruzamento dos dados de desempenho das crianças na Tarefa 1 com a Tarefa 2 revelou que responder perguntas inferenciais e elaborar tema da história parecem estar relacionadas, pois os participantes que tiveram melhor desempenho na Tarefa 1 também o tiveram em relação à Tarefa 2. Entre as tarefas 1 e 3, observou-se que houve alguma relação entre as duas habilidades, porém não se pode dizer que seja uma relação consistente devido a grande dificuldade na Tarefa 3 por parte dos participantes em geral. Entre as tarefas 2 e 3 não foi verificada relação entre as duas habilidades (indicação do tema e reprodução da história). Conclui-se que as crianças da Educação Infantil demonstraram certa compreensão de textos e que esta compreensão varia de uma tarefa para outra, não sendo uma habilidade que se manifeste igualmente em todas as situações de compreensão que são solicitadas a realizar. / Reading comprehension involves a set of abilities; the main one of these – the ability to elaborate inferences – permeates the whole process of constructing a text’s meaning, leading to effective comprehension. In this research we sought to investigate how comprehension happens in very young subjects that do not yet know how to read conventionally. As the theoretical basis of this study we adopted the Construction-Integration Model proposed by Kintsch, in which inferences play a crucial role in reading comprehension. Thus, the main objective of this present study was to investigate, using different methodological resources, whether pre-school children establish different types of inferences (causal, state, and predictive) while listening to a text (on-line methodology), specifically a story. Furthermore, we checked global comprehension of the text through tasks carried out after reading (off-line methodology). The subjects of the study were 60 lower middle-class children aged 4 to 6 enrolled in a public school in the greater Recife area. They were divided into two groups: Group 1, made up of subjects in pre-kindergarten, aged 4 to 5, and Group 2, of kids in kindergarten, aged 5 to 6. Each child was interviewed individually in two sessions. Session 1 involved tasks 1 and 2. Task 1 consisted of an interrupted reading, out loud by the researcher, of a narrative text divided into parts. At each break, inferential questions (causal, state, and predictive) were made. The answers given on these tasks were analyzed by two independent judges, and classified in the following categories: Category I (no answer); Category II (incoherent and/or improbable); and Category III (coherent and/or probable). Immediately after the reading of the story, Task 2 was applied, in which the children were asked to state the theme of the story they heard. The children’s answers were analyzed by the same judges, according to the following classification: T1 (no answer), T2 (inappropriate), T3 (appropriate but vague), T4 (appropriate and precise). On the following day, Session 2 took place, during which the children did Task 3, in which they were asked to retell the story they had heard the previous day. The reproductions the children elaborated were analyzed by the two independent judges, according to the following categories: R1 (unconnected reproductions), R2 (not very faithful to the original story), R3 (limited to the events of certain parts of the story), R4 (global reproductions), R5 (complete reproductions). Generally speaking, comparisons among the different types of inferences (causal, state, and predictive) showed that the type of question asked did not influence the children’s performance, since in all three types of inferences that were investigated and in both groups of children there was a preponderance of Category III answers. We observed that neither age nor grade in school influenced the children’s performance. Considering the performance of both groups on elaborating the themes of the story heard, most answers were of the T3 type (appropriate but vague). No difference between the two groups was found on this task. We observed, furthermore, great difficulty on the part of children in both groups with the task of orally reproducing the story. However, the children in Group 2 demonstrated a greater ability in this task than those in Group 1. A comparison between the tasks demonstrated that the pre-school children found it easier to propose an adequate theme and answer inferential questions than to reproduce the story orally. Cross-referencing the data on the children’s performance on Task 1 with that of Task 2 revealed that answering inferential questions and elaborating the theme of the story seem to be related, since the subjects who had the best performance on Task 1 also had the best on Task 2. Between Tasks 1 and 3, we observed that there was some relation between the two abilities, but we cannot say it is a consistent relation due to the great difficulty most subjects had with Task 3. Between Tasks 2 and 3, we found no relation between the two abilities (indicating the theme and reproducing the story). We conclude that the pre-school children demonstrated some reading comprehension, which varies from task to task, not being a skill which manifests equally in all comprehension situations they are asked to perform.
403

El comunicador social en la elaboración y edición de libros. Experiencia: textos escolares para el Ministerio de Educación (setiembre de 2008 – octubre de 2009)

Noblecilla Ramirez, Carmen Graciela January 2017 (has links)
Publicación a texto completo no autorizada por el autor / Sistematiza la experiencia del autor en la edición de textos escolares para el Ministerio de Educación en el periodo setiembre de 2008 a octubre de 2009. Por ello identifica procesos comunes, en cuanto a los proyectos editoriales, para tomarlos como base en la elaboración de libros de calidad y establece un único esquema de procesos que permita hacer más eficiente el trabajo editorial, y así elaborar textos con el mínimo porcentaje de erratas. Define y describe las etapas de la edición. Para que de esta manera todo aquel que sea parte de un equipo editorial pueda adaptarse a ellas con facilidad. Estandariza la producción para que los procesos editoriales estén organizados en una sola dirección y no se rijan por particularidades. De esta manera se obtendrán productos distintos, pero con ejes comunes que reflejen fielmente la imagen editorial. Estructura los proyectos editoriales para que desde su concepción, estén claros y tengan una identidad que al final se vea plasmada con un adecuado cuidado de edición. Aplica las técnicas de sistematización. Vincula las técnicas de esta especialidad para elaborar un flujo que permita conocer el punto de vista de un comunicador social con respecto a los procesos editoriales. Vincula al comunicador social con el mundo editorial. A través de la sistematización, da a conocer la labor de un comunicador como editor, en la que aplica sus conocimientos en beneficio de lograr un producto de calidad. / Trabajo de suficiencia profesional
404

Resúmenes semiautomáticos de conocimiento : caso de RDF

Garrido García, Camilo Fernando January 2013 (has links)
Ingeniero Civil en Computación / En la actualidad, la cantidad de información que se genera en el mundo es inmensa. En el campo científico tenemos, por ejemplo, datos astronómicos con imágenes de las estrellas, los datos de pronósticos meteorológicos, los datos de infomación biológica y genética, etc. No sólo en el mundo científico se produce este fenómeno, por ejemplo, un usuario navegando por Internet produce grandes cantidades de información: Comentarios en foros, participación en redes sociales o simplemente la comunicación a través de la web. Manejar y analizar esta cantidad de información trae grandes problemas y costos. Por ello, antes de realizar un análisis, es conveniente determinar si el conjunto de datos que se posee es adecuado para lo que se desea o si trata sobre los temas que son de nuestro interés. Estas preguntas podrían responderse si se contara con un resumen del conjunto de datos. De aquí surge el problema que esta memoria abarca: Crear resúmenes semi-automáticos de conocimiento formalizado. En esta memoria se diseñó e implementó un método para la obtención de resúmenes semiautomáticos de conjuntos RDF. Dado un grafo RDF se puede obtener un conjunto de nodos, cuyo tamaño es determinado por el usuario, el cual representa y da a entender cuáles son los temas más importantes dentro del conjunto completo. Este método fue diseñado en base a los conjuntos de datos provistos por DBpedia. La selección de recursos dentro del conjunto de datos se hizo utilizando dos métricas usadas ampliamente en otros escenarios: Centralidad de intermediación y grados. Con ellas se detectaron los recursos más importantes en forma global y local. Las pruebas realizadas, las cuales contaron con evaluación de usuarios y evaluación automática, indicaron que el trabajo realizado cumple con el objetivo de realizar resúmenes que den a entender y representen al conjunto de datos. Las pruebas también mostraron que los resúmenes logran un buen balance de los temas generales, temas populares y la distribución respecto al conjunto de datos completo.
405

A organização do texto escrito por alunos de 1.grau

Petroni, Maria Rosa 16 August 1994 (has links)
Orientador: Maria Cecilia Perroni / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-07-19T10:41:55Z (GMT). No. of bitstreams: 1 Petroni, Maria Rosa.pdf: 3541112 bytes, checksum: 5599c63a74750ab33b9ea0860d6ca0f6 (MD5) Previous issue date: 1994 / Resumo: O objeto de estudo desta dissertação é a organização do texto escrito por alunos de 5a e 6a séries do 1 Q grau. Partindo da hipótese de que o título sugerido pelo professor pode levar à produção de determinado gênero textual, e de que a organização textual pode apresentar dificuldades relacionadas à questão de coesão e coerência textuais, coletou-se um corpus composto de 156 (cento e cinqüenta e seis) textos produzidos por alunos de 5a e 6a séries, na faixa etária entre 11 e 13 anos, estudantes de uma escola estadual da cidade 'de Rondonópolis!MT. Esse corpus está subdividido em 54 (cinqüenta e quatro) narrações, 50 (cinqüenta) descrições e 52 (cinqüenta e duas) dissertações, todas produzidas a partir da escolha entre dois títulos sugeridos para a produção de cada um dos gêneros textuais esperados pela pesquisadora. Os resultados relativos aos mecanismos de organização textual, bem como os recursos próprios da oralidade e os problemas de coesão e coerência textuais são analisados com base nos princípios da Lingüística Textual. Além disso, a Teoria da Relevância, de Sperber & Wilson (1986), é também explorada na avaliação da coerência dos textos obtidos / Abstract: Not informed. / Mestrado / Mestre em Linguística
406

Analise espectrografica de um texto : uma contribuição aos estudos acusticos do portugues do Brasil

Vieira, Nilceni Silveira 19 December 1994 (has links)
Orientador: Luiz Carlos Cagliari / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-07-19T20:37:33Z (GMT). No. of bitstreams: 1 Vieira_NilceniSilveira_M.pdf: 30439830 bytes, checksum: 10e81e721bdd4195dff9ce2ecb1b3bcb (MD5) Previous issue date: 1994 / Resumo: Não informado / Abstract: Although it is well know that a linguistica interpretation about linguistic facts obtained from the spectrograph spectrum without the auditory interpretation is very difficult to be done, this study intended to win this challenge ...Note: The complete abstract is available with the full electronic digital thesis or dissertations / Mestrado / Mestre em Linguística
407

Extração de tópicos baseado em agrupamento de regras de associação / Topic extraction based on association rule clustering

Fabiano Fernandes dos Santos 29 May 2015 (has links)
Uma representação estruturada dos documentos em um formato apropriado para a obtenção automática de conhecimento, sem que haja perda de informações relevantes em relação ao formato originalmente não-estruturado, é um dos passos mais importantes da mineração de textos, pois a qualidade dos resultados obtidos com as abordagens automáticas para obtenção de conhecimento de textos estão fortemente relacionados à qualidade dos atributos utilizados para representar a coleção de documentos. O Modelo de Espaço de Vetores (MEV) é um modelo tradicional para obter uma representação estruturada dos documentos. Neste modelo, cada documento é representado por um vetor de pesos correspondentes aos atributos do texto. O modelo bag-of-words é a abordagem de MEV mais utilizada devido a sua simplicidade e aplicabilidade. Entretanto, o modelo bag-of-words não trata a dependência entre termos e possui alta dimensionalidade. Diversos modelos para representação dos documentos foram propostos na literatura visando capturar a informação de relação entre termos, destacando-se os modelos baseados em frases ou termos compostos, o Modelo de Espaço de Vetores Generalizado (MEVG) e suas extensões, modelos de tópicos não-probabilísticos, como o Latent Semantic Analysis (LSA) ou o Non-negative Matrix Factorization (NMF), e modelos de tópicos probabilísticos, como o Latent Dirichlet Allocation (LDA) e suas extensões. A representação baseada em modelos de tópicos é uma das abordagens mais interessantes uma vez que elas fornece uma estrutura que descreve a coleção de documentos em uma forma que revela sua estrutura interna e as suas inter-relações. As abordagens de extração de tópicos também fornecem uma estratégia de redução da dimensionalidade visando a construção de novas dimensões que representam os principais tópicos ou assuntos identificados na coleção de documentos. Entretanto, a extração é eficiente de informações sobre as relações entre os termos para construção da representação de documentos ainda é um grande desafio de pesquisa. Os modelos para representação de documentos que exploram a correlação entre termos normalmente enfrentam um grande desafio para manter um bom equilíbrio entre (i) a quantidade de dimensões obtidas, (ii) o esforço computacional e (iii) a interpretabilidade das novas dimensões obtidas. Assim,é proposto neste trabalho o modelo para representação de documentos Latent Association Rule Cluster based Model (LARCM). Este é um modelo de extração de tópicos não-probabilístico que explora o agrupamento de regras de associação para construir uma representação da coleção de documentos com dimensionalidade reduzida tal que as novas dimensões são extraídas a partir das informações sobre as relações entre os termos. No modelo proposto, as regras de associação são extraídas para cada documento para obter termos correlacionados que formam expressões multi-palavras. Essas relações entre os termos formam o contexto local da relação entre termos. Em seguida, aplica-se um processo de agrupamento em todas as regras de associação para formar o contexto geral das relações entre os termos, e cada grupo de regras de associação obtido formará um tópico, ou seja, uma dimensão da representação. Também é proposto neste trabalho uma metodologia de avaliação que permite selecionar modelos que maximizam tanto os resultados na tarefa de classificação de textos quanto os resultados de interpretabilidade dos tópicos obtidos. O modelo LARCM foi comparado com o modelo LDA tradicional e o modelo LDA utilizando uma representação que inclui termos compostos (bag-of-related-words). Os resultados dos experimentos indicam que o modelo LARCM produz uma representação para os documentos que contribui significativamente para a melhora dos resultados na tarefa de classificação de textos, mantendo também uma boa interpretabilidade dos tópicos obtidos. O modelo LARCM também apresentou ótimo desempenho quando utilizado para extração de informação de contexto para aplicação em sistemas de recomendação sensíveis ao contexto. / A structured representation of documents in an appropriate format for the automatic knowledge extraction without loss of relevant information is one of the most important steps of text mining, since the quality of the results obtained with automatic approaches for the text knowledge extraction is strongly related to the quality of the selected attributes to represent the collection of documents. The Vector Space model (VSM) is a traditional structured representation of documents. In this model, each document is represented as a vector of weights that corresponds to the features of the document. The bag-of-words model is the most popular VSM approach because of its simplicity and general applicability. However, the bag-of-words model does not include dependencies of the terms and has a high dimensionality. Several models for document representation have been proposed in the literature in order to capture the dependence among the terms, especially models based on phrases or compound terms, the Generalized Vector Space Model (GVSM) and their extensions, non-probabilistic topic models as Latent Semantic Analysis (LSA) or Non-negative Matrix Factorization (NMF) and still probabilistic topic models as the Latent Dirichlet Allocation (LDA) and their extensions. The topic model representation is one of the most interesting approaches since it provides a structure that describes the collection of documents in a way that reveals their internal structure and their interrelationships. Also, this approach provides a dimensionality reduction strategy aiming to built new dimensions that represent the main topics or ideas of the document collection. However, the efficient extraction of information about the relations of terms for document representation is still a major research challenge nowadays. The document representation models that explore correlated terms usually face a great challenge of keeping a good balance among the (i) number of extracted features, (ii) the computational performance and (iii) the interpretability of new features. In this way, we proposed the Latent Association Rule Cluster based Model (LARCM). The LARCM is a non-probabilistic topic model that explores association rule clustering to build a document representation with low dimensionality in a way that each dimension is composed by information about the relations among the terms. In the proposed approach, the association rules are built for each document to extract the correlated terms that will compose the multi-word expressions. These relations among the terms are the local context of relations. Then, a clustering process is applied for all association rules to discover the general context of the relations, and each obtained cluster is an extracted topic or a dimension of the new document representation. This work also proposes in this work an evaluation methodology to select topic models that maximize the results in the text classification task as much as the interpretability of the obtained topics. The LARCM model was compared against both the traditional LDA model and the LDA model using a document representation that includes multi-word expressions (bag-of-related-words). The experimental results indicate that LARCM provides an document representation that improves the results in the text classification task and even retains a good interpretability of the extract topics. The LARCM model also achieved great results as a method to extract contextual information for context-aware recommender systems.
408

Organização flexível de documentos / Flexible organization of documents

Tatiane Nogueira Rios 25 March 2013 (has links)
Diversos métodos têm sido desenvolvidos para a organização da crescente quantidade de documentos textuais. Esses métodos frequentemente fazem uso de algoritmos de agrupamento para organizar documentos que referem-se a um mesmo assunto em um mesmo grupo, supondo que conteúdos de documentos de um mesmo grupo são similares. Porém, existe a possibilidade de que documentos pertencentes a grupos distintos também apresentem características semelhantes. Considerando esta situação, há a necessidade de desenvolver métodos que possibilitem a organização flexível de documentos, ou seja, métodos que possibilitem que documentos sejam organizados em diferentes grupos com diferentes graus de compatibilidade. O agrupamento fuzzy de documentos textuais apresenta-se como uma técnica adequada para este tipo de organização, uma vez que algoritmos de agrupamento fuzzy consideram que um mesmo documento pode ser compatível com mais de um grupo. Embora tem-se desenvolvido algoritmos de agrupamento fuzzy que possibilitam a organização flexível de documentos, tal organização é avaliada em termos do desempenho do agrupamento de documentos. No entanto, considerando que grupos de documentos devem possuir descritores que identifiquem adequadamente os tópicos representados pelos mesmos, de maneira geral os descritores de grupos tem sido extraídos utilizando alguma heurística sobre um conjunto pequeno de documentos, realizando assim, uma avaliação simples sobre o significado dos grupos extraídos. No entanto, uma apropriada extração e avaliação de descritores de grupos é importante porque os mesmos são termos representantes da coleção que identificam os tópicos abordados nos documentos. Portanto, em aplicações em que o agrupamento fuzzy é utilizado para a organização flexível de documentos, uma descrição apropriada dos grupos obtidos é tão importante quanto um bom agrupamento, uma vez que, neste tipo de agrupamento, um mesmo descritor pode indicar o conteúdo de mais de um grupo. Essa necessidade motivou esta tese, cujo objetivo foi investigar e desenvolver métodos para a extração de descritores de grupos fuzzy para a organização flexível de documentos. Para cumprir esse objetivo desenvolveu se: i) o método SoftO-FDCL (Soft Organization - Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy at são extraídos após o processo de agrupamento fuzzy, visando identicar tópicos da organização flexível de documentos independentemente do algoritmo de agrupamento fuzzy utilizado; ii) o método SoftO-wFDCL ( Soft Organization - weighted Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy at também são extraídos após o processo de agrupamento fuzzy utilizando o grau de pertinência dos documentos em cada grupo, obtidos do agrupamento fuzzy, como fator de ponderação dos termos candidatos a descritores; iii) o método HSoftO-FDCL (Hierarchical Soft Organization - Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy hierárquicos são extraídos após o processo de agrupamento hierárquico fuzzy, identificando tópicos da organização hierárquica flexível de documentos. Adicionalmente, apresenta-se nesta tese uma aplicação do método SoftO-FDCL no contexto do programa de educação médica continuada canadense, reforçando a utilidade e aplicabilidade da organização flexível de documentos / Several methods have been developed to organize the growing number of textual documents. Such methods frequently use clustering algorithms to organize documents with similar topics into clusters. However, there are situations when documents of dffierent clusters can also have similar characteristics. In order to overcome this drawback, it is necessary to develop methods that permit a soft document organization, i.e., clustering documents into different clusters according to different compatibility degrees. Among the techniques that we can use to develop methods in this sense, we highlight fuzzy clustering algorithms (FCA). By using FCA, one of the most important steps is the evaluation of the yield organization, which is performed considering that all analyzed topics are adequately identified by cluster descriptors. In general, cluster descriptors are extracted using some heuristic over a small number of documents. The adequate extraction and evaluation of cluster descriptors is important because they are terms that represent the collection and identify the topics of the documents. Therefore, an adequate description of the obtained clusters is as important as a good clustering, since the same descriptor might identify one or more clusters. Hence, the development of methods to extract descriptors from fuzzy clusters obtained for soft organization of documents motivated this thesis. Aiming at investigating such methods, we developed: i) the SoftO-FDCL (Soft Organization - Fuzzy Description Comes Last) method, in which descriptors of fuzzy clusters are extracted after clustering documents, identifying topics regardless the adopted fuzzy clustering algorithm; ii) the SoftO-wFDCL (Soft Organization - weighted Fuzzy Description Comes Last) method, in which descriptors of fuzzy clusters are also extracted after the fuzzy clustering process using the membership degrees of the documents as a weighted factor for the candidate descriptors; iii) the HSoftO-FDCL (Hierarchical Soft Organization - Fuzzy Description Comes Last) method, in which descriptors of hierarchical fuzzy clusters are extracted after the hierarchical fuzzy clustering process, identifying topics by means of a soft hierarchical organization of documents. Besides presenting these new methods, this thesis also discusses the application of the SoftO-FDCL method on documents produced by the Canadian continuing medical education program, presenting the utility and applicability of the soft organization of documents in real-world scenario
409

Aprendizado de máquina parcialmente supervisionado multidescrição para realimentação de relevância em recuperação de informação na WEB / Partially supervised multi-view machine learning for relevance feedback in WEB information retrieval

Matheus Victor Brum Soares 28 May 2009 (has links)
Atualmente, o meio mais comum de busca de informações é a WEB. Assim, é importante procurar métodos eficientes para recuperar essa informação. As máquinas de busca na WEB usualmente utilizam palavras-chaves para expressar uma busca. Porém, não é trivial caracterizar a informação desejada. Usuários diferentes com necessidades diferentes podem estar interessados em informações relacionadas, mas distintas, ao realizar a mesma busca. O processo de realimentação de relevância torna possível a participação ativa do usuário no processo de busca. A idéia geral desse processo consiste em, após o usuário realizar uma busca na WEB permitir que indique, dentre os sites encontrados, quais deles considera relevantes e não relevantes. A opinião do usuário pode então ser considerada para reordenar os dados, de forma que os sites relevantes para o usuário sejam retornados mais facilmente. Nesse contexto, e considerando que, na grande maioria dos casos, uma consulta retorna um número muito grande de sites WEB que a satisfazem, das quais o usuário é responsável por indicar um pequeno número de sites relevantes e não relevantes, tem-se o cenário ideal para utilizar aprendizado parcialmente supervisionado, pois essa classe de algoritmos de aprendizado requer um número pequeno de exemplos rotulados e um grande número de exemplos não-rotulados. Assim, partindo da hipótese que a utilização de aprendizado parcialmente supervisionado é apropriada para induzir um classificador que pode ser utilizado como um filtro de realimentação de relevância para buscas na WEB, o objetivo deste trabalho consiste em explorar algoritmos de aprendizado parcialmente supervisionado, mais especificamente, aqueles que utilizam multidescrição de dados, para auxiliar na recuperação de sites na WEB. Para avaliar esta hipótese foi projetada e desenvolvida uma ferramenta denominada C-SEARCH que realiza esta reordenação dos sites a partir da indicação do usuário. Experimentos mostram que, em casos que buscas genéricas, que o resultado possui um bom diferencial entre sites relevantes e irrelevantes, o sistema consegue obter melhores resultados para o usuário / As nowadays the WEB is the most common source of information, it is very important to find reliable and efficient methods to retrieve this information. However, the WEB is a highly volatile and heterogeneous information source, thus keyword based querying may not be the best approach when few information is given. This is due to the fact that different users with different needs may want distinct information, although related to the same keyword query. The process of relevance feedback makes it possible for the user to interact actively with the search engine. The main idea is that after performing an initial search in the WEB, the process enables the user to indicate, among the retrieved sites, a small number of the ones considered relevant or irrelevant according with his/her required information. The users preferences can then be used to rearrange sites returned in the initial search, so that relevant sites are ranked first. As in most cases a search returns a large amount of WEB sites which fits the keyword query, this is an ideal situation to use partially supervised machine learning algorithms. This kind of learning algorithms require a small number of labeled examples, and a large number of unlabeled examples. Thus, based on the assumption that the use of partially supervised learning is appropriate to induce a classifier that can be used as a filter for relevance feedback in WEB information retrieval, the aim of this work is to explore the use of a partially supervised machine learning algorithm, more specifically, one that uses multi-description data, in order to assist the WEB search. To this end, a computational tool called C-SEARCH, which performs the reordering of the searched results using the users feedback, has been implemented. Experimental results show that in cases where the keyword query is generic and there is a clear distinction between relevant and irrelevant sites, which is recognized by the user, the system can achieve good results
410

Classificação automática de textos por meio de aprendizado de máquina baseado em redes / Text automatic classification through machine learning based on networks

Rafael Geraldeli Rossi 26 October 2015 (has links)
Nos dias atuais há uma quantidade massiva de dados textuais sendo produzida e armazenada diariamente na forma de e-mails, relatórios, artigos e postagens em redes sociais ou blogs. Processar, organizar ou gerenciar essa grande quantidade de dados textuais manualmente exige um grande esforço humano, sendo muitas vezes impossível de ser realizado. Além disso, há conhecimento embutido nos dados textuais, e analisar e extrair conhecimento de forma manual também torna-se inviável devido à grande quantidade de textos. Com isso, técnicas computacionais que requerem pouca intervenção humana e que permitem a organização, gerenciamento e extração de conhecimento de grandes quantidades de textos têm ganhado destaque nos últimos anos e vêm sendo aplicadas tanto na academia quanto em empresas e organizações. Dentre as técnicas, destaca-se a classificação automática de textos, cujo objetivo é atribuir rótulos (identificadores de categorias pré-definidos) à documentos textuais ou porções de texto. Uma forma viável de realizar a classificação automática de textos é por meio de algoritmos de aprendizado de máquina, que são capazes de aprender, generalizar, ou ainda extrair padrões das classes das coleções com base no conteúdo e rótulos de documentos textuais. O aprendizado de máquina para a tarefa de classificação automática pode ser de 3 tipos: (i) indutivo supervisionado, que considera apenas documentos rotulados para induzir um modelo de classificação e classificar novos documentos; (ii) transdutivo semissupervisionado, que classifica documentos não rotulados de uma coleção com base em documentos rotulados; e (iii) indutivo semissupervisionado, que considera documentos rotulados e não rotulados para induzir um modelo de classificação e utiliza esse modelo para classificar novos documentos. Independente do tipo, é necessário que as coleções de documentos textuais estejam representadas em um formato estruturado para os algoritmos de aprendizado de máquina. Normalmente os documentos são representados em um modelo espaço-vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a um termo ou atributo da coleção de documentos. Algoritmos baseados no modelo espaço-vetorial consideram que tanto os documentos quanto os termos ou atributos são independentes, o que pode degradar a qualidade da classificação. Uma alternativa à representação no modelo espaço-vetorial é a representação em redes, que permite modelar relações entre entidades de uma coleção de textos, como documento e termos. Esse tipo de representação permite extrair padrões das classes que dificilmente são extraídos por algoritmos baseados no modelo espaço-vetorial, permitindo assim aumentar a performance de classificação. Além disso, a representação em redes permite representar coleções de textos utilizando diferentes tipos de objetos bem como diferentes tipos de relações, o que permite capturar diferentes características das coleções. Entretanto, observa-se na literatura alguns desafios para que se possam combinar algoritmos de aprendizado de máquina e representações de coleções de textos em redes para realizar efetivamente a classificação automática de textos. Os principais desafios abordados neste projeto de doutorado são (i) o desenvolvimento de representações em redes que possam ser geradas eficientemente e que também permitam realizar um aprendizado de maneira eficiente; (ii) redes que considerem diferentes tipos de objetos e relações; (iii) representações em redes de coleções de textos de diferentes línguas e domínios; e (iv) algoritmos de aprendizado de máquina eficientes e que façam um melhor uso das representações em redes para aumentar a qualidade da classificação automática. Neste projeto de doutorado foram propostos e desenvolvidos métodos para gerar redes que representem coleções de textos, independente de domínio e idioma, considerando diferentes tipos de objetos e relações entre esses objetos. Também foram propostos e desenvolvidos algoritmos de aprendizado de máquina indutivo supervisionado, indutivo semissupervisionado e transdutivo semissupervisionado, uma vez que não foram encontrados na literatura algoritmos para lidar com determinados tipos de relações, além de sanar a deficiência dos algoritmos existentes em relação à performance e/ou tempo de classificação. É apresentado nesta tese (i) uma extensa avaliação empírica demonstrando o benefício do uso das representações em redes para a classificação de textos em relação ao modelo espaço-vetorial, (ii) o impacto da combinação de diferentes tipos de relações em uma única rede e (iii) que os algoritmos propostos baseados em redes são capazes de superar a performance de classificação de algoritmos tradicionais e estado da arte tanto considerando algoritmos de aprendizado supervisionado quanto semissupervisionado. As soluções propostas nesta tese demonstraram ser úteis e aconselháveis para serem utilizadas em diversas aplicações que envolvam classificação de textos de diferentes domínios, diferentes características ou para diferentes quantidades de documentos rotulados. / A massive amount of textual data, such as e-mails, reports, articles and posts in social networks or blogs, has been generated and stored on a daily basis. The manual processing, organization and management of this huge amount of texts require a considerable human effort and sometimes these tasks are impossible to carry out in practice. Besides, the manual extraction of knowledge embedded in textual data is also unfeasible due to the large amount of texts. Thus, computational techniques which require little human intervention and allow the organization, management and knowledge extraction from large amounts of texts have gained attention in the last years and have been applied in academia, companies and organizations. The tasks mentioned above can be carried out through text automatic classification, in which labels (identifiers of predefined categories) are assigned to texts or portions of texts. A viable way to perform text automatic classification is through machine learning algorithms, which are able to learn, generalize or extract patterns from classes of text collections based on the content and labels of the texts. There are three types of machine learning algorithms for automatic classification: (i) inductive supervised, in which only labeled documents are considered to induce a classification model and this model are used to classify new documents; (ii) transductive semi-supervised, in which all known unlabeled documents are classified based on some labeled documents; and (iii) inductive semi-supervised, in which labeled and unlabeled documents are considered to induce a classification model in order to classify new documents. Regardless of the learning algorithm type, the texts of a collection must be represented in a structured format to be interpreted by the algorithms. Usually, the texts are represented in a vector space model, in which each text is represented by a vector and each dimension of the vector corresponds to a term or feature of the text collection. Algorithms based on vector space model consider that texts, terms or features are independent and this assumption can degrade the classification performance. Networks can be used as an alternative to vector space model representations. Networks allow the representations of relations among the entities of a text collection, such as documents and terms. This type of representation allows the extraction patterns which are not extracted by algorithms based on vector-space model. Moreover, text collections can be represented by networks composed of different types of entities and relations, which provide the extraction of different patterns from the texts. However, there are some challenges to be solved in order to allow the combination of machine learning algorithms and network-based representations to perform text automatic classification in an efficient way. The main challenges addressed in this doctoral project are (i) the development of network-based representations efficiently generated which also allows an efficient learning; (ii) the development of networks which represent different types of entities and relations; (iii) the development of networks which can represent texts written in different languages and about different domains; and (iv) the development of efficient learning algorithms which make a better use of the network-based representations and increase the classification performance. In this doctoral project we proposed and developed methods to represent text collections into networks considering different types of entities and relations and also allowing the representation of texts written in any language or from any domain. We also proposed and developed supervised inductive, semi-supervised transductive and semi-supervised inductive learning algorithms to interpret and learn from the proposed network-based representations since there were no algorithms to handle certain types of relations considered in this thesis. Besides, the proposed algorithms also attempt to obtain a higher classification performance and a faster classification than the existing network-based algorithms. In this doctoral thesis we present (i) an extensive empirical evaluation demonstrating the benefits about the use of network-based representations for text classification, (ii) the impact of the combination of different types of relations in a single network and (iii) that the proposed network-based algorithms are able to surpass the classification performance of traditional and state-of-the-art algorithms considering both supervised and semi-supervised learning. The solutions proposed in this doctoral project have proved to be advisable to be used in many applications involving classification of texts from different domains, areas, characteristics or considering different numbers of labeled documents.

Page generated in 0.0356 seconds