31 |
Abordagem baseada em conceitos para descoberta de conhecimento em textosLoh, Stanley January 2001 (has links)
Esta tese apresenta uma abordagem baseada em conceitos para realizar descoberta de conhecimento em textos (KDT). A proposta é identificar características de alto nível em textos na forma de conceitos, para depois realizar a mineração de padrões sobre estes conceitos. Ao invés de aplicar técnicas de mineração sobre palavras ou dados estruturados extraídos de textos, a abordagem explora conceitos identificados nos textos. A idéia é analisar o conhecimento codificado em textos num nível acima das palavras, ou seja, não analisando somente os termos e expressões presentes nos textos, mas seu significado em relação aos fenômenos da realidade (pessoas, objetos, entidades, eventos e situações do mundo real). Conceitos identificam melhor o conteúdo dos textos e servem melhor que palavras para representar os fenômenos. Assim, os conceitos agem como recursos meta-lingüísticos para análise de textos e descoberta de conhecimento. Por exemplo, no caso de textos de psiquiatria, os conceitos permitiram investigar características importantes dos pacientes, tais como sintomas, sinais e comportamentos. Isto permite explorar o conhecimento disponível em textos num nível mais próximo da realidade, minimizando o problema do vocabulário e facilitando o processo de aquisição de conhecimento. O principal objetivo desta tese é demonstrar a adequação de uma abordagem baseada em conceitos para descobrir conhecimento em textos e confirmar a hipótese de que este tipo de abordagem tem vantagens sobre abordagens baseadas em palavras. Para tanto, foram definidas estratégias para identificação dos conceitos nos textos e para mineração de padrões sobre estes conceitos. Diferentes métodos foram avaliados para estes dois processos. Ferramentas automatizadas foram empregadas para aplicar a abordagem proposta em estudos de casos. Diferentes experimentos foram realizados para demonstrar que a abordagem é viável e apresenta vantagens sobre os métodos baseados em palavras. Avaliações objetivas e subjetivas foram conduzidas para confirmar que o conhecimento descoberto era de qualidade. Também foi investigada a possibilidade de se realizar descobertas proativas, quando não se tem hipóteses iniciais. Os casos estudados apontam as várias aplicações práticas desta abordagem. Pode-se concluir que a principal aplicação da abordagem é permitir análises qualitativa e quantitativa de coleções textuais. Conceitos podem ser identificados nos textos e suas distribuições e relações podem ser analisadas para um melhor entendimento do conteúdo presente nos textos e, conseqüentemente, um melhor entendimento do conhecimento do domínio.
|
32 |
Orpheo : uma estrutura de trabalho para integração dos paradigmas de aprendizado supervisionado e não-supervisionadoPrado, Hercules Antonio do January 2001 (has links)
Esta tese apresenta contribuições ao processo de Descoberta de Conhecimento em Bases de Dados (DCBD). DCBD pode ser entendido como um conjunto de técnicas automatizadas – ou semi-automatizadas – otimizadas para extrair conhecimento a partir de grandes bases de dados. Assim, o já, de longa data, praticado processo de descoberta de conhecimento passa a contar com aprimoramentos que o tornam mais fácil de ser realizado. A partir dessa visão, bem conhecidos algoritmos de Estatística e de Aprendizado de Máquina passam a funcionar com desempenho aceitável sobre bases de dados cada vez maiores. Da mesma forma, tarefas como coleta, limpeza e transformação de dados e seleção de atributos, parâmetros e modelos recebem um suporte que facilita cada vez mais a sua execução. A contribuição principal desta tese consiste na aplicação dessa visão para a otimização da descoberta de conhecimento a partir de dados não-classificados. Adicionalmente, são apresentadas algumas contribuições sobre o Modelo Neural Combinatório (MNC), um sistema híbrido neurossimbólico para classificação que elegemos como foco de trabalho. Quanto à principal contribuição, percebeu-se que a descoberta de conhecimento a partir de dados não-classificados, em geral, é dividida em dois subprocessos: identificação de agrupamentos (aprendizado não-supervisionado) seguida de classificação (aprendizado supervisionado). Esses subprocessos correspondem às tarefas de rotulagem dos itens de dados e obtenção das correlações entre os atributos da entrada e os rótulos. Não encontramos outra razão para que haja essa separação que as limitações inerentes aos algoritmos específicos. Uma dessas limitações, por exemplo, é a necessidade de iteração de muitos deles buscando a convergência para um determinado modelo. Isto obriga a que o algoritmo realize várias leituras da base de dados, o que, para Mineração de Dados, é proibitivo. A partir dos avanços em DCBD, particularmente com o desenvolvimento de algoritmos de aprendizado que realizam sua tarefa em apenas uma leitura dos dados, fica evidente a possibilidade de se reduzir o número de acessos na realização do processo completo. Nossa contribuição, nesse caso, se materializa na proposta de uma estrutura de trabalho para integração dos dois paradigmas e a implementação de um protótipo dessa estrutura utilizando-se os algoritmos de aprendizado ART1, para identificação de agrupamentos, e MNC, para a tarefa de classificação. É também apresentada uma aplicação no mapeamento de áreas homogêneas de plantio de trigo no Brasil, de 1975 a 1999. Com relação às contribuições sobre o MNC são apresentados: (a) uma variante do algoritmo de treinamento que permite uma redução significativa do tamanho do modelo após o aprendizado; (b) um estudo sobre a redução da complexidade do modelo com o uso de máquinas de comitê; (c) uma técnica, usando o método do envoltório, para poda controlada do modelo final e (d) uma abordagem para tratamento de inconsistências e perda de conhecimento que podem ocorrer na construção do modelo.
|
33 |
Utilizando conceitos como descritores de textos para o processo de identificação de conglomerados (clustering) de documentosWives, Leandro Krug January 2004 (has links)
A descoberta e a análise de conglomerados textuais são processos muito importantes para a estruturação, organização e a recuperação de informações, assim como para a descoberta de conhecimento. Isto porque o ser humano coleta e armazena uma quantidade muito grande de dados textuais, que necessitam ser vasculhados, estudados, conhecidos e organizados de forma a fornecerem informações que lhe dêem o conhecimento para a execução de uma tarefa que exija a tomada de uma decisão. É justamente nesse ponto que os processos de descoberta e de análise de conglomerados (clustering) se insere, pois eles auxiliam na exploração e análise dos dados, permitindo conhecer melhor seu conteúdo e inter-relações. No entanto, esse processo, por ser aplicado em textos, está sujeito a sofrer interferências decorrentes de problemas da própria linguagem e do vocabulário utilizado nos mesmos, tais como erros ortográficos, sinonímia, homonímia, variações morfológicas e similares. Esta Tese apresenta uma solução para minimizar esses problemas, que consiste na utilização de “conceitos” (estruturas capazes de representar objetos e idéias presentes nos textos) na modelagem do conteúdo dos documentos. Para tanto, são apresentados os conceitos e as áreas relacionadas com o tema, os trabalhos correlatos (revisão bibliográfica), a metodologia proposta e alguns experimentos que permitem desenvolver determinados argumentos e comprovar algumas hipóteses sobre a proposta. As conclusões principais desta Tese indicam que a técnica de conceitos possui diversas vantagens, dentre elas a utilização de uma quantidade muito menor, porém mais representativa, de descritores para os documentos, o que torna o tempo e a complexidade do seu processamento muito menor, permitindo que uma quantidade muito maior deles seja analisada. Outra vantagem está no fato de o poder de expressão de conceitos permitir que os usuários analisem os aglomerados resultantes muito mais facilmente e compreendam melhor seu conteúdo e forma. Além do método e da metodologia proposta, esta Tese possui diversas contribuições, entre elas vários trabalhos e artigos desenvolvidos em parceria com outros pesquisadores e colegas.
|
34 |
O Uso de árvores de decisão na descoberta de conhecimento na área da saúdeGarcia, Simone C. January 2003 (has links)
As árvores de decisão são um meio eficiente para produzir classificadores a partir de bases de dados, sendo largamente utilizadas devido à sua eficiência em relação ao tempo de processamento e por fornecer um meio intuitivo de analisar os resultados obtidos, apresentando uma forma de representação simbólica simples e normalmente compreensível, o que facilita a análise do problema em questão. Este trabalho tem, por finalidade, apresentar um estudo sobre o processo de descoberta de conhecimento em um banco de dados relacionado à área da saúde, contemplando todas as etapas do processo, com destaque à de mineração de dados, dentro da qual são aplicados classificadores baseados em árvores de decisão. Neste estudo, o conhecimento é obtido mediante a construção de árvores de decisão a partir de dados relacionados a um problema real: o controle e a análise das Autorizações de Internações Hospitalares (AIHs) emitidas pelos hospitais da cidade de Pelotas, conveniados ao Sistema Único de Saúde (SUS). Buscou-se encontrar conhecimentos que auxiliassem a Secretaria Municipal da Saúde de Pelotas (SMSP) na análise das AIHs, realizada manualmente, detectando situações que fogem aos padrões permitidos pelo SUS. Finalmente, os conhecimentos obtidos são avaliados e validados, possibilitando verificar a aplicabilidade das árvores no domínio em questão.
|
35 |
Diagnóstico on-line do estilo cognitivo de aprendizagem do aluno em um ambiente adaptativo de ensino e aprendizagem na web: uma abordagem empírica baseada na sua trajetória de aprendizagemSouto, Maria Aparecida Martins January 2003 (has links)
Uma das questões críticas relacionadas com um Ambiente Adaptativo de Ensino e Aprendizagem baseado na Web diz respeito à eficácia da aprendizagem do aluno remoto. Assim como diversos trabalhos de pesquisa na literatura, nosso estudo preocupou-se com a modelagem do Estilo Cognitivo de Aprendizagem (ECA) do aluno visando, em um futuro próximo, a adaptação dos conteúdos pedagógicos a esta importante característica individual do aluno. Esta tese descreve a metodologia utilizada para investigar como modelar o ECA do aluno remoto, baseado na observação e análise de seu comportamento em um ambiente de ensino e aprendizagem na Web. Em nosso estudo, o ECA representa o estágio de desenvolvimento cognitivo do aluno, de acordo com a taxonomia de Bloom. Nós acreditamos que os principais benefícios de adaptar a instrução ao ECA do aluno estão relacionados com a possibilidade de oportunizar a ampliação de suas habilidades cognitivas, assim como oportunizar a aprendizagem em profundidade sobre os conteúdos em estudo. A metodologia quase-experimental usada para a modelagem do ECA do aluno compreendeu duas fases distintas: (i) geração das classes de ECA a partir da aplicação de um teste psicológico em uma amostra da população-alvo; e (ii) desenvolvimento do módulo de ensino experimental e o estudo das Trajetórias de Aprendizagem (TA) padrão das classes de ECA, a partir da observação de seus comportamentos durante a execução de uma sessão de estudo na Web. Como resultado deste estudo, identificamos os principais indicadores, que melhor discriminaram as classes de ECA consideradas. Os resultados foram obtidos a partir da observação e análise das TAs na Web. Todo o conhecimento obtido a partir desta investigação deverá nos permitir automatizar o diagnóstico do ECA do aluno remoto. Este conhecimento também será utilizado como base para o desenvolvimento dos conteúdos a serem oferecidos ao aluno pelo Ambiente Adaptativo de Ensino e Aprendizagem baseado na Web.
|
36 |
Utilizando conceitos como descritores de textos para o processo de identificação de conglomerados (clustering) de documentosWives, Leandro Krug January 2004 (has links)
A descoberta e a análise de conglomerados textuais são processos muito importantes para a estruturação, organização e a recuperação de informações, assim como para a descoberta de conhecimento. Isto porque o ser humano coleta e armazena uma quantidade muito grande de dados textuais, que necessitam ser vasculhados, estudados, conhecidos e organizados de forma a fornecerem informações que lhe dêem o conhecimento para a execução de uma tarefa que exija a tomada de uma decisão. É justamente nesse ponto que os processos de descoberta e de análise de conglomerados (clustering) se insere, pois eles auxiliam na exploração e análise dos dados, permitindo conhecer melhor seu conteúdo e inter-relações. No entanto, esse processo, por ser aplicado em textos, está sujeito a sofrer interferências decorrentes de problemas da própria linguagem e do vocabulário utilizado nos mesmos, tais como erros ortográficos, sinonímia, homonímia, variações morfológicas e similares. Esta Tese apresenta uma solução para minimizar esses problemas, que consiste na utilização de “conceitos” (estruturas capazes de representar objetos e idéias presentes nos textos) na modelagem do conteúdo dos documentos. Para tanto, são apresentados os conceitos e as áreas relacionadas com o tema, os trabalhos correlatos (revisão bibliográfica), a metodologia proposta e alguns experimentos que permitem desenvolver determinados argumentos e comprovar algumas hipóteses sobre a proposta. As conclusões principais desta Tese indicam que a técnica de conceitos possui diversas vantagens, dentre elas a utilização de uma quantidade muito menor, porém mais representativa, de descritores para os documentos, o que torna o tempo e a complexidade do seu processamento muito menor, permitindo que uma quantidade muito maior deles seja analisada. Outra vantagem está no fato de o poder de expressão de conceitos permitir que os usuários analisem os aglomerados resultantes muito mais facilmente e compreendam melhor seu conteúdo e forma. Além do método e da metodologia proposta, esta Tese possui diversas contribuições, entre elas vários trabalhos e artigos desenvolvidos em parceria com outros pesquisadores e colegas.
|
37 |
O Uso de árvores de decisão na descoberta de conhecimento na área da saúdeGarcia, Simone C. January 2003 (has links)
As árvores de decisão são um meio eficiente para produzir classificadores a partir de bases de dados, sendo largamente utilizadas devido à sua eficiência em relação ao tempo de processamento e por fornecer um meio intuitivo de analisar os resultados obtidos, apresentando uma forma de representação simbólica simples e normalmente compreensível, o que facilita a análise do problema em questão. Este trabalho tem, por finalidade, apresentar um estudo sobre o processo de descoberta de conhecimento em um banco de dados relacionado à área da saúde, contemplando todas as etapas do processo, com destaque à de mineração de dados, dentro da qual são aplicados classificadores baseados em árvores de decisão. Neste estudo, o conhecimento é obtido mediante a construção de árvores de decisão a partir de dados relacionados a um problema real: o controle e a análise das Autorizações de Internações Hospitalares (AIHs) emitidas pelos hospitais da cidade de Pelotas, conveniados ao Sistema Único de Saúde (SUS). Buscou-se encontrar conhecimentos que auxiliassem a Secretaria Municipal da Saúde de Pelotas (SMSP) na análise das AIHs, realizada manualmente, detectando situações que fogem aos padrões permitidos pelo SUS. Finalmente, os conhecimentos obtidos são avaliados e validados, possibilitando verificar a aplicabilidade das árvores no domínio em questão.
|
38 |
Diagnóstico on-line do estilo cognitivo de aprendizagem do aluno em um ambiente adaptativo de ensino e aprendizagem na web: uma abordagem empírica baseada na sua trajetória de aprendizagemSouto, Maria Aparecida Martins January 2003 (has links)
Uma das questões críticas relacionadas com um Ambiente Adaptativo de Ensino e Aprendizagem baseado na Web diz respeito à eficácia da aprendizagem do aluno remoto. Assim como diversos trabalhos de pesquisa na literatura, nosso estudo preocupou-se com a modelagem do Estilo Cognitivo de Aprendizagem (ECA) do aluno visando, em um futuro próximo, a adaptação dos conteúdos pedagógicos a esta importante característica individual do aluno. Esta tese descreve a metodologia utilizada para investigar como modelar o ECA do aluno remoto, baseado na observação e análise de seu comportamento em um ambiente de ensino e aprendizagem na Web. Em nosso estudo, o ECA representa o estágio de desenvolvimento cognitivo do aluno, de acordo com a taxonomia de Bloom. Nós acreditamos que os principais benefícios de adaptar a instrução ao ECA do aluno estão relacionados com a possibilidade de oportunizar a ampliação de suas habilidades cognitivas, assim como oportunizar a aprendizagem em profundidade sobre os conteúdos em estudo. A metodologia quase-experimental usada para a modelagem do ECA do aluno compreendeu duas fases distintas: (i) geração das classes de ECA a partir da aplicação de um teste psicológico em uma amostra da população-alvo; e (ii) desenvolvimento do módulo de ensino experimental e o estudo das Trajetórias de Aprendizagem (TA) padrão das classes de ECA, a partir da observação de seus comportamentos durante a execução de uma sessão de estudo na Web. Como resultado deste estudo, identificamos os principais indicadores, que melhor discriminaram as classes de ECA consideradas. Os resultados foram obtidos a partir da observação e análise das TAs na Web. Todo o conhecimento obtido a partir desta investigação deverá nos permitir automatizar o diagnóstico do ECA do aluno remoto. Este conhecimento também será utilizado como base para o desenvolvimento dos conteúdos a serem oferecidos ao aluno pelo Ambiente Adaptativo de Ensino e Aprendizagem baseado na Web.
|
39 |
Mineração de dados baseada em árvores de decisão para análise do perfil de contribuintesSIMÕES, Adriana Carla Araújo 31 January 2008 (has links)
Made available in DSpace on 2014-06-12T15:50:25Z (GMT). No. of bitstreams: 1
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2008 / Um dos principais problemas enfrentados por órgãos públicos
atualmente está associado à ineficiência no uso de informações contidas em
grandes volumes de dados para a gestão e otimização de recursos públicos nos
procedimentos de tomada de decisão. Em particular, um dos problemas
enfrentados por órgãos reguladores como secretarias de fazenda de Estados é
como identificar comportamentos fraudulentos e de sonegação fiscal por parte de
contribuintes.
A Descoberta de Conhecimento em Bases de Dados (KDD) tem sido
cada vez mais explorada como uma ferramenta poderosa na otimização dos
procedimentos de tomada de decisão e na extração automática de informações
escondidas nos dados de corporações. Em particular, técnicas baseadas em
árvores de decisão têm sido investigadas e aplicadas como uma das opções de
ferramental tecnológico em problemas de mineração de dados pela sua
simplicidade e facilidade de interpretação do conhecimento descoberto, que é
próximo da linguagem humana.
Neste trabalho, árvores de decisão baseadas nos algoritmos ID3,
SPRINT e SLIQ são investigadas e comparadas para a solução do problema de
análise do perfil de contribuintes com respeito à sonegação fiscal em uma
situação complexa em larga escala envolvendo um grande número de variáveis e
dados corporativos da Secretaria da Fazenda do Estado de Pernambuco (SEFAZPE).
Os resultados obtidos objetivamente com os modelos investigados
quanto à precisão das árvores construídas, interpretação do conhecimento
minerado e extração de novos conhecimentos ao domínio do problema mostraram
desempenho satisfatório na tarefa de classificação dos contribuintes quanto a
irregularidades nos compromissos de pagamentos fiscais. A solução desenvolvida
foi também analisada e validada subjetivamente por especialistas do domínio
(auditores fiscais), que demonstraram aceitação no trabalho realizado e
comprovando a viabilidade e relevância do uso da mineração de dados no
processo de análise do perfil de contribuintes
|
40 |
Metodologia para desenvolvimento de soluções em mineração de dados: Um estudo prático em diagnóstico de falhasCUNHA, Rodrigo Carneiro Leão Vieira da January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:03Z (GMT). No. of bitstreams: 2
arquivo7148_1.pdf: 2212386 bytes, checksum: 6b2b0d7c2a94dfe1e1f831000f3dabe2 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Data mining surgiu da necessidade de extração do conhecimento a partir de volumosas
massas de dados. Na verdade data mining faz parte de um processo mais amplo e complexo
denominado KDD (Knowledge Discovery in Databases). O problema é que não há na prática
uma metodologia completa para apoiar o usuário no desenvolvimento do processo de KDD.
Neste contexto, o principal objetivo do presente trabalho é propor uma metodologia genérica
para desenvolvimento de soluções em KDD integrada a um sistema para apoio ao usuário na
documentação dos processos. A proposta assegura o desenvolvimento de projetos em KDD de
alta qualidade, que atenda às expectativas do cliente dentro do tempo e orçamento previstos.
Ao final, é aplicada a proposta em um estudo prático no problema de diagnóstico de falhas
|
Page generated in 0.0545 seconds