Global ETD Search

1	Geração de regras de extração de dados em páginas HTML Caldas, Paracelso de Oliveira January 2003 (has links) Existem vários trabalhos na área de extração de dados semi-estruturados, usando diferentes técnicas. As soluções de extração disponibilizadas pelos trabalhos existentes são direcionadas para atenderem a dados de certos domínios, considerando-se domínio o conjunto de elementos pertencentes à mesma área de interesse. Dada a complexidade e a grande quantidade dos dados semi-estruturados, principalmente dos disponíveis na World Wide Web (WWW), é que existem ainda muitos domínios a serem explorados. A maior parte das informações disponíveis em sites da Web está em páginas HTML. Muitas dessas páginas contêm dados de certos domínios (por exemplo, remédios). Em alguns casos, sites de organizações diferentes apresentam dados referentes a um mesmo domínio (por exemplo, farmácias diferentes oferecem remédios). O conhecimento de um determinado domínio, expresso em um modelo conceitual, serve para definir a estrutura de um documento. Nesta pesquisa, são consideradas exclusivamente tabelas de páginas HTML. A razão de se trabalhar somente com tabelas está baseada no fato de que parte dos dados de páginas HTML encontra-se nelas, e, como conseqüência, elimina-se o processamento dos outros dados, concentrando-se os esforços para que sejam processadas automaticamente. A pesquisa aborda o tratamento exclusivo de tabelas de páginas HTML na geração das regras de extração, na utilização das regras e do modelo conceitual para o reconhecimento de dados em páginas semelhantes. Para essa técnica, foi implementado o protótipo de uma ferramenta visual denominado Gerador de Regras de Extração e Modelo Conceitual (GREMO). GREMO foi desenvolvido em linguagem de programação visual Delphi 6.0. O processo de extração ocorre em quatro etapas: identificação e análise das tabelas de informações úteis em páginas HTML; identificação de conceitos para os elementos dos modelos conceituais; geração dos modelos conceituais correspondentes à página, ou utilização de modelo conceitual existente no repositório que satisfaça a página em questão; construção das regras de extração, extração dos dados da página, geração de arquivo XML correspondente aos dados extraídos e, finalmente, realimentação do repositório. A pesquisa apresenta as técnicas para geração e extração de dados semi-estruturados, as representações de domínio exclusivo de tabelas de páginas HTML por meio de modelo conceitual, as formas de geração e uso das regras de extração e de modelo conceitual. Armazenamento : Dados Recuperacao : Informacao Dados semi-estruturados HTML (Linguagem de marcação) Extracao : Dados
2	Tackling genre classification Hendges, Graciela Rabuske January 2007 (has links) Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão. Programa de Pós-Graduação em Letras/Inglês e Literatura Correspondente / Made available in DSpace on 2012-10-23T10:39:26Z (GMT). No. of bitstreams: 1 249271.pdf: 3171345 bytes, checksum: 00f207cece278de30d1f5b7fd246c496 (MD5) / Pesquisas recentes sobre comunicação científica têm revelado que desde o final dos anos de 1990 o uso de periódicos acadêmicos passou da mídia impressa para o mídia eletrônica (Tenopir, 2002, 2003; Tenopir & King, 2001, 2002) e, conseqüentemente, há previsões de que por volta de 2010 cerca de 80% dos periódicos terão apenas versões online (Harnad, 1998). Todavia, essas pesquisas mostram também que nem todas as disciplinas estão migrando para a Internet com a mesma velocidade. Enquanto que áreas como as Ciências da Informação, Arquivologia, Web design e Medicina têm mostrado interesse e preocupação em entnder e explicar esse fenômeno, em Lingüística Aplicada, particularmente em Análise de Gênero, os estudos ainda são escassos. Neste trabalho, portanto, procuro investigar em que medida o meio eletrônico (Internet) afeta o gênero artigo acadêmico no seu processo de mudança da mídia impressa para a mídia eletrônica. Mais especificamente, examino artigos acadêmicos em HTML nas áreas de Lingüística e Medicina com vistas a verificar se esse hypertexto é um gênero novo ou não. A abordagem metodológica adotada nesta pesquisa deriva da proposta de Askehave e Swales (2001) e de Swales (2004), na qual o critéro predominante para a classificação de um gênero é o propósito comunicativo, o qual só pode ser definido com base em uma análise textual tanto quanto em uma análise contextual. Dessa forma, neste estudo foram coletados e analisados dados textuais e contextuais e os resultados de ambas análises revelam que o artigo acadêmico em HTML é um gênero novo, cujo propósito comunicativo é realizado por hiperlinks e portanto, esse gênero é profundamente dependente da mídia eletrônica. Comunicação cientifica Linguistica aplicada Generos literarios Classificação Artigo cientifico Mídia digital
3	Geração de regras de extração de dados em páginas HTML Caldas, Paracelso de Oliveira January 2003 (has links) Existem vários trabalhos na área de extração de dados semi-estruturados, usando diferentes técnicas. As soluções de extração disponibilizadas pelos trabalhos existentes são direcionadas para atenderem a dados de certos domínios, considerando-se domínio o conjunto de elementos pertencentes à mesma área de interesse. Dada a complexidade e a grande quantidade dos dados semi-estruturados, principalmente dos disponíveis na World Wide Web (WWW), é que existem ainda muitos domínios a serem explorados. A maior parte das informações disponíveis em sites da Web está em páginas HTML. Muitas dessas páginas contêm dados de certos domínios (por exemplo, remédios). Em alguns casos, sites de organizações diferentes apresentam dados referentes a um mesmo domínio (por exemplo, farmácias diferentes oferecem remédios). O conhecimento de um determinado domínio, expresso em um modelo conceitual, serve para definir a estrutura de um documento. Nesta pesquisa, são consideradas exclusivamente tabelas de páginas HTML. A razão de se trabalhar somente com tabelas está baseada no fato de que parte dos dados de páginas HTML encontra-se nelas, e, como conseqüência, elimina-se o processamento dos outros dados, concentrando-se os esforços para que sejam processadas automaticamente. A pesquisa aborda o tratamento exclusivo de tabelas de páginas HTML na geração das regras de extração, na utilização das regras e do modelo conceitual para o reconhecimento de dados em páginas semelhantes. Para essa técnica, foi implementado o protótipo de uma ferramenta visual denominado Gerador de Regras de Extração e Modelo Conceitual (GREMO). GREMO foi desenvolvido em linguagem de programação visual Delphi 6.0. O processo de extração ocorre em quatro etapas: identificação e análise das tabelas de informações úteis em páginas HTML; identificação de conceitos para os elementos dos modelos conceituais; geração dos modelos conceituais correspondentes à página, ou utilização de modelo conceitual existente no repositório que satisfaça a página em questão; construção das regras de extração, extração dos dados da página, geração de arquivo XML correspondente aos dados extraídos e, finalmente, realimentação do repositório. A pesquisa apresenta as técnicas para geração e extração de dados semi-estruturados, as representações de domínio exclusivo de tabelas de páginas HTML por meio de modelo conceitual, as formas de geração e uso das regras de extração e de modelo conceitual. Armazenamento : Dados Recuperacao : Informacao Dados semi-estruturados HTML (Linguagem de marcação) Extracao : Dados
4	Geração de regras de extração de dados em páginas HTML Caldas, Paracelso de Oliveira January 2003 (has links) Existem vários trabalhos na área de extração de dados semi-estruturados, usando diferentes técnicas. As soluções de extração disponibilizadas pelos trabalhos existentes são direcionadas para atenderem a dados de certos domínios, considerando-se domínio o conjunto de elementos pertencentes à mesma área de interesse. Dada a complexidade e a grande quantidade dos dados semi-estruturados, principalmente dos disponíveis na World Wide Web (WWW), é que existem ainda muitos domínios a serem explorados. A maior parte das informações disponíveis em sites da Web está em páginas HTML. Muitas dessas páginas contêm dados de certos domínios (por exemplo, remédios). Em alguns casos, sites de organizações diferentes apresentam dados referentes a um mesmo domínio (por exemplo, farmácias diferentes oferecem remédios). O conhecimento de um determinado domínio, expresso em um modelo conceitual, serve para definir a estrutura de um documento. Nesta pesquisa, são consideradas exclusivamente tabelas de páginas HTML. A razão de se trabalhar somente com tabelas está baseada no fato de que parte dos dados de páginas HTML encontra-se nelas, e, como conseqüência, elimina-se o processamento dos outros dados, concentrando-se os esforços para que sejam processadas automaticamente. A pesquisa aborda o tratamento exclusivo de tabelas de páginas HTML na geração das regras de extração, na utilização das regras e do modelo conceitual para o reconhecimento de dados em páginas semelhantes. Para essa técnica, foi implementado o protótipo de uma ferramenta visual denominado Gerador de Regras de Extração e Modelo Conceitual (GREMO). GREMO foi desenvolvido em linguagem de programação visual Delphi 6.0. O processo de extração ocorre em quatro etapas: identificação e análise das tabelas de informações úteis em páginas HTML; identificação de conceitos para os elementos dos modelos conceituais; geração dos modelos conceituais correspondentes à página, ou utilização de modelo conceitual existente no repositório que satisfaça a página em questão; construção das regras de extração, extração dos dados da página, geração de arquivo XML correspondente aos dados extraídos e, finalmente, realimentação do repositório. A pesquisa apresenta as técnicas para geração e extração de dados semi-estruturados, as representações de domínio exclusivo de tabelas de páginas HTML por meio de modelo conceitual, as formas de geração e uso das regras de extração e de modelo conceitual. Armazenamento : Dados Recuperacao : Informacao Dados semi-estruturados HTML (Linguagem de marcação) Extracao : Dados
5	Filtered-page ranking Costa, José Henrique Calenzo January 2016 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016. / Made available in DSpace on 2016-09-20T04:25:42Z (GMT). No. of bitstreams: 1 341906.pdf: 4935734 bytes, checksum: 5630ca8c10871314b7f54120d18ae335 (MD5) Previous issue date: 2016 / Algoritmos de ranking de páginas Web podem ser criados usando técnicas baseadas em elementos estruturais da página Web, em segmentação da página ou na busca personalizada. Esta pesquisa aborda um método de ranking de documentos previamente filtrados, que segmenta a página Web em blocos de três categorias para delas eliminar conteúdo irrelevante. O método de ranking proposto, chamado Filtered-Page Ranking (FPR), consta de duas etapas principais: (i) segmentação da página web e eliminação de conteúdo irrelevante e (ii) ranking de páginas Web. O foco da extração de conteúdo irrelevante é eliminar conteúdos não relacionados à consulta do usuário, através do algoritmo proposto Query-Based Blocks Mining (QBM), para que o ranking considere somente conteúdo relevante. O foco da etapa de ranking é calcular quão relevante cada página Web é para determinada consulta, usando critérios considerados em estudos de recuperação da informação. Com a presente pesquisa pretende-se demonstrar que o QBM extrai eficientemente o conteúdo irrelevante e que os critérios utilizados para calcular quão próximo uma página Web é da consulta são relevantes, produzindo uma média de resultados de ranking de páginas Web de qualidade melhor que a do clássico modelo vetorial.<br> / Abstract : Web page ranking algorithms can be created using content-based, structure-based or user search-based techniques. This research addresses an user search-based approach applied over previously filtered documents ranking, which relies in a segmentation process to extract irrelevante content from documents before ranking. The process splits the document into three categories of blocks in order to fragment the document and eliminate irrelevante content. The ranking method, called Page Filtered Ranking, has two main steps: (i) irrelevante content extraction; and (ii) document ranking. The focus of the extraction step is to eliminate irrelevante content from the document, by means of the Query-Based Blocks Mining algorithm, creating a tree that is evaluated in the ranking process. During the ranking step, the focus is to calculate the relevance of each document for a given query, using criteria that give importance to specific parts of the document and to the highlighted features of some HTML elements. Our proposal is compared to two baselines: the classic vectorial model, and the CETR noise removal algorithm, and the results demonstrate that our irrelevante content removal algorithm improves the results and our relevance criteria are relevant to the process. Computação Sites da Web Mineração de dados (Computação) Recuperação da informação
6	Towards completely automatized HTML form discovery on the web Moraes, Maurício Coutinho January 2013 (has links) The forms discovered by our proposal can be directly used as training data by some form classifiers. Our experimental validation used thousands of real Web forms, divided into six domains, including a representative subset of the publicly available DeepPeep form base (DEEPPEEP, 2010; DEEPPEEP REPOSITORY, 2011). Our results show that it is feasible to mitigate the demanding manual work required by two cutting-edge form classifiers (i.e., GFC and DSFC (BARBOSA; FREIRE, 2007a)), at the cost of a relatively small loss in effectiveness. Recuperacao : Informacao HTML (Linguagem de marcação) Serviços Web Banco : Dados Deep web Hidden web Crawling Domain-specific search Query form discovery
7	Proposta de um modelo conceitual de ferramenta para monitoramento de documento na web Sebastião, Cláudio Barradas January 2003 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2012-10-20T12:07:30Z (GMT). No. of bitstreams: 1 198175.pdf: 1739707 bytes, checksum: 290e2c7ab594e697dc4fabda07e89adb (MD5) / A Web pode ser vista de duas formas: serviços e conteúdo. Conteúdo é o conjunto das informações eletrônicas que podem ser publicadas através do meio Web e por serviços designamos o conjunto de funcionalidades que possibilitam a extração, integração, publicação e visualização do conteúdo. Com esta visão, este estudo comtempla uma grande estruturação de como desenvolver páginas Web e gerencia-las de uma forma prática, segura e responsável, utilizando-se de todas as opções que as inúmeras ferramentas de desenvolvimento Web nos proporcionam. Informatica Ciência da computação Servidores da Web Criptografia de dados (Computação)
8	Towards completely automatized HTML form discovery on the web Moraes, Maurício Coutinho January 2013 (has links) The forms discovered by our proposal can be directly used as training data by some form classifiers. Our experimental validation used thousands of real Web forms, divided into six domains, including a representative subset of the publicly available DeepPeep form base (DEEPPEEP, 2010; DEEPPEEP REPOSITORY, 2011). Our results show that it is feasible to mitigate the demanding manual work required by two cutting-edge form classifiers (i.e., GFC and DSFC (BARBOSA; FREIRE, 2007a)), at the cost of a relatively small loss in effectiveness. Recuperacao : Informacao HTML (Linguagem de marcação) Serviços Web Banco : Dados Deep web Hidden web Crawling Domain-specific search Query form discovery
9	Towards completely automatized HTML form discovery on the web Moraes, Maurício Coutinho January 2013 (has links) The forms discovered by our proposal can be directly used as training data by some form classifiers. Our experimental validation used thousands of real Web forms, divided into six domains, including a representative subset of the publicly available DeepPeep form base (DEEPPEEP, 2010; DEEPPEEP REPOSITORY, 2011). Our results show that it is feasible to mitigate the demanding manual work required by two cutting-edge form classifiers (i.e., GFC and DSFC (BARBOSA; FREIRE, 2007a)), at the cost of a relatively small loss in effectiveness. Recuperacao : Informacao HTML (Linguagem de marcação) Serviços Web Banco : Dados Deep web Hidden web Crawling Domain-specific search Query form discovery
10	Adesso : ambiente para desenvolvimento de software cientifico Machado, Rubens Campos 01 August 2018 (has links) Orientador : Roberto de Alencar Lotufo / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-01T21:28:24Z (GMT). No. of bitstreams: 1 Machado_RubensCampos_M.pdf: 1182112 bytes, checksum: 42c9e5c67b6513e518d22bb44c433780 (MD5) Previous issue date: 2002 / Mestrado Geradores de codigo Software - Reutilização Software - Desenvolvimento LaTeX (Sistema de computador)

Search results