Spelling suggestions: "subject:"consulta""
101 |
Supervised Identification of the User Intent of Web Search QueriesGonzález-Caro, Cristina 27 September 2011 (has links)
As the Web continues to increase both in size and complexity, Web search is a ubiquitous service that allows users to find all kind of information, resources, and activities. However, as the Web evolves so do the needs of the users. Nowadays, users have more complex interests that go beyond of the traditional informational queries. Thus, it is important for Web-search engines, not only to continue answering effectively informational and navigational queries, but also to be able to identify and provide accurate results for new types of queries.
This Ph.D. thesis aims to analyze the impact of the query intent in the search behavior of the users. In order to achieve this, we first study the behavior of users with different types of query intent on search engine result pages (SERP), using eye tracking techniques. Our study shows that the query intent of the user affects all the decision process in the SERP. Users with different query intent prefer different type of search results (organic, sponsored), they attend to different main areas of interest (title, snippet, URL, image) and focus on search results with different ranking position. To be able to accurately identify the intent of the user query is an important issue for search engines, as this will provide useful elements that allow them adapting their results to changing user behaviors and needs. Therefore, in this thesis we propose a method to identify automatically the intent behind user queries. Our hypothesis is that the performance of single-faceted classification of queries can be improved by introducing information of multi-faceted training samples into the learning process. Hence, we study a wide set of facets that can be considered for the characterization of the query intent of the user and we investigate whether combining multiple facets can improve the predictability of these facets. Our experimental results show that this idea can significantly improve the quality of the classification. Since most of previous works in query intent classification are oriented to the study of single facets, these results are a first step to an integrated query intent classification model. / A medida que la Web sigue creciendo, tanto en tamaño como en complejidad, la búsqueda Web llega a ser un servicio ubicuo que permite a los usuarios encontrar todo tipo de información, recursos y actividades. Sin embargo, así como la Web evoluciona también lo hacen las necesidades de los usuarios. Hoy en día, los usuarios tienen intereses más complejos que van más allá de las tradicionales consultas informacionales. Por lo tanto, es importante para los motores de búsqueda Web, no solo continuar respondiendo efectivamente las consultas informacionales y navegacionales, sino también identificar y proveer resultados precisos para los nuevos tipos de consultas.
El objetivo de esta tesis es analizar el impacto de la intención de la consulta en el comportamiento de búsqueda de los usuarios. Para lograr esto, primero estudiamos el comportamiento de usuarios con diferentes intenciones en las páginas de resultados de motores de búsqueda (SERP). Nuestro estudio muestra que la intención de la consulta afecta todo el proceso de decisión en la SERP. Los usuarios con diferentes intenciones prefieren resultados de búsqueda diferentes (orgánicos, patrocinados), miran diferentes áreas de interés (título, snippet, URL, imagen) y se concentran en resultados con diferente posición en el ranking. Identificar automáticamente la intención de la consulta aportaría elementos valiosos que permitirán a los sistemas de búsqueda adaptar sus resultados a los comportamientos cambiantes del usuario. Por esto, esta tesis propone un método para identificar automáticamente la intención detrás de la consulta. Nuestra hipótesis es que el rendimiento de la clasificación de consultas basada en facetas simples puede ser mejorado con la introducción de ejemplos multi-faceta en el proceso de aprendizaje. Por lo tanto, estudiamos un grupo amplio de facetas e investigamos si la combinación de facetas puede mejorar su predictibilidad. Nuestros resultados muestran que esta idea puede mejorar significativamente la calidad de la clasificación. Dado que la mayoría de trabajos previos están orientados al estudio de facetas individuales, estos resultados son un primer paso hacia un modelo integrado de clasificación de la intención de la consulta.
|
102 |
Análise e desenvolvimento de um novo algoritmo de junção espacial para SGBD geográficos / Analysis and design of a new algorithm to perform spatial join in geographic DBMSFornari, Miguel Rodrigues January 2006 (has links)
Um Sistema de Informação Geográfica armazena e mantém dados geográficos, combinando-os, para obter novas representações do espaço geográfico. A junção espacial combina duas relações de geometrias geo-referenciadas de acordo com algum predicado espacial, como intersecção e distância entre objetos. Trata-se de uma operação essencial, pois é constantemente utilizada e possui um alto custo de realização devido a realização de grande número de operações de Entrada/Saída e a complexidade do algoritmo. Este trabalho estuda o desempenho de algoritmos de junção espacial. Inicialmente, apresenta a análise dos algoritmos já publicados na literatura, obtendo expressões de custo para número de operações de disco e processamento. Após, descreve-se a implementação de alguns algoritmos em um ambiente de testes. Este ambiente permite ao usuário variar diversos parâmetros de entrada: cardinalidade dos conjuntos, memória disponível e predicado de junção, envolvendo dados reais e sintéticos. O ambiente de testes inclui os algoritmos de Laços Aninhados, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) para árvores R* e Iterative Spatial Stripped Join (ISSJ). Os testes demonstraram que o STT é adequado para conjuntos pequenos de dados; o ISSJ se houver memória suficiente para ordenar os conjuntos internamente; e o PBSM se houver pouca memória disponível para buffer de dados. A partir da análise um novo algoritmo, chamado Histogram-based Hash Stripped Join (HHSJ) é apresentado. O HSSJ utiliza histogramas da distribuição dos objetos no espaço para definir o particionamento, armazena os objetos em arquivos organizados em hash e subdivide o espaço em faixas (strips) para reduzir o processamento. Os testes indicam que o HHSJ é mais rápido na maioria dos cenários, sendo ainda mais vantajoso quanto maior o número de objetos envolvidos na junção. Um módulo de otimização de consultas baseado em custos, capaz de escolher o melhor algoritmo para realizar a etapa de filtragem é descrito. O módulo utiliza informações estatísticas mantidas no dicionário de dados para estimar o tempo de resposta de cada algoritmo, e indicar o mais rápido para realizar uma operação específica. Este otimizador de consultas acertou a indicação em 88,9% dos casos, errando apenas na junção de conjuntos pequenos, quando o impacto é menor. / A Geographic Information System (GIS) stores geographic data, combining them to obtain new representations of the geographic space. The spatial join operation combines two sets of spatial features, A and B, based on a spatial predicate. It is a fundamental as well as one of the most expensive operations in GIS. Combining pairs of spatial, georreferenced data objects of two different, and probably large data sets implies the execution of a significant number of Input/Output (I/O) operations as well as a large number of CPU operations. This work presents a study about the performance of spatial join algorithms. Firstly, an analysis of the algorithms is realized. As a result, mathematical expressions are identified to predict the number of I/O operations and the algorithm complexity. After this, some of the algorithms (e.g.; Nested Loops, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) to R-Trees and Iterative Spatial Stripped Join (ISSJ)) are implemented, allowing the execution of a series of tests in different spatial join scenarios. The tests were performed using both synthetic and real data sets. Based on the results, a new algorithm, called Histogram-based Hash Stripped Join (HHSJ), is proposed. The partitioning of the space is carried out according to the spatial distribution of the objects, maintained in histograms. In addition, a hash file is created for each input data set and used to enhance both the storage of and the access to the minimum bounding rectangles (MBR) of the respective set elements. Furthermore, the space is divided in strips, to reduce the processing time. The results showed that the new algorithm is faster in almost all scenarios, specially when bigger data sets are processed. Finally, a query optimizer based on costs, capable to choose the best algorithm to perform the filter step of a spatial join operation, is presented. The query optimizer uses statistical information stored in the data dictionary to estimate the response time for each algorithm and chooses the faster to realize the operation. This query optimizer choose the right one on 88.9% of cases, mistaken just in spatial join envolving small data sets, when the impact is small.
|
103 |
Análise e desenvolvimento de um novo algoritmo de junção espacial para SGBD geográficos / Analysis and design of a new algorithm to perform spatial join in geographic DBMSFornari, Miguel Rodrigues January 2006 (has links)
Um Sistema de Informação Geográfica armazena e mantém dados geográficos, combinando-os, para obter novas representações do espaço geográfico. A junção espacial combina duas relações de geometrias geo-referenciadas de acordo com algum predicado espacial, como intersecção e distância entre objetos. Trata-se de uma operação essencial, pois é constantemente utilizada e possui um alto custo de realização devido a realização de grande número de operações de Entrada/Saída e a complexidade do algoritmo. Este trabalho estuda o desempenho de algoritmos de junção espacial. Inicialmente, apresenta a análise dos algoritmos já publicados na literatura, obtendo expressões de custo para número de operações de disco e processamento. Após, descreve-se a implementação de alguns algoritmos em um ambiente de testes. Este ambiente permite ao usuário variar diversos parâmetros de entrada: cardinalidade dos conjuntos, memória disponível e predicado de junção, envolvendo dados reais e sintéticos. O ambiente de testes inclui os algoritmos de Laços Aninhados, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) para árvores R* e Iterative Spatial Stripped Join (ISSJ). Os testes demonstraram que o STT é adequado para conjuntos pequenos de dados; o ISSJ se houver memória suficiente para ordenar os conjuntos internamente; e o PBSM se houver pouca memória disponível para buffer de dados. A partir da análise um novo algoritmo, chamado Histogram-based Hash Stripped Join (HHSJ) é apresentado. O HSSJ utiliza histogramas da distribuição dos objetos no espaço para definir o particionamento, armazena os objetos em arquivos organizados em hash e subdivide o espaço em faixas (strips) para reduzir o processamento. Os testes indicam que o HHSJ é mais rápido na maioria dos cenários, sendo ainda mais vantajoso quanto maior o número de objetos envolvidos na junção. Um módulo de otimização de consultas baseado em custos, capaz de escolher o melhor algoritmo para realizar a etapa de filtragem é descrito. O módulo utiliza informações estatísticas mantidas no dicionário de dados para estimar o tempo de resposta de cada algoritmo, e indicar o mais rápido para realizar uma operação específica. Este otimizador de consultas acertou a indicação em 88,9% dos casos, errando apenas na junção de conjuntos pequenos, quando o impacto é menor. / A Geographic Information System (GIS) stores geographic data, combining them to obtain new representations of the geographic space. The spatial join operation combines two sets of spatial features, A and B, based on a spatial predicate. It is a fundamental as well as one of the most expensive operations in GIS. Combining pairs of spatial, georreferenced data objects of two different, and probably large data sets implies the execution of a significant number of Input/Output (I/O) operations as well as a large number of CPU operations. This work presents a study about the performance of spatial join algorithms. Firstly, an analysis of the algorithms is realized. As a result, mathematical expressions are identified to predict the number of I/O operations and the algorithm complexity. After this, some of the algorithms (e.g.; Nested Loops, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) to R-Trees and Iterative Spatial Stripped Join (ISSJ)) are implemented, allowing the execution of a series of tests in different spatial join scenarios. The tests were performed using both synthetic and real data sets. Based on the results, a new algorithm, called Histogram-based Hash Stripped Join (HHSJ), is proposed. The partitioning of the space is carried out according to the spatial distribution of the objects, maintained in histograms. In addition, a hash file is created for each input data set and used to enhance both the storage of and the access to the minimum bounding rectangles (MBR) of the respective set elements. Furthermore, the space is divided in strips, to reduce the processing time. The results showed that the new algorithm is faster in almost all scenarios, specially when bigger data sets are processed. Finally, a query optimizer based on costs, capable to choose the best algorithm to perform the filter step of a spatial join operation, is presented. The query optimizer uses statistical information stored in the data dictionary to estimate the response time for each algorithm and chooses the faster to realize the operation. This query optimizer choose the right one on 88.9% of cases, mistaken just in spatial join envolving small data sets, when the impact is small.
|
104 |
Avaliação da regulação de consultas médicas especializadas baseada em protocolo+teleconsultoriaPfeil, Juliana Nunes January 2018 (has links)
Background. A demanda por cuidados médicos especializados vem aumentando em todo o mundo. Analisamos uma iniciativa de telemedicina para reduzir o tempo entre encaminhamento e consulta especializada e o número de pacientes na fila de espera. Métodos. Um estudo retrospectivo com controles contemporâneos foi realizado entre junho de 2014 a julho de 2016. As especialidades selecionadas foram incluídas em uma intervenção de telemedicina e comparadas com as especialidades controle reguladas de forma padrão. Os pacientes de intervenção foram combinados com um conjunto aleatório de controles (proporção 1: 1) por semestre e ano de inclusão na lista de espera e pelo índice de demanda e oferta de consultas especializadas (número de pacientes na fila de espera em junho de 2014 dividido pela média de consultas médicas especializadas disponibilizadas durante os 25 meses que compõem o período de análise). A intervenção de telemedicina incluiu o desenvolvimento de protocolos de referência e classificação de risco de pacientes na fila de espera. O tempo de espera para a consulta presencial e a magnitude da diminuição do número de pacientes na fila no final da observação foram os desfechos primários. Resultados. Nefrologia, pneumologia, urologia, neurologia, neurocirurgia e reumatologia foram selecionados para a intervenção, para um total de 50.185 pacientes (idade média: 51,5 anos) versus 50,124 pacientes controles (idade média: 52,2 anos). O tempo médio para o agendamento de consultas foi de 583,5 dias no grupo de intervenção versus 599,8 dias nos controles (p <0,001). O volume da lista de espera diminuiu 61,4% no grupo de intervenção e 53,2% no grupo controle 13 (<0,001). Para pacientes de alto risco (grupo de intervenção apenas), o tempo médio entre encaminhamento e consultas foi de 235,43 dias. Conclusões. A intervenção de telemedicina foi eficaz para diminuir o tempo de espera, especialmente para indivíduos de alto risco, e número de pacientes em espera para consultas médicas especializadas, o que sinaliza um efeito positivo sobre a eficiência do sistema de saúde, com redução de tempo e custos de deslocamentos, além de potencializar a prevenção quaternária ao prevenir consultas desnecessárias com médicos especilaistas, por meio do melhor manejo dos médicos de atenção primária. / Background. The demand for specialist care is increasing worldwide. We tested a telemedicine initiative to reduce the time between referral and specialist appointment and the number of waitlisted patients. Methods. A retrospective trial with contemporaneous controls was conducted between June 2014-July 2016. Selected specialties were included in a telemedicine intervention and compared to control specialties covered by the usual gatekeeping program. Intervention patients were matched to a random set of controls (1:1 ratio) by semester and year of inclusion in the waiting list and by the specialty demand to supply ratio (number of waitlisted patients in June 2014 divided by the mean number of appointment slots during the 25 months comprising the period of analysis). The telemedicine intervention encompassed development of referral protocols and risk classification of waitlisted patients. Waiting time to face-to-face consultation and magnitude of decrease in the number of waitlisted patients at the end of the observation were defined as primary outcomes. Results. Nephrology, pulmonology, urology, neurology, neurosurgery, and rheumatology were selected for the intervention, for a total 50,185 patients (mean age: 51.5 years) vs. 50,124 patients controls (mean age: 52.2 years). Mean referralto- appointment time was 583.5 days in the intervention group vs. 599.8 days in controls (p<0.001). Waitlist volume decreased 61.4% in the intervention group and 53.2% in the control group (<0.001). For high-risk patients (intervention group only), mean time between referral and appointments was 235.43 days. 15 Conclusions. The telemedicine intervention was effective to decrease wait time, especially for high-risk individuals, and number of waitlisted patients, which signal a positive effect of e-consultations on the knowledge of primary care physicians, reducing time and travel costs and enhancing a quaternary prevention and avoiding unnecessary consultations. / Telemedicina
|
105 |
Avaliação da regulação de consultas médicas especializadas baseada em protocolo+teleconsultoriaPfeil, Juliana Nunes January 2018 (has links)
Background. A demanda por cuidados médicos especializados vem aumentando em todo o mundo. Analisamos uma iniciativa de telemedicina para reduzir o tempo entre encaminhamento e consulta especializada e o número de pacientes na fila de espera. Métodos. Um estudo retrospectivo com controles contemporâneos foi realizado entre junho de 2014 a julho de 2016. As especialidades selecionadas foram incluídas em uma intervenção de telemedicina e comparadas com as especialidades controle reguladas de forma padrão. Os pacientes de intervenção foram combinados com um conjunto aleatório de controles (proporção 1: 1) por semestre e ano de inclusão na lista de espera e pelo índice de demanda e oferta de consultas especializadas (número de pacientes na fila de espera em junho de 2014 dividido pela média de consultas médicas especializadas disponibilizadas durante os 25 meses que compõem o período de análise). A intervenção de telemedicina incluiu o desenvolvimento de protocolos de referência e classificação de risco de pacientes na fila de espera. O tempo de espera para a consulta presencial e a magnitude da diminuição do número de pacientes na fila no final da observação foram os desfechos primários. Resultados. Nefrologia, pneumologia, urologia, neurologia, neurocirurgia e reumatologia foram selecionados para a intervenção, para um total de 50.185 pacientes (idade média: 51,5 anos) versus 50,124 pacientes controles (idade média: 52,2 anos). O tempo médio para o agendamento de consultas foi de 583,5 dias no grupo de intervenção versus 599,8 dias nos controles (p <0,001). O volume da lista de espera diminuiu 61,4% no grupo de intervenção e 53,2% no grupo controle 13 (<0,001). Para pacientes de alto risco (grupo de intervenção apenas), o tempo médio entre encaminhamento e consultas foi de 235,43 dias. Conclusões. A intervenção de telemedicina foi eficaz para diminuir o tempo de espera, especialmente para indivíduos de alto risco, e número de pacientes em espera para consultas médicas especializadas, o que sinaliza um efeito positivo sobre a eficiência do sistema de saúde, com redução de tempo e custos de deslocamentos, além de potencializar a prevenção quaternária ao prevenir consultas desnecessárias com médicos especilaistas, por meio do melhor manejo dos médicos de atenção primária. / Background. The demand for specialist care is increasing worldwide. We tested a telemedicine initiative to reduce the time between referral and specialist appointment and the number of waitlisted patients. Methods. A retrospective trial with contemporaneous controls was conducted between June 2014-July 2016. Selected specialties were included in a telemedicine intervention and compared to control specialties covered by the usual gatekeeping program. Intervention patients were matched to a random set of controls (1:1 ratio) by semester and year of inclusion in the waiting list and by the specialty demand to supply ratio (number of waitlisted patients in June 2014 divided by the mean number of appointment slots during the 25 months comprising the period of analysis). The telemedicine intervention encompassed development of referral protocols and risk classification of waitlisted patients. Waiting time to face-to-face consultation and magnitude of decrease in the number of waitlisted patients at the end of the observation were defined as primary outcomes. Results. Nephrology, pulmonology, urology, neurology, neurosurgery, and rheumatology were selected for the intervention, for a total 50,185 patients (mean age: 51.5 years) vs. 50,124 patients controls (mean age: 52.2 years). Mean referralto- appointment time was 583.5 days in the intervention group vs. 599.8 days in controls (p<0.001). Waitlist volume decreased 61.4% in the intervention group and 53.2% in the control group (<0.001). For high-risk patients (intervention group only), mean time between referral and appointments was 235.43 days. 15 Conclusions. The telemedicine intervention was effective to decrease wait time, especially for high-risk individuals, and number of waitlisted patients, which signal a positive effect of e-consultations on the knowledge of primary care physicians, reducing time and travel costs and enhancing a quaternary prevention and avoiding unnecessary consultations. / Telemedicina
|
106 |
Effects of groups in demand for consultation dental / Efeitos de grupos na demanda por consultas odontolÃgicasWilliam Sheldon Maia Xavier 14 February 2012 (has links)
nÃo hà / The purpose of this study is to identify the existence of group effects, known as peer effects, at the demand for dental appointments in collective contracts that are
exclusively dental health plans. This paper compares the number of dental appointments of each person with the amount of dental appointments in the group, despising the history appoint of the analyzed individual. In order to test empirically if the group effect is important, a model of traditional counting was used, with the introduction of the variable that indicates of group effect, particularly, the model of binomial negative counting for panel with random effects, embracing both the effect of over-dispersion and the time dependence of the use for the same person. The companies were divided into five groups according to their size, as follows: 2 to 20, 21 to 50, 51 to 100, 101 to 200 and more than 200 beneficiaries. The results showed that the group effects increased successively according to the size of the company, in which companies with more than 200 beneficiaries were the ones most affected. / O objetivo deste estudo à identificar a existÃncia de efeitos de grupo, ou peer effect, na demanda por consultas odontolÃgicas dentro de contratos coletivos de planos saÃde exclusivamente odontolÃgicos. O trabalho compara a quantidade de consultas
odontolÃgicas de cada indivÃduo com a quantidade de consultas odontolÃgicas do grupo, desconsiderando o histÃrico de consultas do indivÃduo analisado. Para testar empiricamente se o efeito de grupo à importante, foram utilizados modelos de
contagem tradicionais com a introduÃÃo da variÃvel indicadora de efeito de grupo, em particular, o modelo de contagem binomial negativo para painel com efeito aleatÃrio para acomodar tanto o efeito sobre-dispersÃo quanto à dependÃncia
temporal do uso para o mesmo indivÃduo. As empresas foram divididas em 5 grupos de acordo com seu porte, sendo: 2 a 20, 21 a 50, 51 a 100, 101 a 200 e mais de 200 beneficiÃrios. Os resultados mostraram que os efeitos de grupo aumentaram
sucessivamente de acordo com o aumento do porte da empresa, sendo as empresas com mais de 200 beneficiÃrios aquelas mais afetadas pelos efeitos de grupo.
|
107 |
Benchmark para métodos de consultas por palavras-chave a bancos de dados relacionais / Benchmark for query methods by keywords to relational databasesOliveira Filho, Audir da Costa 21 June 2018 (has links)
Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2018-08-03T11:37:48Z
No. of bitstreams: 2
Dissertação - Audir da Costa Oliveira Filho - 2018.pdf: 1703675 bytes, checksum: f21c9ff479b840d0cdd37dfc9827c0dd (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2018-08-03T11:41:39Z (GMT) No. of bitstreams: 2
Dissertação - Audir da Costa Oliveira Filho - 2018.pdf: 1703675 bytes, checksum: f21c9ff479b840d0cdd37dfc9827c0dd (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-08-03T11:41:39Z (GMT). No. of bitstreams: 2
Dissertação - Audir da Costa Oliveira Filho - 2018.pdf: 1703675 bytes, checksum: f21c9ff479b840d0cdd37dfc9827c0dd (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2018-06-21 / Keyword query techniques have been proven to be very effective due of their user-friendliness on the Web.
However, much of the data is stored in relational databases, being necessary knowledge of a structured
language to access this data. In this sense, during the last decade some works have been proposed with the
intention of performing keyword queries to relational databases. However, systems that implement this
approach have been validated using ad hoc methods that may not reflect real-world workloads. The present
work proposes a benchmark for evaluation of the methods of keyword queries to relational databases
defining a standardized form with workloads that are consistent with the real world. This proposal assists in
assessing the effectiveness of current and future systems. The results obtained with the benchmark
application suggest that there are still many gaps to be addressed by keyword query techniques. / Técnicas de consultas por palavras-chave se mostraram muito eficazes devido à sua facilidade
de utilização por usuário na Web. Contudo, grande parte dos dados estão armazenados em
bancos de dados relacionais, sendo necessário conhecimento de uma linguagem estruturada
para acesso a esses dados. Nesse sentido, durante a última década alguns trabalhos foram
propostos com intuito de realizar consultas por palavras-chaves a bancos de dados
relacionais. No entanto, os sistemas que implementam essa abordagem foram validados
utilizando métodos ad hoc com bancos de dados que podem não refletir as cargas utilizadas
no mundo real. O presente trabalho propõe um benchmark para avaliação dos métodos de
consultas por palavras-chave a bancos de dados relacionais definindo uma forma padronizada
com cargas de trabalhos condizentes com a do mundo real. Esta proposta auxilia na avaliaçãode eficácia dos sistemas atuais e futuros. Os resultados obtidos com a aplicação do
benchmark sugerem que ainda existe muitas lacunas a serem tratadas pelas técnicas de
consultas por palavras-chave.
|
108 |
Algoritmos de bulk-loading para o método de acesso métrico Onion-tree / Bulk-loading algorithms to the metric access method onion-treeArthur Emanuel de Oliveira Carosia 27 May 2013 (has links)
Atualmente, a Onion-tree [Carélo et al., 2009] é o método de acesso métrico baseado em memória primária mais eficiente para pesquisa por similaridade disponível na literatura. Ela indexa dados complexos por meio da divisão do espaço métrico em regiões (ou seja, subespaços) disjuntas, usando para isso dois pivôs por nó. Para prover uma boa divisão do espaço métrico, a Onion-tree introduz as seguintes características principais: (i) procedimento de expansão, o qual inclui um método de particionamento que controla o número de subespaços disjuntos gerados em cada nó; (ii) técnica de substituição, a qual pode alterar os pivôs de um nó durante operações de inserção baseado em uma política de substituição que garante uma melhor divisão do espaço métrico, independente da ordem de inserção dos elementos; e (iii) algoritmos para a execução de consultas por abrangência e aos k-vizinhos mais próximos, de forma que esses tipos de consulta possam explorar eficientemente o método de particionamento da Onion-tree. Entretanto, a Onion-tree apenas oferece funcionalidades voltadas à inserção dos dados um-a-um em sua estrutura. Ela não oferece, portanto, uma operação de bulk-loading que construa o índice considerando todos os elementos do conjunto de dados de uma única vez. A principal vantagem dessa operação é analisar os dados antecipadamente para garantir melhor particionamento possível do espaço métrico. Com isto, a carga inicial de grandes volumes de dados pode ser melhor realizada usando a operação de bulk-loading. Este projeto de mestrado visa suprir a falta da operação de bulk-loading para a Onion-tree, por meio da proposta de algoritmos que exploram as características intrínsecas desse método de acesso métrico. No total, são propostos três algoritmos de bulk-loading, denominados GreedyBL, SampleBL e HeightBL, os quais utilizam respectivamente as seguintes abordagens: gulosa, amostragem e de estimativa da altura do índice. Testes experimentais realizados sobre conjuntos de dados com volume variando de 2.536 a 102.240 imagens e com dimensionalidade variando de 32 a 117 dimensões mostraram que os algoritmos propostos introduziram vantagens em relação à estrutura criada pelo algoritmo de inserção um-a-um da Onion-tree. Comparado com a inserção um-a-um, o tamanho do índice foi reduzido de 9% até 88%. Em consultas por abrangência, houve redução de 16% até 99% no número de cálculos de distância e de 9% a 99% no tempo gasto em relação à inserção. Em consultas aos k-vizinhos mais próximos, houve redução de 13% a 86% em número de cálculos de distância e de 9% até 63% no tempo gasto / The main-memory Onion-tree [Carélo et al., 2009] is the most efficient metric access method to date. It indexes complex data by dividing the metric space into several disjoint regions (i.e. subspaces) by using two pivots per node. To provide a good division of the metric space, the Onion-tree introduces the following characteristics: (i) expansion procedure, which provides a partitioning method that controls the number of disjoint subspaces generated at each node; (ii) replacement technique, which can replace the pivots of a leaf node during insert operations based on a replacement policy that ensures a better division of the metric space, regardless of the insertion order of the elements; and (iii) algorithms for processing range and k-NN queries, so that these types of query can efficiently use the partitioning method of the Onion-tree. However, the Onion-tree only performs element-by-element insertions into its structure. Another important issue is the mass loading technique, called bulk-loading, which builds the index considering all elements of the dataset at once. This technique is very useful in the case of reconstructing the index or inserting a large number of elements simultaneously. Despite the importance of this technique, to the best of our knowledge, there are not in the literature bulk-loading algorithms for the Onion-tree. In this masters thesis, we fill this gap. We propose three algorithms for bulk-loading Onion-trees: the GreedyBL algorithm, the SampleBL algorithm and the HeightBL algorithm. These algorithms are based on the following approaches, respectively: greedy, sampling and estime height of the index. Performance tests with real-world data with different volumes (ranging from 2,536 to 102,240 images) and different dimensionalities (ranging from 32 to 117 dimensions) showed that the indices produced by the proposed algorithms are very compact. Compared with the element-by-element insertion, the size of the index reduced from 9% up to 88%. The proposed algorithms also provided a great improvement in query processing. They required from 16% up to 99% less distance calculations and were from 9% up to 99% faster than the element-by-element insertion to process range queries. Also, they required from 13% up to 86% less distance calculations and were from 9% up to 63% faster than the element-by-element insertion to process k-NN queries
|
109 |
GeDaNIC: um framework para gerenciamento de banco de dados em nuvem baseado nas interaÃÃes entre consultas / GeDaNIC: a framework for database management cloud data based on interactions between queriesManoel Mariano Siqueira Junior 30 November 2012 (has links)
FundaÃÃo Cearense de Apoio ao Desenvolvimento Cientifico e TecnolÃgico / ComputaÃÃo em nuvem à uma tendÃncia recente de tecnologia cujo objetivo à proporcionar serviÃos de Tecnologia da InformaÃÃo (TI) sob demanda e com pagamento baseado no uso. Um dos principais serviÃos disponibilizados por uma plataforma de computaÃÃo em nuvem consiste no serviÃo de gerenciamento de dados, ou simplesmente, serviÃo de dados. Este serviÃo assume a responsabilidade pela instalaÃÃo, configuraÃÃo e manutenÃÃo dos sistemas de banco de dados, bem como pelo acesso eficiente aos dados armazenados. Este trabalho apresenta um framework, denominado GeDaNIC, para o gerenciamento de sistemas de banco de dados em nuvem. O framework proposto tem por objetivo fornecer a infraestrutura de software necessÃria para a disponibilizaÃÃo de serviÃos de dados em ambientes de computaÃÃo em nuvem. Neste sentido, o mecanismo concebido busca solucionar alguns problemas ainda em aberto no contexto de sistemas de banco de dados em nuvem, tais como: despacho, escalonamento de consultas e provisionamento de recursos. A abordagem concebida estende os trabalhos anteriores adicionando importantes caracterÃsticas, como: o suporte Ãs cargas de trabalho imprevistas e a utilizaÃÃo de informaÃÃes sobre as interaÃÃes entre consultas. O suporte Ãs cargas de trabalhos sazonais està relacionado a uma das principais propriedades da computaÃÃo em nuvem: a elasticidade rÃpida. Jà as interaÃÃes entre consultas podem proporcionar impactos significativos no desempenho dos sistemas de banco de dados. Por este motivo, o GeDaNIC utiliza informaÃÃes sobre essas interaÃÃes com a finalidade de reduzir o tempo de execuÃÃo das cargas de trabalho submetidas ao serviÃo de dados e, consequentemente, aumentar o lucro do provedor deste serviÃo. Para isso, trÃs novas abordagens para modelar e mensurar as interaÃÃes entre instÃncias e tipos de consultas sÃo propostas. Com o objetivo de demonstrar a eficiÃncia do framework proposto uma avaliaÃÃo experimental usando o benchmark TPC-H sobre o PostgreSQL foi realizada. Os resultados apontam que a soluÃÃo concebida tem potencial para aumentar o lucro do provedor do serviÃo de dados em nuvem. / Cloud computing is a recent trend of technology aimed at providing services for Information Technology (IT) and demand-based payment in use. One of the main services provided by a computing platform cloud is the service data management, or simply data service. This service accepts responsibility for the installation, configuration and maintenance of database systems, as well as for efficient access to stored data. This work presents a framework, called GeDaNIC, for managing database systems cloud data. The proposed framework aims to provide software infrastructure required for the provision of data services in computing environments cloud. Accordingly, the search system designed to solve some problems still in the context of open systems database in the cloud, such as dispatch, scheduling appointments and resource provisioning. The approach extends the designed Previous work by adding important features such as: support to unforeseen workloads and use of information about the interactions between queries. The supporting seasonal workloads is related to one of the main properties of computing Cloud: rapid elasticity. Already interactions between queries can provide impacts
significant performance of database systems. For this reason, the GeDaNIC uses information about these interactions in order to reduce the execution time of
workloads submitted to the data service and thereby increase the profit of provider of this service. For this, three new approaches to model and measure the interactions
between instances and types of queries are proposed. In order to demonstrate the efficiency of the proposed framework for experimental evaluation using the TPC-H on
PostgreSQL was performed. The results show that the designed solution has the potential to increase the profit of the service provider cloud data.
|
110 |
Incluindo funções de distância e extratores de características para suporte a consultas por similaridade / Including distance functions and features extractors to support similarity queriesMarcos Vinícius Naves Bêdo 20 September 2013 (has links)
Sistemas Gerenciadores de Bases de Dados Relacionais (SGBDR) são capazes de lidar com um alto volume de dados. As consultas nestes sistemas são realizados a partir da relação de ordem total, domínio sob o qual estão definidos dados simples como números ou strings, por exemplo. No caso de dados complexos, como imagens médicas, áudio ou séries-temporais financeiras que não obedecem as propriedade da relação acima citada e necessária uma abordagem que seja capaz de realizar a recuperação por conteúdo destes dados em tempo hábil e com semântica adequada. Nesse sentido, a literatura nos apresenta, como paradigma consolidado, as consultas por similaridade. Esse paradigma e a base para o funcionamento de muitos aplicativos de auxílio a tomada de decisão pelo especialista como Recuperação de Imagens Médicas por Conteúdo (CBMIR) e Recuperação de Áudio por Conteúdo (CBAR) e inclui diversas sub-áreas de pesquisa tais como extratores de características, funções de distância e métodos de acesso métrico. O desenvolvimento de novos métodos extratores de características e novas funções de distância são de fundamental importância para a diminuição do gap semântico entre os aplicativos e usuários, enquanto os métodos de acesso métricos são os reponsáveis diretos pela rápida resposta dos sistemas. Integrar todas essas funcionalidades em um framework de suporte a consultas por similaridade dentro de um SGBDR permanece um grande desafio. Esse trabalho objetiva estender uma proposta inicial dos recursos disponíveis no SIREN, inserindo novos extratores de características e funções de distância para imagens médicas e séries-temporais financeiras transformando-o em um framework, de forma que seus componentes possam ser utilizados via comandos Structured Query Language (SQL). Os resultados poderão ser diretamente utilizados por aplicativos de auxílio a tomada de decisão pelo especialista / Database Management Systems (DBMS) can deal with large amount of data. The queries on those systems obey the total order relation (TOR), domain where simple data such as numbers or strings are defined. In the case of complex data (e.g.: medical images, audio or temporal time-series) which does not obey the TOR properties, it\'s mandatory a new approach that can retrieve complex data by content with time skilful and proper semantics. To do so, the literature presents us, as consolidated paradigm, the similarity queries. This paradigm is the base of many computer aided applications (e.g.: Content-Based Medical Image Retrieval (CBMIR) and Content-Based Audio Retrieval (CBAR)) and include several research areas such as features extraction, distance functions and metrical access methods (MAM). Developing new features extractors methods and new distance functions (and combine them) are crucial to reduce the semantic gap between the content-based applications and the users. The MAM are responsible to provide fast and scalable answer to the systems. Integrate all those functionalities in one framework that can provide support to similarity queries inside a DBMS remains a huge challenge. The main objective of this work is extend the initial resources of the system SIREN, inserting new features extractor methods and distance functions to medical images, audio and financial time-series, turning it into a framework. All components may be used by extended Structured Query Language (SQL) commands. The SQL can be directly used by computer-aided applications
|
Page generated in 0.0855 seconds