1 |
[en] A FRAMEWORK TO AUTOMATE DATA SCIENCE TASKS THROUGH PERSONALIZED CHATBOTS / [pt] UM FRAMEWORK PARA AUTOMATIZAR TAREFAS DE CIENCIA DE DADOS ATRAVéS DE INTERFACES CONVERSACIONAISJEFRY SASTRE PEREZ 31 January 2022 (has links)
[pt] Diversas soluções foram criadas para automatizar cenários específicos de
ciência de dados e implementações de conteúdo personalizado em interfaces de
conversação. No entanto, o entendimento geral dessas interfaces de conversação
que fornecem sugestões personalizadas para cientistas de dados ainda é pouco
explorado. Identificamos a necessidade de automatizar procedimentos de ciência de dados até diferentes níveis de automação. Nossa pesquisa se concentra
em ajudar os cientistas de dados durante a automação desses procedimentos
usando interfaces conversacionais. Propomos um framework para a criação de
um sistema chat-bot para facilitar a automação de cenários comuns de ciência de dados. Além disso, instanciamos a solução em dois cenários diferentes
de ciência de dados. O primeiro cenário se concentra na detecção de valores
discrepantes e o segundo na limpeza de dados. Conduzimos um estudo com 28
participantes para demonstrar que os cientistas de dados podem usar a solução
proposta. Todos os participantes concluíram as atividades corretamente e 75 a
80 por cento acharam o framework relativamente fácil de estender e usar. Nossa análise sugere que o uso de interfaces conversacionais pode facilitar a automação
de tarefas de ciência de dados. / [en] Several solutions have been created for automating specific data science
scenarios and implementations of personalized content in conversational interfaces. However, the overall understanding of these conversational interfaces
that provide personalized suggestions for data scientists is still poorly explored. We identify the need to automate data science procedures up to different
levels of automation. Our research focuses on helping data scientists during the
automation of these procedures by using conversational interfaces. We propose
a framework for creating a chat-bot system to facilitate the automation of data
science common scenarios. In addition, we instantiate the framework in two
different data science scenarios. The first scenario focuses on outlier detection,
and the second scenario on data cleaning. We conducted a study with 28 participants to demonstrate that data scientists can use the proposed framework.
All participants completed the activities correctly, and 75 to 80 percent found the
framework relatively easy to extend and use. Our analysis suggests that the
use of conversational interfaces can facilitate the automation of data science
tasks.
|
2 |
[en] A DATA SCIENCE AND ACTUARIAL APPROACH FOR GROUNDING RISK DILUTION STRATEGIES INVOLVING EXTREME WINDS IN SOUTHERN BRAZIL / [pt] UMA ABORDAGEM DE CIÊNCIAS DE DADOS E ATUARIA PARA FUNDAMENTAÇÃO DE ESTRATÉGIAS DE DILUIÇÃO DE RISCOS ENVOLVENDO VENTOS EXTREMOS NO SUL DO BRASILTAYLOR OLIVEIRA FIDELIS 29 June 2023 (has links)
[pt] Aumento de eventos climáticos extremos está colocando empresas de seguros
em risco, com perdas que chegam a bilhões de dólares. No Sul do Brasil,
municípios sofreram perdas devido a eventos climáticos, incluindo um ciclone
bomba que causou prejuízos próximos a 2 bilhões de reais. As perdas são em grande
parte seguradas, mas avaliar a probabilidade de perdas devido a desastres
naturais é difícil devido à dependência intrínseca entre os riscos expostos. Essa
dissertação busca estudar ventos extremos na região Sul do Brasil, visando
entender como precificar e diluir o risco em áreas de alto impacto. A pesquisa
envolve a análise de dados meteorológicos, econômicos, sinistros reportados
por seguradoras, prêmios reportados por seguradoras, estrutura populacional,
PIB, relevo e outras variáveis relevantes para a pesquisa. O objetivo é estimar
cenários de perdas decorrentes de eventos extremos e oferecer informações
relevantes para avaliar estratégias de diluição de risco de perdas econômicas.
A dissertação mistura distintas áreas, incluindo Economia, Atuária, Ciência
de Dados, Estatística e Matemática. / [en] Increasing extreme weather events are putting insurance companies at risk,with losses reaching billions of dollars. In the South of Brazil, municipalities have suffered losses due to climate events, including a bomb cyclone that caused losses of around 2 billion of reais. These losses are largely insured, but evaluating the probability of losses due to natural disasters is difficult due to the intrinsic dependence between exposed risks. This dissertation seeks to study extreme winds in the Southern region of Brazil, aiming to understand how to price and dilute risk in high impact areas. The research involves the analysis of meteorological and economic data, insurance claims reported by insurers, premiums reported by insurers, population structure, GDP, topography, and other relevant variables for the research. The objective is to estimate loss scenarios resulting from extreme events and offer relevant information to evaluate strategies for diluting the risk of economic losses. The dissertation blends distinct areas, including Economics, Actuarial Science, Data Science, Statistics, and Mathematics.
|
3 |
[en] A DATA SCIENCE APPROACH TO ANALYZING THE IMPACT OF COGNITIVE RISK-SEEKING BIAS ON INDIVIDUAL DECISION-MAKING INVOLVING FINANCIAL LOSSES / [pt] UMA ABORDAGEM DE CIÊNCIA DE DADOS PARA ANÁLISE DO IMPACTO DO VIÉS COGNITIVO DE BUSCA DE RISCO EM TOMADAS DE DECISÃO INDIVIDUAIS ENVOLVENDO PERDAS FINANCEIRASLEONARDO FREITAS SAYAO 12 August 2024 (has links)
[pt] O estudo da tomada de decisões tem ganhado cada vez mais importância,
desde as concepções clássicas do homem econômico até os mais recentes conceitos
da racionalidade limitada e dos vieses cognitivos. Ao longo do tempo, a crescente
complexidade das decisões impulsionou o desenvolvimento de tecnologias como
os Sistemas de Apoio à Decisão e Modelos Preditivos, destacando-se mais
recentemente a incorporação de técnicas do campo da Inteligência Artificial, e mais
precisamente de Aprendizado de Máquina, para melhorar a precisão e a eficiência
das tomadas de decisão. Entretanto, por maior que tenham sido os benefícios
proporcionados pelos avanços no apoio computacional, as decisões são, em última
análise, tomadas por humanos. E, sendo uma tarefa essencialmente humana, a
influência dos vieses cognitivos em tomadas de decisão são um desafio relevante e
pouco explorado. Esses vieses podem ser decorrentes de diversos fatores, incluindo
preferências individuais, influências externas e derivações cognitivas
inconscientes. Apesar dos esforços da área da Economia Comportamental em
identificar e modelar esses vieses, seu impacto em contextos de decisões monetárias
ainda é limitado. Portanto, este trabalho propõe uma arquitetura baseada em
fundamentos ontológicos para identificar e analisar o impacto de vieses cognitivos
em cenários de alto risco de perdas monetárias. Através da aplicação de técnicas de
Ciência de Dados e Aprendizado de Máquina, o objetivo é propor uma metodologia
implementada em um artefato computacional, capaz de automaticamente identificar
padrões de vieses cognitivos a partir de um histórico de registros de decisões,
gerando conhecimento sobre as preferências de risco dos tomadores de decisão e
seus ganhos e perdas diante das suas escolhas. O viés específico explorado neste
estudo é a Busca de Risco no domínio de perdas, conforme definido no Padrão
Quádruplo do Kahneman. A avaliação da eficácia dessa proposta será realizada por
meio de um estudo de caso utilizando um benchmark disponível na literatura,
fornecendo insights sobre a aplicabilidade e os benefícios práticos da arquitetura
proposta. / [en] The study of decision-making has gained more and more importance, from
the classical conceptions of the economic man to the more recent concepts of
bounded rationality and cognitive biases. Over time, the increasing complexity of
decisions has driven the development of technologies such as Decision Support
Systems and Predictive Models, highlighting more recently the incorporation of
techniques from the field of Artificial Intelligence, and more precisely Machine
Learning, to improve the accuracy and efficiency of decision-making. However, as
great as the benefits provided by advances in computer support have been, humans
are ultimately the ones to make decisions. And, being an essentially human task,
the influence of cognitive biases on decision-making is a relevant and
underexplored challenge. These biases can be due to various factors, including
individual preferences, external influences, and unconscious cognitive derivations.
Despite the efforts of the field of Behavioral Economics to identify and model these
biases, their impact in contexts of monetary decisions is still limited. Therefore, this
work proposes an architecture based on ontological foundations to identify and
analyze cognitive biases in scenarios of high risk of monetary losses. Through the
application of Data Science and Machine Learning techniques, we propose a
methodology - implemented in a computational artifact - capable of automatically
identifying patterns of cognitive biases from a history of decision records,
generating knowledge about the risk preferences of decision makers and their gains
and losses caused by their choices. The specific bias explored in this study is Risk
Seeking in the loss domain, as defined in the Kahneman Quadruple Pattern. The
evaluation of the effectiveness of this proposal will be carried out through a case
study using a benchmark available in the literature, providing insights into the
applicability and practical benefits of the proposed architecture.
|
4 |
[en] A VISUAL ANALYSIS OF BUS GPS DATA IN RIO / [pt] UMA ANÁLISE VISUAL DOS DADOS DE GPS DOS ÔNIBUS NO RIOBRUNO GUBERFAIN DO AMARAL 19 July 2016 (has links)
[pt] O tema Cidades Inteligentes é um assunto de interesse para gestores
públicos e pesquisadores. Desenvolver cidades mais inteligentes é um dos
desafios para o futuro próximo devido à crescente demanda por serviços
públicos. Em particular, o transporte público é um dos aspectos mais
visíveis de uma cidade viva e, portanto, a sua implementação deve ser muito
eficiente. O sistema de transporte público da cidade do Rio de Janeiro é
historicamente deficiente, principalmente porque ele é baseado em um antigo
sistema de ônibus. Para melhorá-lo, a Prefeitura tomou algumas ações, como
o desenvolvimento de um projeto de dados aberto que mostra, a quase a cada
minuto, a posição instantânea de todos os ônibus na cidade. Embora não
seja uma nova tecnologia, esta é a primeira iniciativa a ser desenvolvida no
Rio. Neste trabalho, são aprsentadas ferramentas simples para a exploração
visual deste grande conjunto de dados com base em informações históricas,
que chega a um total de mais de um bilhão de amostras. Com essas
ferramentas, um usuário será capaz de verificar as tendências, identificar
padrões e localizar anomalias nesta grande quantidade de dados de GPS
dos ônibus. / [en] Smart cities is a current subject of interest for public administrators
and researchers. Getting the cities smarter is one of the challenges for
the near future, due to the growing demand for public services. In
particular, public transportation is one of most visible aspects of a living
city and, therefore, its implementation must be very efficient. The public
transportation system of the City of Rio de Janeiro is historically deficient,
mostly because it is based on an old bus system. To change it, the City
Hall took some actions, such as the development of an open data project
that shows, at about every minute, the GPS instant position of all buses in
the city. Although it is not a new technology, it is the first initiative to be
developed in Rio. This work presents simple tools for the visual exploration
of this big dataset based on the historical information from this service,
which reaches a total of more than one billion samples. With these tools
one is able to discover trends, identify patterns, and locate abnormalities
within the massive collection of the buses GPS data.
|
5 |
[pt] ENSAIOS EM PREDIÇÃO DO TEMPO DE PERMANÊNCIA EM UNIDADES DE TERAPIA INTENSIVA / [en] ESSAYS ON LENGTH OF STAY PREDICTION IN INTENSIVE CARE UNITSIGOR TONA PERES 28 June 2021 (has links)
[pt] O tempo de permanência (LoS) é uma das métricas mais utilizadas
para avaliar o uso de recursos em Unidades de Terapia Intensiva (UTI). Esta
tese propõe uma metodologia estruturada baseada em dados para abordar
três principais demandas de gestores de UTI. Primeiramente, será proposto
um modelo de predição individual do LoS em UTI, que pode ser utilizado
para o planejamento dos recursos necessários. Em segundo lugar, tem-se
como objetivo desenvolver um modelo para predizer o risco de permanência
prolongada, o que auxilia na identificação deste tipo de paciente e assim
uma ação mais rápida de intervenção no mesmo. Finalmente, será proposto
uma medida de eficiência ajustada por case-mix capaz de realizar análises
comparativas de benchmark entre UTIs. Os objetivos específicos são:
(i) realizar uma revisão da literatura dos fatores que predizem o LoS em
UTI; (ii) propor uma metodologia data-driven para predizer o LoS individual
do paciente na UTI e o seu risco de longa permanência; e (iii) aplicar
essa metodologia no contexto de um grande conjunto de UTIs de diferentes
tipos de hospitais. Os resultados da revisão da literatura apresentaram os
principais fatores de risco que devem ser considerados em modelos de predição.
Em relação ao modelo preditivo, a metodologia proposta foi aplicada
e validada em um conjunto de dados de 109 UTIs de 38 diferentes hospitais
brasileiros. Este conjunto continha um total de 99.492 internações de 01 de
janeiro a 31 de dezembro de 2019. Os modelos preditivos construídos usando
a metodologia proposta apresentaram resultados precisos comparados com
a literatura. Estes modelos propostos têm o potencial de melhorar o planejamento
de recursos e identificar precocemente pacientes com permanência
prolongada para direcionar ações de melhoria. Além disso, foi utilizado o
modelo de predição proposto para construir uma medida não tendenciosa
para benchmarking de UTIs, que também foi validada no conjunto de dados
estudado. Portanto, esta tese propôs um guia estruturado baseado em dados
para gerar predições para o tempo de permanência em UTI ajustadas ao
contexto em que se deseja avaliar. / [en] The length of stay (LoS) in Intensive Care Units (ICU) is one of the
most used metrics for resource use. This thesis proposes a structured datadriven
methodology to approach three main demands of ICU managers.
First, we propose a model to predict the individual ICU length of stay,
which can be used to plan the number of beds and staff required. Second,
we develop a model to predict the risk of prolonged stay, which helps
identifying prolonged stay patients to drive quality improvement actions.
Finally, we build a case-mix-adjusted efficiency measure (SLOSR) capable
of performing non-biased benchmarking analyses between ICUs. To achieve
these objectives, we divided the thesis into the following specific goals: (i)
to perform a literature review and meta-analysis of factors that predict
patient s LoS in ICUs; (ii) to propose a data-driven methodology to predict
the numeric ICU LoS and the risk of prolonged stay; and (iii) to apply this
methodology in the context of a big set of ICUs from mixed-type hospitals.
The literature review results presented the main risk factors that should
be considered in future prediction models. Regarding the predictive model,
we applied and validated our proposed methodology to a dataset of 109
ICUs from 38 different Brazilian hospitals. The included dataset contained
a total of 99,492 independent admissions from January 01 to December
31, 2019. The predictive models to numeric ICU LoS and to the risk of
prolonged stay built using our data-driven methodology presented accurate
results compared to the literature. The proposed models have the potential
to improve the planning of resources and early identifying prolonged stay
patients to drive quality improvement actions. Moreover, we used our
prediction model to build a non-biased measure for ICU benchmarking,
which was also validated in our dataset. Therefore, this thesis proposed a
structured data-driven guide to generating predictions to ICU LoS adjusted
to the specific environment analyzed.
|
6 |
[pt] MINERANDO O PROCESSO DE UM COQUEAMENTO RETARDADO ATRAVÉS DE AGRUPAMENTO DE ESTADOS / [en] MINING THE PROCESS OF A DELAYED COKER USING CLUSTERED STATESRAFAEL AUGUSTO GASETA FRANCA 25 November 2021 (has links)
[pt] Procedimentos e processos são essenciais para garantir a qualidade de
qualquer operação. Porém, o processo realizado na prática nem sempre está
de acordo com o processo idealizado. Além disso, uma análise mais refinada
de gargalos e inconsistências só é possível a partir do registro de eventos do
processo (log). Mineração de processos (process mining) é uma área que reúne
um conjunto de métodos para reconstruir, monitorar e aprimorar um processo a
partir de seu registro de eventos. Mas, ao aplicar as soluções já existentes no log
de uma unidade de coqueamento retardado, os resultados foram insatisfatórios.
O núcleo do problema está na forma como o log está estruturado, carecendo
de uma identificação de casos, essencial para a mineração do processo. Para
contornar esse problema, aplicamos agrupamento hierárquico aglomerativo no
log, separando as válvulas em grupos que exercem uma função na operação.
Desenvolvemos uma ferramenta (PLANTSTATE) para avaliar a qualidade desses
grupos no contexto da planta e ajustar conforme a necessidade do domínio.
Identificando os momentos de ativação desses grupos no log chegamos a uma
estrutura de sequência e paralelismo entre os grupos. Finalmente, propomos
um modelo capaz de representar as relações entre os grupos, resultando em
um processo que representa a operações em uma unidade de coqueamento
retardado. / [en] Procedures and processes are essential to guarantee the quality of any
operation. However, processes carried out in the real world are not always in
accordance with the imagined process. Furthermore, a more refined analysis
of obstacles and inconsistencies is only possible from the process events record
(log). Process mining is an area that brings together a set of methods to
rebuild, monitor and improve processes from their log. Nevertheless, when
applying existing solutions to the log of a delayed coker unit, the results
were unsatisfactory. The core of the problem is how the log is structured,
lacking a case identification, essential for process mining. To deal with this
issue, we apply agglomerative hierarchical clustering in the log, separating
the valves into groups that perform a task in an operation. We developed a
tool (PLANTSTATE) to assess the quality of these groups in the context of
the plant and to adjust in accord to the needs of the domain. By identifying
the moments of activation of these groups in the log we arrive at a structure
of sequence and parallelism between the groups. Finally, we propose a model
capable of representing the relationships between groups, resulting in a process
that represents the operations in a delayed coker unit.
|
7 |
[en] ON THE INTERACTION BETWEEN SOFTWARE ENGINEERS AND DATA SCIENTISTS WHEN BUILDING MACHINE LEARNING-ENABLED SYSTEMS / [pt] SOBRE A INTERAÇÃO ENTRE ENGENHEIROS DE SOFTWARE E CIENTISTAS DE DADOS CONSTRUINDO SISTEMAS HABILITADOS POR APRENDIZADO DE MÁQUINAGABRIEL DE ANDRADE BUSQUIM 18 June 2024 (has links)
[pt] Nos últimos anos, componentes de aprendizado de máquina têm sido cada
vez mais integrados aos sistemas principais de organizações. A construção desses sistemas apresenta diversos desafios, tanto do ponto de vista teórico quanto
prático. Um dos principais desafios é a interação eficaz entre atores com diferentes formações que precisam trabalhar em conjunto, como engenheiros de
software e cientistas de dados. Este trabalho apresenta três estudos distintos
que investigam as dinâmicas de colaboração entre esses dois atores em projetos
de aprendizado de máquina. Primeiramente, realizamos um estudo de caso exploratório com quatro profissionais com experiência em engenharia de software
e ciência de dados de um grande projeto de sistema habilitado por aprendizado
de máquina. Em nosso segundo estudo, realizamos entrevistas complementares com membros de duas equipes que trabalham em sistemas habilitados por
aprendizado de máquina para obter mais percepções sobre como cientistas de
dados e engenheiros de software compartilham responsabilidades e se comunicam. Por fim, nosso terceiro estudo consiste em um grupo focal onde validamos
a relevância dessa colaboração durante várias tarefas relacionadas à sistemas
habilitados por aprendizado de máquina e avaliamos recomendações que podem melhorar a interação entre os atores. Nossos estudos revelaram vários
desafios que podem dificultar a colaboração entre engenheiros de software e
cientistas de dados, incluindo diferenças de conhecimento técnico, definições
pouco claras das funções de cada um, e a falta de documentos que apoiem
a especificação do sistema habilitado por aprendizado de máquina. Possíveis
soluções para enfrentar esses desafios incluem incentivar a comunicação na
equipe, definir claramente responsabilidades, e produzir uma documentação
concisa do sistema. Nossa pesquisa contribui para a compreensão da complexa
dinâmica entre engenheiros de software e cientistas de dados em projetos de
aprendizado de máquina e fornece recomendações para melhorar a colaboração
e a comunicação nesse contexto. Incentivamos novos estudos que investiguem
essa interação em outros projetos. / [en] In recent years, Machine Learning (ML) components have been increasingly integrated into the core systems of organizations. Engineering such systems
presents various challenges from both a theoretical and practical perspective.
One of the key challenges is the effective interaction between actors with different backgrounds who need to work closely together, such as software engineers
and data scientists. This work presents three studies investigating the current
interaction and collaboration dynamics between these two roles in ML projects. Our first study depicts an exploratory case study with four practitioners
with experience in software engineering and data science of a large ML-enabled
system project. In our second study, we performed complementary interviews
with members of two teams working on ML-enabled systems to acquire more
insights into how data scientists and software engineers share responsibilities
and communicate. Finally, our third study consists of a focus group where we
validated the relevance of this collaboration during multiple tasks related to
ML-enabled systems and assessed recommendations that can foster the interaction between the actors. Our studies revealed several challenges that can
hinder collaboration between software engineers and data scientists, including
differences in technical expertise, unclear definitions of each role s duties, and
the lack of documents that support the specification of the ML-enabled system. Potential solutions to address these challenges include encouraging team
communication, clearly defining responsibilities, and producing concise system
documentation. Our research contributes to understanding the complex dynamics between software engineers and data scientists in ML projects and provides insights for improving collaboration and communication in this context.
We encourage future studies investigating this interaction in other projects.
|
8 |
[en] A CLOUD COMPUTING PLATFORM FOR STORING GEOREFERENCED MOBILITY DATA / [pt] UMA PLATAFORMA NA NUVEM PARA ARMAZENAMENTO DE DADOS GEORREFERENCIADOS DE MOBILIDADE URBANARAFAEL BARBOSA NASSER 15 December 2016 (has links)
[pt] A qualidade de vida nos grandes centros urbanos tem sido motivo de preocupação para governantes, empresários e para a população residente em geral. Os serviços de transporte público coletivo exercem papel central nessa discussão, uma vez que determinam, sobretudo para aquela camada da sociedade de menor poder aquisitivo, o tempo desperdiçado diariamente em seus deslocamentos. Nas metrópoles brasileiras, os ônibus municipais são predominantes no transporte coletivo. Os usuários deste serviço – passageiros – não dispõem de informações atualizadas sobre os ônibus e linhas de ônibus em operação. Oferecer essa natureza de informação contribui para uma melhor experiência de uso diário deste modal e, consequentemente, proporciona maior qualidade de vida aos seus usuários. Em uma visão mais abrangente, os ônibus podem ser considerados sensores que viabilizam a compreensão dos padrões e identificação de anomalias no tráfego de veículos nas áreas urbanas, possibilitando galgar benefícios para toda população. O presente trabalho apresenta uma plataforma na nuvem que captura, enriquece, armazena e disponibiliza os dados dos dispositivos de GPS instalados nos ônibus, permitindo a extração de conhecimento a partir deste valioso e volumoso conjunto de informações. Experimentos são realizados com os ônibus do Município do Rio de Janeiro, com aplicações focadas no passageiro e na sociedade. As metodologias, discussões e técnicas empregadas ao longo do trabalho poderão ser reutilizados para diferentes cidades, modais e perspectivas. / [en] The quality of life in urban centers has been a concern for governments, business and the resident population in general. Public transportation services perform a central role in this discussion, since they determine, especially for that layer of lower-income society, the time wasted daily in their movements. In Brazilian cities, city buses are predominant in public transportion. Users of this service - passengers - do not have updated information of buses and lines. Offer this kind of information contributes to a better everyday experience of this modal and therefore provides greater quality of life for its users. In a broader view, the bus can be considered sensors that enable the understanding of the patterns and identify anomalies in vehicle traffic in urban areas, allowing benefits for the whole population. This work presents a platform in the cloud computing environment that captures, enriches, stores and makes available the data from GPS devices installed on buses, allowing the extraction of knowledge from this valuable and voluminous set of information. Experiments are performed with the buses of the Municipality of Rio de Janeiro, with applications focused on passenger and society. The methodologies, discussions and techniques used throughout the work can be reused for different cities, modal and perspectives.
|
9 |
[en] DATA SCIENCE AND SOLID STATE CHEMISTRY: A PLATFORM FOR THE COMPETITIVENESS OF THE PHARMACEUTICAL INDUSTRY IN EMERGING MARKETS / [pt] CIÊNCIA DE DADOS E QUÍMICA DO ESTADO SÓLIDO: UMA PLATAFORMA PARA COMPETITIVIDADE DA INDÚSTRIA FARMOQUÍMICA E FARMACÊUTICA EM MERCADO EMERGENTESRONALDO PEDRO DA SILVA 28 November 2018 (has links)
[pt] A área de química do estado sólido ocupa uma posição cada vez mais importante nas atividades de pesquisa e desenvolvimento farmacêuticas. A compreensão das propriedades do estado sólido de um insumo farmacêutico ativo (IFA) mostra-se crítica no desenvolvimento de formulações em função de seus impactos na biodisponibilidade e solubilidade dos fármacos, sendo essencial para garantir o benefício terapêutico, otimizar o desenvolvimento e garantir a proteção da propriedade intelectual. Esta tese investiga indicadores científicos e tecnológicos na área de química do estado sólido utilizando ferramentas de ciência dos dados a partir de publicações científicas e depósitos de patentes, visando contribuir para o aumento da competitividade da indústria farmoquímica e farmacêutica brasileira e de outros mercados emergentes. A partir da utilização de ferramentas de ciência dos dados é proposta uma metodologia baseada em técnicas de text mining associadas a relações fuzzy. Essa metodologia de identificação de competências específicas aplicada na área de química do estado sólido tem como estudo de caso a descoberta de uma nova forma polimórfica para o IFA acetato de dexametasona. Os resultados revelam que existem competências científicas em química do estado sólido no Brasil. Contudo, quando comparada
com a interação universidade-empresa mundial, a indústria farmoquimica e farmacêutica local perde em estágio de competitividade e desenvolvimento. Por outro lado, os resultados demonstram a robustez da metodologia e sua capacidade de identificar pesquisadores em área específicas, oferecendo soluções para apoio a tomada de decisão e identificação de pesquisadores relevantes para o desenvolvimento do setor farmoquímico e farmacêutico. / [en] The solid-state chemistry area has received increased attention in the pharmaceutical research and development activities. The comprehension of the solid-state properties of an active pharmaceutical ingredient (API) is critical in the development of formulations due to their impact on the bioavailability and
solubility of the final drug, being essential to ensure therapeutic benefit, optimize development and allow a proper intellectual property protection. This research investigates science and technology indicators in the solid-state chemistry area using data science tools applied to scientific publications and patent documents,
aiming to contribute to the increase of the competitiveness of the pharmaceutical industry in Brazil and in other emerging markets. Through data science tools, a methodology based on text mining techniques associated to fuzzy relations is proposed. This methodology for identifying specific competencies is applied in the solid-state chemistry area exploring a case study of the discovery of a new polymorphic form of the API dexamethasone acetate. The results reveal the existence of scientific competencies in solid-state chemistry in Brazil. However, when compared to the global university-company interaction, the local pharmaceutical industry shows a lower stage of competitiveness and development. On the other hand, the results indicates the robustness of the methodology and its ability to identify researchers in specific areas, offering solutions to support the decision making and identification of researchers relevant to the development of the pharmaceutical sector.
|
Page generated in 0.0382 seconds