Spelling suggestions: "subject:"classification"" "subject:"declassification""
1 |
Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et GénomiqueHussain, Syed Fawad 28 September 2010 (has links) (PDF)
La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, notamment au niveau des métriques, afin de maintenir des classes pertinentes ; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse, nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche " circulaire ", nous parvenons à mettre en correspondance des documents sans mots communs mais ayant juste des mots similaires. Cette approche s'effectue de manière purement numérique sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendue pour tirer parti de connaissances "a priori" afin de réaliser des tâches de catégorisation de textes : l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadre conceptuel, exprimable en terme de théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, à la fois pour le co-clustering et la catégorisation sur les jeux de données qui ont été testés.
|
2 |
Mesures de comparabilité pour la construction assistée de corpus comparables bilingues thématiquesKe, Guiyao 26 February 2014 (has links) (PDF)
Les corpus comparables thématiques regroupent des textes issus d¡¯un même thème et rédigés dans plusieurs langues, fortement similaires mais ne comprenant pas de traductions mutuelles. Par rapport aux corpus parallèles qui regroupent des paires de traductions, les corpus comparables présentent trois avantages: premièrement, ce sont des ressources riches et larges : en volume et en période couverte; deuxièmement, les corpus comparables fournissent des ressources linguistiques originales et thématiques. Enfin, ils sont moins coûteux à développer que les corpus parallèles. Avec le développement considérable du WEB, une matière première très abondante est exploitable pour la construction de corpus comparables. En contre-partie, la qualité des corpus comparables est essentielle pour leur utilisation dans différents domaines tels que la traduction automatique ou assistée, l¡¯extraction de terminologies bilingues, la recherche d¡¯information multilingue, etc. L¡¯objectif de ce travail de thèse est de développer une approche méthodologique et un outillage informatique pour fournir une assistance à la construction des corpus comparables bilingues et thématiques de ? bonne qualité ?, à partir du WEB et à la demande. Nous présentons tout d¡¯abord la notion de mesure de comparabilité qui associe deux espaces linguistiques et, à partir d¡¯une mesure quantitative de comparabilité de référence, nous proposons deux variantes, qualifiées de comparabilité thématique, que nous évaluons suivant un protocole basé sur la dégradation progressive d¡¯un corpus parallèle. Nous proposons ensuite une nouvelle méthode pour améliorer le co-clustering et la co-classification de documents bilingues, ainsi que l¡¯alignement des clusters comparables. Celle-ci fusionne des similarités natives définies dans chacun des espaces linguistiques avec des similarités induites par la mesure de comparabilité utilisée. Enfin, nous proposons une démarche intégrée basée sur les contributions précédemment évoquées afin d¡¯assister la construction, à partir du WEB, de corpus comparables bilingues thématiques de qualité. Cette démarche comprend une étape de validation manuelle pour garantir la qualité de l¡¯alignement des clusters comparables. En jouant sur le seuil de comparabilité d¡¯alignement, différents corpus comparables associés à des niveaux de comparabilité variables peuvent être fournis en fonction des besoins spécifiés. Les expérimentations que nous avons menées sur des Flux RSS issus de grands quotidiens internationaux apparaissent pertinentes et prometteuses.
|
3 |
A interação entre artigos e patentes : um estudo cientométrico da comunicação científica e tecnológica em biotecnologiaMoura, Ana Maria Mielniczuk de January 2009 (has links)
As etapas do trabalho constituíram-se de busca nas bases de dados; limpeza e organização dos nomes de autores e de instituições; análises estatísticas e de redes sociais; correlação entre a co-invenção e co-autoria, a partir da ocorrência de autores co-ativos – que publicaram tanto patentes como artigos - nos dois tipos de documentos; correlação entre os assuntos dos artigos e das patentes a partir do mapeamento dos assuntos proposto por Glänzel e Schubert (2003) e dos códigos da Classificação Internacional de Patentes (CIP). A Biotecnologia no Brasil caracteriza-se por apresentar uma forte interação entre Ciência e Tecnologia, o que significa que os inventores transitam entre as duas esferas e produzem tanto publicações científicas como tecnológicas, principalmente no âmbito da universidade. Os resultados mostram que no ranking da produção científica, lideram as universidades públicas (federais e estaduais) e instituições de pesquisa. Observou-se que há intensa colaboração entre estes dois tipos de instituições, com a formação de clusters com laços fortes, não acontecendo colaboração destas com empresas, de forma efetiva. No ranking da produção tecnológica, as empresas depositantes não figuram entre os primeiros lugares, ficando estes ainda ocupados pelas universidades, instituições de pesquisa e de fomento. Muitos depositantes e inventores encontram-se isolados nas análises de redes sociais, confirmando a predominância de redes diádicas ou a falta de formação de redes de co-autoria de patentes na área da Biotecnologia. Encontra-se um núcleo de preferência para a co-autoria em artigos situado entre 3 e 7 autores. Em patentes, os co-ativos demonstram a preferência pela produção individual ou em pequenas equipes. Os autores e instituições coativas que mais possuem patentes são também aqueles que mais publicam artigos, apresentando uma relação entre produção de artigos e patentes. A co-autoria encontrada nas publicações de patentes se repete nas publicações científicas, demonstrando uma interação entre C&T, que alcança um percentual de 70,7% de interação entre a produção científica e tecnológica. Esta interação também foi observada a partir da co-classificação, atingindo o percentual de 83,4%. As patentes que mais possuem convergência entre co-autoria e co-classificação são aquelas que possuem menor número de co-ativos. A hipótese H1, que afirmava que os autores co-ativos mais produtivos em C&T pertencem a redes de co-autoria interpessoais mais densas, não foi comprovado. Considera-se que as técnicas da cientometria utilizadas neste estudo possibilitaram a análise da interação entre C&T na área da Biotecnologia no Brasil. / The research work analyzes the interaction between science and technology (S&T) from a scientometric approach, using co-authorship and co-classification techniques. It aims to demonstrate the movement of Biotechnology researchers and inventors from Brazil across the scientific and technological spheres by means of correlating their articles and patents. The corpus comprises 2.584 articles and 194 patents collected from INPI´s Patents Application Database and WebofScience, in that order. The research work included data collection, cleaning and organization of author’s and institutional names; statistical and social networks analysis; correlation between co-invention and co-authorship through occurrence of coactive authors – who published both articles and patents - in both types of documents; correlation between articles and patents subjects from mapping the subjects suggested by Glänzel e Schubert (2003) and the codes of international patents classification (IPC). Biotechnology in Brazil is characterized by presenting a strong connection between S&T, which means that inventors move through both domains and produce both technological and scientific publications, manly within the university. The public universities (federal and state)and research institutes lead the ranking of scientific production. There was evidence of intensive collaboration between these two types of institutions, configuring a cluster with strong bonds, but not showing collaboration with companies, in an effective way. In the ranking of technological production, the depositing companies were not listed among the first place, in which figures universities, research institutes and financing bodies. Many depositors and inventors are isolated in the social networks analysis, showing the predominance of dyadic networks or the lack of patent networks configuration in the Biotechnology field. There is a preference to co-authorship articles in groups situated around 3and 7 authors. In patents, the coactive authors showed preference for individual production or in small groups. The coactive authors and institutions that have more patents are also those that publish articles the most, showing a relation between production of articles and patents. The co-authorship found in patent publications was also found in the scientific publications, indicating an interaction between S&T, reaching 70, 7% of interaction between scientific and technological production. This interaction was also observed by means of co-classification, reaching a percentage of 83, 4%. The patents that have more convergence among co-authorship and co-classification are those that have a minor number of coactive authors. The H1 hypotheses, which asserts that the most productive coactive authors in S&T belong to more dense interpersonal co-authorship network, was not proven. It is considered that the scientometrics techniques used in this study enabled the analysis of the interaction between S&T in Biotechnology field in Brazil.
|
4 |
A interação entre artigos e patentes : um estudo cientométrico da comunicação científica e tecnológica em biotecnologiaMoura, Ana Maria Mielniczuk de January 2009 (has links)
As etapas do trabalho constituíram-se de busca nas bases de dados; limpeza e organização dos nomes de autores e de instituições; análises estatísticas e de redes sociais; correlação entre a co-invenção e co-autoria, a partir da ocorrência de autores co-ativos – que publicaram tanto patentes como artigos - nos dois tipos de documentos; correlação entre os assuntos dos artigos e das patentes a partir do mapeamento dos assuntos proposto por Glänzel e Schubert (2003) e dos códigos da Classificação Internacional de Patentes (CIP). A Biotecnologia no Brasil caracteriza-se por apresentar uma forte interação entre Ciência e Tecnologia, o que significa que os inventores transitam entre as duas esferas e produzem tanto publicações científicas como tecnológicas, principalmente no âmbito da universidade. Os resultados mostram que no ranking da produção científica, lideram as universidades públicas (federais e estaduais) e instituições de pesquisa. Observou-se que há intensa colaboração entre estes dois tipos de instituições, com a formação de clusters com laços fortes, não acontecendo colaboração destas com empresas, de forma efetiva. No ranking da produção tecnológica, as empresas depositantes não figuram entre os primeiros lugares, ficando estes ainda ocupados pelas universidades, instituições de pesquisa e de fomento. Muitos depositantes e inventores encontram-se isolados nas análises de redes sociais, confirmando a predominância de redes diádicas ou a falta de formação de redes de co-autoria de patentes na área da Biotecnologia. Encontra-se um núcleo de preferência para a co-autoria em artigos situado entre 3 e 7 autores. Em patentes, os co-ativos demonstram a preferência pela produção individual ou em pequenas equipes. Os autores e instituições coativas que mais possuem patentes são também aqueles que mais publicam artigos, apresentando uma relação entre produção de artigos e patentes. A co-autoria encontrada nas publicações de patentes se repete nas publicações científicas, demonstrando uma interação entre C&T, que alcança um percentual de 70,7% de interação entre a produção científica e tecnológica. Esta interação também foi observada a partir da co-classificação, atingindo o percentual de 83,4%. As patentes que mais possuem convergência entre co-autoria e co-classificação são aquelas que possuem menor número de co-ativos. A hipótese H1, que afirmava que os autores co-ativos mais produtivos em C&T pertencem a redes de co-autoria interpessoais mais densas, não foi comprovado. Considera-se que as técnicas da cientometria utilizadas neste estudo possibilitaram a análise da interação entre C&T na área da Biotecnologia no Brasil. / The research work analyzes the interaction between science and technology (S&T) from a scientometric approach, using co-authorship and co-classification techniques. It aims to demonstrate the movement of Biotechnology researchers and inventors from Brazil across the scientific and technological spheres by means of correlating their articles and patents. The corpus comprises 2.584 articles and 194 patents collected from INPI´s Patents Application Database and WebofScience, in that order. The research work included data collection, cleaning and organization of author’s and institutional names; statistical and social networks analysis; correlation between co-invention and co-authorship through occurrence of coactive authors – who published both articles and patents - in both types of documents; correlation between articles and patents subjects from mapping the subjects suggested by Glänzel e Schubert (2003) and the codes of international patents classification (IPC). Biotechnology in Brazil is characterized by presenting a strong connection between S&T, which means that inventors move through both domains and produce both technological and scientific publications, manly within the university. The public universities (federal and state)and research institutes lead the ranking of scientific production. There was evidence of intensive collaboration between these two types of institutions, configuring a cluster with strong bonds, but not showing collaboration with companies, in an effective way. In the ranking of technological production, the depositing companies were not listed among the first place, in which figures universities, research institutes and financing bodies. Many depositors and inventors are isolated in the social networks analysis, showing the predominance of dyadic networks or the lack of patent networks configuration in the Biotechnology field. There is a preference to co-authorship articles in groups situated around 3and 7 authors. In patents, the coactive authors showed preference for individual production or in small groups. The coactive authors and institutions that have more patents are also those that publish articles the most, showing a relation between production of articles and patents. The co-authorship found in patent publications was also found in the scientific publications, indicating an interaction between S&T, reaching 70, 7% of interaction between scientific and technological production. This interaction was also observed by means of co-classification, reaching a percentage of 83, 4%. The patents that have more convergence among co-authorship and co-classification are those that have a minor number of coactive authors. The H1 hypotheses, which asserts that the most productive coactive authors in S&T belong to more dense interpersonal co-authorship network, was not proven. It is considered that the scientometrics techniques used in this study enabled the analysis of the interaction between S&T in Biotechnology field in Brazil.
|
5 |
A interação entre artigos e patentes : um estudo cientométrico da comunicação científica e tecnológica em biotecnologiaMoura, Ana Maria Mielniczuk de January 2009 (has links)
As etapas do trabalho constituíram-se de busca nas bases de dados; limpeza e organização dos nomes de autores e de instituições; análises estatísticas e de redes sociais; correlação entre a co-invenção e co-autoria, a partir da ocorrência de autores co-ativos – que publicaram tanto patentes como artigos - nos dois tipos de documentos; correlação entre os assuntos dos artigos e das patentes a partir do mapeamento dos assuntos proposto por Glänzel e Schubert (2003) e dos códigos da Classificação Internacional de Patentes (CIP). A Biotecnologia no Brasil caracteriza-se por apresentar uma forte interação entre Ciência e Tecnologia, o que significa que os inventores transitam entre as duas esferas e produzem tanto publicações científicas como tecnológicas, principalmente no âmbito da universidade. Os resultados mostram que no ranking da produção científica, lideram as universidades públicas (federais e estaduais) e instituições de pesquisa. Observou-se que há intensa colaboração entre estes dois tipos de instituições, com a formação de clusters com laços fortes, não acontecendo colaboração destas com empresas, de forma efetiva. No ranking da produção tecnológica, as empresas depositantes não figuram entre os primeiros lugares, ficando estes ainda ocupados pelas universidades, instituições de pesquisa e de fomento. Muitos depositantes e inventores encontram-se isolados nas análises de redes sociais, confirmando a predominância de redes diádicas ou a falta de formação de redes de co-autoria de patentes na área da Biotecnologia. Encontra-se um núcleo de preferência para a co-autoria em artigos situado entre 3 e 7 autores. Em patentes, os co-ativos demonstram a preferência pela produção individual ou em pequenas equipes. Os autores e instituições coativas que mais possuem patentes são também aqueles que mais publicam artigos, apresentando uma relação entre produção de artigos e patentes. A co-autoria encontrada nas publicações de patentes se repete nas publicações científicas, demonstrando uma interação entre C&T, que alcança um percentual de 70,7% de interação entre a produção científica e tecnológica. Esta interação também foi observada a partir da co-classificação, atingindo o percentual de 83,4%. As patentes que mais possuem convergência entre co-autoria e co-classificação são aquelas que possuem menor número de co-ativos. A hipótese H1, que afirmava que os autores co-ativos mais produtivos em C&T pertencem a redes de co-autoria interpessoais mais densas, não foi comprovado. Considera-se que as técnicas da cientometria utilizadas neste estudo possibilitaram a análise da interação entre C&T na área da Biotecnologia no Brasil. / The research work analyzes the interaction between science and technology (S&T) from a scientometric approach, using co-authorship and co-classification techniques. It aims to demonstrate the movement of Biotechnology researchers and inventors from Brazil across the scientific and technological spheres by means of correlating their articles and patents. The corpus comprises 2.584 articles and 194 patents collected from INPI´s Patents Application Database and WebofScience, in that order. The research work included data collection, cleaning and organization of author’s and institutional names; statistical and social networks analysis; correlation between co-invention and co-authorship through occurrence of coactive authors – who published both articles and patents - in both types of documents; correlation between articles and patents subjects from mapping the subjects suggested by Glänzel e Schubert (2003) and the codes of international patents classification (IPC). Biotechnology in Brazil is characterized by presenting a strong connection between S&T, which means that inventors move through both domains and produce both technological and scientific publications, manly within the university. The public universities (federal and state)and research institutes lead the ranking of scientific production. There was evidence of intensive collaboration between these two types of institutions, configuring a cluster with strong bonds, but not showing collaboration with companies, in an effective way. In the ranking of technological production, the depositing companies were not listed among the first place, in which figures universities, research institutes and financing bodies. Many depositors and inventors are isolated in the social networks analysis, showing the predominance of dyadic networks or the lack of patent networks configuration in the Biotechnology field. There is a preference to co-authorship articles in groups situated around 3and 7 authors. In patents, the coactive authors showed preference for individual production or in small groups. The coactive authors and institutions that have more patents are also those that publish articles the most, showing a relation between production of articles and patents. The co-authorship found in patent publications was also found in the scientific publications, indicating an interaction between S&T, reaching 70, 7% of interaction between scientific and technological production. This interaction was also observed by means of co-classification, reaching a percentage of 83, 4%. The patents that have more convergence among co-authorship and co-classification are those that have a minor number of coactive authors. The H1 hypotheses, which asserts that the most productive coactive authors in S&T belong to more dense interpersonal co-authorship network, was not proven. It is considered that the scientometrics techniques used in this study enabled the analysis of the interaction between S&T in Biotechnology field in Brazil.
|
Page generated in 0.0803 seconds