• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 250
  • 124
  • 44
  • 38
  • 31
  • 29
  • 24
  • 24
  • 13
  • 7
  • 6
  • 6
  • 5
  • 5
  • 5
  • Tagged with
  • 632
  • 632
  • 145
  • 132
  • 122
  • 115
  • 95
  • 89
  • 87
  • 82
  • 81
  • 77
  • 72
  • 67
  • 66
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
261

As dimensões disciplinares na comunicação científica em biocombustíveis

Gomes, Janaína January 2009 (has links)
A comunicação científica constitui o substrato da pesquisa científica. Por meio dela se configuram os campos de legitimação do conhecimento. Este trabalho de tese se dedicou ao estudo do campo dos biocombustíveis através da comunicação científica. O referido campo de pesquisa envolve diferentes áreas do conhecimento e se refere às demandas energéticas da sociedade pós-industrial. Foram analisados dez anos da comunicação científica para se estabelecer as dimensões disciplinares sobre as quais essa discussão se sustenta. Para tanto, dois métodos de pesquisa foram combinados. Utilizou-se a bibliometria e a análise de conteúdo quantitativa, através de técnicas de text mining. A análise bibliométrica foi realizada com dados quantitativos sobre a comunicação científica, disponíveis na base Web of Science. A análise de conteúdo quantitativa foi feita com textos completos dos artigos e revisões científicas sobre biocombustíveis, utilizando-se o software Wordstat. Os dados bibliométicos apresentaram um alto grau de interdisciplinaridade expresso pela inter-relação de 132 áreas do conhecimento. Ademais, observou-se a predominância das áreas da Química (1.513 artigos e revisões), Engenharias (1.157) e Ciências Agrárias (1.029), configurando um campo com inserção eminentemente tecnológica. Na análise de conteúdo foi possível revelar uma inserção muito significativa das Ciências Sociais na argumentação dos artigos e revisões analisados. Com os dados obtidos foi possível dividir o campo dos biocombustíveis em três grupos de dimensões disciplinares, que o contextualizam. No primeiro grupo, de maior abrangência, participam as dimensões disciplinares das Ciências Agrárias, das Ciências Sociais e das Ciências Ambientais. No segundo grupo, que constitui a base tecnológica do campo, se expressam as dimensões disciplinares da Química, da Engenharia e da Microbiologia. O terceiro grupo, de expressão emergente, reúne as dimensões disciplinares da Biologia e Bioquímica, Ciências Animais e Vegetais, Biologia Molecular e Genética, Economia, Ciência dos Materiais, Nanociências e Nanotecnologia, Geociências, Física, Humanidades, Ciências Multidisciplinares, Matemática e Ciências da Computação. Infere-se que o primeiro grupo de dimensões disciplinares encerra os componentes que justificam socialmente o progresso do campo dos biocombustíveis, enquanto o segundo grupo representa a base tecnológica em que se sustenta essa temática de pesquisa. O terceiro grupo representa as áreas emergentes. No trabalho, formula-se uma métrica para a aferição da expressão da Interdisciplinaridade, útil também para outros campos de pesquisa. / The scientific communication on biofuels published from 1998 to 2007 was analysed by the use of a combination of bibliometric methods and techniques of content analysis. The analysis characterized this field of research as interdisciplinary with marked social relevance. The bibliometric study showed that in this research field 132 different, interacting areas concur with knowledge. Content analysis configured this field under the context of three groups of disciplinary dimensions. The first group, of broader influence, includes Agricultural Sciences, Social Sciences, and Environmental Sciences. The second group, which makes up the technological bases of the field, includes the disciplinary dimensions of Chemistry, Engineering, and Microbiology. In the third group, there are the disciplinary dimensions with emergent expressions in the field of biofuels, namely Biology and Biochemistry, Animal and Plant Sciences, Molecular Biology and Genetics, Economy, Material Sciences, Nanosciences and Nanotechnology, Geosciences, Physics, Humanities, Muldisciplinary Sciences, Mathematics, and Computer Sciences. One can infer from the study that the first group of disciplinary dimensions conform the elements that socially validate the progress of the research in the field of biofuels. Furthermore, in this work a metric is presented for the measurement of the expression of the interdisciplinarity of a research field, useful for the analysis of the biofuel research field and of others as well.
262

Expressão da ciência nas políticas públicas relativas à obesogenicidade nos Estados Unidos da América

Finocchio, Caroline Pauletto Spanhol January 2014 (has links)
A obesidade decorre de um processo multifatorial que envolve aspectos biológicos, comportamentais e ambientais. Atualmente, o tema, por sua dimensão e universalidade, tem despertado o interesse coletivo, sobretudo da ciência, dos governos e da mídia. Um visível esforço está sendo empreendido com vistas ao controle dessa pandemia, com chamamento à responsabilidade de todos os stakeholders, entre eles os atores do Agronegócio mundial. Com o propósito de evidenciar os fundamentos científicos dessas iniciativas e as interrelações entre os agentes envolvidos, buscou-se identificar as dimensões disciplinares presentes nas publicações da FAO/WHO, do governo e da mídia dos Estados Unidos sobre obesogenicidade. Para tanto, foi realizada a análise documental das publicações divulgadas em meio eletrônico por cada um dos agentes, utilizando a mineração de texto. Para a construção dos argumentos que norteiam a pesquisa foram utilizadas as Teorias do Agendamento, do Enquadramento e Priming. Para a construção da estrutura analítica utilizada na mineração de texto foram utilizados 4.648 artigos científicos disponíveis no Portal Web of Science que abordam o tema. Além disso, para caracterizar a dimensão Agronegócio foram coletados todos os artigos publicados no Agribusiness International Journal e no International Food and Agribusiness Management Review no período de 2003-2013. Após a coleta, foram construídos os dicionários de palavras representativos de cada dimensão disciplinar e do Agronegócio, utilizados no escaneamento dos documentos. A base de dados foi composta por 3.342 políticas introduzidas ou promulgadas pelos estados norte-americanos, 1.168 artigos jornalísticos publicados no The New York Times e no The Washington Post e 67 publicações da FAO/WHO publicados no período de 2003-2013. Os resultados indicaram que a mídia tem enquadrado frequentemente a temática sob a perspectiva das Ciências da Saúde, seguida da Multidisciplinar e Agronegócio. Já para o governo, as dimensões disciplinares mais frequentes são Multidisciplinar, Agronegócio e as Ciências da Saúde. Na FAO/WHO as Ciências da Saúde, Multidisciplinar e Agronegócio são as mais frequentes. Mesmo considerando as diferenças quanto ao enquadramento do tema pelos stakeholders, nota-se a existência de alguma semelhança entre esses enquadramentos, evidenciada pela similaridade entre as Ciências da Saúde, Multidisciplinar e as Ciências da Vida. Destaca-se ainda que a participação do Agronegócio é expressiva nos instrumentos políticos dos Estados Unidos, sugerindo o seu papel no crescimento da obesidade coletiva e na sua responsabilidade frente à desejada reversão dessa tendência mundial. / Obesity results from a multifactorial process involving biological, behavioral, and environmental aspects. Today, the scale and universality of obesity has attracted widespread interest, especially among the scientific community, the government, and the media. A visible effort is being made to control this pandemic, with a call for responsibility by all stakeholders, including the leaders of the global agribusiness industry. Aiming to highlight the scientific foundations of these initiatives, and the interrelationships between those involved, we sought to identify the disciplinary dimensions regarding an obesogenic environment in the publications by the FAO/WHO, government, and media in the United States. Therefore, a documentary analysis of publications disseminated electronically by individual agents was conducted, using text mining. Agenda-setting theory, framing, and priming were used to construct the arguments that guide this research. To build the analytical framework used in text mining, 4.648 scientific articles available on the Web of Science portal addressing the issue were used. Furthermore, to characterize the scale of the situation, agribusiness articles published in the International Agribusiness Journal and the International Food and Agribusiness Management Review from 2003-2013 were also used. Subsequently, dictionaries of words representative of each disciplinary dimension and agribusiness were constructed and used while scanning the documents. The database comprised 3.342 introduced or promulgated policies by the North American states, 1.168 media articles published in The New York Times and The Washington Post, and 67 publications by the FAO/WHO, published during this period. The results indicated that the media has often framed the issue from the perspective of health sciences, followed by multidisciplinary and agribusiness. As for the government, the most frequent disciplinary dimensions are multidisciplinary area, agribusiness and health sciences. In the FAO/WHO, health sciences, multidisciplinary area and agribusiness are the most frequent. Even considering the differences in the framing of the issue by stakeholders, it is to be noted that there is some similarity between these frameworks, with a joint occurrence of the health sciences, life sciences, and multidisciplinary area. Note also that the participation of the agribusiness industry is significant in political instruments of the United States, suggesting its role in the growth of obesity and collective responsibility to be taken for the desired reversal of this global trend.
263

Disorderclassifier: classificação de texto para categorização de transtornos mentais

NUNES, Francisca Pâmela Carvalho 23 August 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-04-19T13:35:36Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) DISSERTAÇÃO_Franscisca Pamela Carvalho.pdf: 2272114 bytes, checksum: 83ff79a7d05409b93fe71ce4c307dc30 (MD5) / Made available in DSpace on 2017-04-19T13:35:36Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) DISSERTAÇÃO_Franscisca Pamela Carvalho.pdf: 2272114 bytes, checksum: 83ff79a7d05409b93fe71ce4c307dc30 (MD5) Previous issue date: 2016-08-23 / Nos últimos anos, através da Internet, a comunicação se tornou mais ampla e acessível. Com o grande crescimento das redes sociais, blogs, sites em geral, foi possível estabelecer uma extensa base de conteúdo diversificado, onde os usuários apresentam suas opiniões e relatos pessoais. Esses informes podem ser relevantes para observações futuras ou até mesmo para o auxílio na tomada de decisão de outras pessoas. No entanto, essa massa de informação está esparsa na Web, em formato livre, dificultando a análise manual dos textos para categorização dos mesmos. Tornar esse trabalho automático é a melhor opção, porém a compreensão desses textos em formato livre não é um trabalho simples para o computador, devido a irregularidades e imprecisões da língua natural. Nessas circunstâncias, estão surgindo sistemas que classificam textos, de forma automática, por tema, gênero, características, entre outros, através dos conceitos da área de Mineração de Texto (MT). A MT objetiva extrair informações importantes de um texto, através da análise de um conjunto de documentos textuais. Diversos trabalhos de MT foram sugeridos em âmbitos variados como, por exemplo, no campo da psiquiatria. Vários dos trabalhos propostos, nessa área, buscam identificar características textuais para percepção de distúrbios psicológicos, para análise dos sentimentos de pacientes, para detecção de problemas de segurança de registros médicos ou até mesmo para exploração da literatura biomédica. O trabalho aqui proposto, busca analisar depoimentos pessoais de potenciais pacientes para categorização dos textos por tipo de transtorno mental, seguindo a taxonomia DSM-5. O procedimento oferecido classifica os relatos pessoais coletados, em quatro tipos de transtorno (Anorexia, TOC, Autismo e Esquizofrenia). Utilizamos técnicas de MT para o pré-processamento e classificação de texto, com o auxilio dos pacotes de software do Weka. Resultados experimentais mostraram que o método proposto apresenta alto índice de precisão e que a fase de pré-processamento do texto tem impacto nesses resultados. A técnica de classificação Support Vector Machine (SVM) apresentou melhor desempenho, para os fins apresentados, em comparação a outras técnicas usadas na literatura. / In the last few years, through the internet, communication became broader and more accessible. With the growth of social media, blogs, and websites in general, it became possible to establish a broader, diverse content base, where users present their opinions and personal stories. These data can be relevant to future observations or even to help other people’s decision process. However, this mass information is dispersing on the web, in free format, hindering the manual analysis for text categorization. Automating is the best option. However, comprehension of these texts in free format is not a simple task for the computer, taking into account irregularities and imprecisions of natural language. Giving these circumstances, automated text classification systems, by theme, gender, features, among others, are arising, through Text Mining (MT) concepts. MT aims to extract information from a text, by analyzing a set of text documents. Several MT papers were suggested on various fields, as an example, psychiatric fields. A number of proposed papers, in this area, try to identify textual features to perceive psychological disorders, to analyze patient’s sentiments, to detect security problems in medical records or even biomedical literature exploration. The paper here proposed aim to analyze potential patient’s personal testimonies for text categorization by mental disorder type, according to DSM-5 taxonomy. The offered procedure classifies the collected personal testimonies in four disorder types (anorexia, OCD, autism, and schizophrenia). MT techniques were used for pre-processing and text classification, with the support of software packages of Weka. Experimental results showed that the proposed method presents high precision values and the text pre-processing phase has impact in these results. The Support Vector Machine (SVM) classification technique presented better performance, for the presented ends, in comparison to other techniques used in literature.
264

Learning about corruption: a statistical framework for working with audit reports

Pereira, Laura Sant’Anna Gualda 26 March 2018 (has links)
Submitted by Laura Pereira (laurasgualda@gmail.com) on 2018-04-15T15:39:39Z No. of bitstreams: 1 Dissertacao_LauraGualda_Bib.pdf: 1147862 bytes, checksum: 1ba34dfb1e02e555a66410badfb0cbb5 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2018-04-27T12:59:33Z (GMT) No. of bitstreams: 1 Dissertacao_LauraGualda_Bib.pdf: 1147862 bytes, checksum: 1ba34dfb1e02e555a66410badfb0cbb5 (MD5) / Made available in DSpace on 2018-05-08T14:43:18Z (GMT). No. of bitstreams: 1 Dissertacao_LauraGualda_Bib.pdf: 1147862 bytes, checksum: 1ba34dfb1e02e555a66410badfb0cbb5 (MD5) Previous issue date: 2018-03-26 / Quantitative studies aiming to disentangle public corruption effects often emphasize the lack of objective information in this research area. The CGU Random Audits Anti-Corruption Program, based on extensive and unadvertised audits of transfers from the federal government to municipalities, emerged as a potential source to try to fill this gap. Reports generated by these audits describe corrupt and mismanagement practices in detail, but reading and coding them manually is laborious and requires specialized people to do it. We propose a statistical framework to guide the use of text data to construct objective indicators of corruption and use it in inferential models. It consists of two main steps. In the first one, we use machine learning methods for text classification to create an indicator of corruption based on irregularities from audit reports. In the second step, we use this indicator in a regression model, accounting for the measurement error carried from the first step. To validate this framework, we replicate an empirical strategy presented by Ferraz et al. (2012) to estimate effects of corruption in educational funds on primary school students’ outcomes, between 2006 and 2015. We achieved an expected accuracy of 92% on the binary classification of irregularities, and our results endorse Ferraz et al.. findings: students in municipal schools perform significantly worse on standardized tests in municipalities where was found corruption in education. / Estudos quantitativos em corrupção política enfatizam a falta de informações objetivas nessa área de pesquisa. O Programa de Fiscalização por Sorteios Públicos da CGU se baseia em auditorias não anunciadas das transferências do Governo Federal para municípios, e aparece como uma potencial solução para essa lacuna. Relatórios gerados durante essas auditorias descrevem com detalhe práticas de corrupção e de má gestão pública. No entanto, a análise manual desses relatórios é penosa e requer o conhecimento de especialistas. Nós propomos um framework estatístico para guiar o uso desses dados textuais na construção de indicadores objetivos de corrupção e em modelos de inferência. O framework consiste em duas etapas gerais. Na primeira, usamos métodos de aprendizagem de máquinas para classificação das irregularidades constatadas durante as auditorias. Na segunda etapa, construímos um indicador de corrupção baseado na classificação e o utilizamos em um modelo de regressão, ajustando pelo erro de medida derivado da primeira etapa. Para validar essa metodologia, nós replicamos a estratégia empírica apresentada por Ferraz et al. (2012) para estimar o efeito da corrupção em fundos educacionais nos resultados escolares de alunos do Ensino Fundamental, entre os anos de 2006-2015. Nós obtemos uma acurácia média de 92% na classificação binária de irregularidades, e nossos resultados corroboram com os encontrados em Ferraz et al.: estudantes de escolas municipais apresentam resultados significativamente piores em testes padronizados se estudam municípios com indícios de corrupção na área de educação
265

Patentes e inovação frugal em uma perspectiva contributiva / Patents and frugal innovation in a contributory perspective

Mazieri, Marcos Rogério 02 December 2016 (has links)
Submitted by Nadir Basilio (nadirsb@uninove.br) on 2017-04-05T19:21:13Z No. of bitstreams: 1 Marcos Rogerio Mazieri.pdf: 6159434 bytes, checksum: 3633a0169bccd42f89d3337015eb9f0e (MD5) / Made available in DSpace on 2017-04-05T19:21:13Z (GMT). No. of bitstreams: 1 Marcos Rogerio Mazieri.pdf: 6159434 bytes, checksum: 3633a0169bccd42f89d3337015eb9f0e (MD5) Previous issue date: 2016-12-02 / This current research contributes to the studies on innovation, by investigating one of its possible faces: the innovations that are develop with almost no resources, called, frugal innovation. The current research brings together conceptual, theoretical and practical aspects of Frugal Innovation, seeking to obtain enough elements to systematize the discussion of the use of patents in this context. From a management point of view, observing the conceptual, theoretical and practical aspects of Frugal Innovation carried out in environments of intense restrictions, whether natural or financial resources, seems to facilitate reflection on the use of resources, as discovered in this research. These discoveries also favor the construction of more effective structured innovation processes. These processes can contribute as a structuring guideline for the construction of new business models, processes, products, services, organizational arrangements and marketing methods. It is possible, for example, to enter companies in emerging and underdeveloped countries or, on the other hand, the valorization of products developed by modest communities or the improvement of living conditions in regions with severe resource constraints. Therefore, research encompasses intrinsic social responsibility. Using mixed methods, especially qualitative for the inductive interpretation of results, quantitative analysis and text mining techniques to carry out the multivariate analysis of the texts segments that form the patent abstracts, eleven propositions were discussing and corroborated. In addition to the methodological contributions, such as the full text analysis, it was concluding that Frugal Innovation is not a type of innovation but a response to an observable restrictive context and, therefore, can coexist with incremental, architectural, modular and radical innovations. The theoretical contributions go beyond the definition of Frugal Innovation, including the definition of semantic classes in patent contexts, demonstrating that patents can contribute to Frugal Innovation and offer some directions on how to make this contribution (Patents-Frugal Innovation) more effective. / Essa atual pesquisa contribui com os estudos sobre a inovação, por investigar uma de suas possíveis faces: as inovações que são desenvolvidas quase sem recursos, denominadas, inovação frugal. A pesquisa atual reúne aspectos conceituais, teóricos e práticos da Inovação Frugal, buscando obter elementos suficientes para sistematizar a discussão do uso das patentes nesse contexto. Do ponto de vista gerencial, observar a face conceitual, teórica e prática da Inovação Frugal realizada em ambientes de grandes restrições, sejam de recursos naturais ou financeiros, parece facilitar a reflexão sobre o uso de recursos, conforme descoberto nessa pesquisa. Tais descobertas favorecem ainda a construção de processos de Inovação estruturada mais eficazes que podem contribuir como diretriz estruturante para a construção de novos modelos de negócios, processos, produtos, serviços, arranjos organizacionais e métodos de marketing, possibilitando, por exemplo, a entrada de empresas em países emergentes e subdesenvolvidos ou por outro lado, a valorização de produtos desenvolvidos por comunidades modestas ou a melhoria das condições de vida de regiões com restrições severas de recursos. A pesquisa abarca, portanto, resposanbilidade social intrínseca. Usando métodos mistos, especialmente qualitativos para a interpretação indutiva dos resultados, análise quantitativa e técnicas de text mining para realizar a análise multivariada dos segmentos de textos que formam os abstracts das patentes, onze proposições foram discutidas e corroboradas. Além das contribuições metodológicas, como a análise de full text, concluiu-se que a Inovação Frugal não é um tipo de inovação e sim uma resposta a um contexto restritivo observável e que, portanto, pode coexistir com inovações incrementais, arquiteturais, modulares e radicais. As contribuições teóricas avançam além da definição da Inovação Frugal, incluindo a definição das classes semânticas em contextos de patentes, demonstrando que as patentes podem contribuir com a Inovação Frugal e oferecendo algumas direções de como fazer essa contribuição (Patentes-Inovação Frugal) mais efetiva.
266

Ett verktyg för konstruktion av ontologier från text / A Tool for Facilitating Ontology Construction from Texts

Chétrit, Héloèise January 2004 (has links)
With the growth of information stored over Internet, especially in the biological field, and with discoveries being made daily in this domain, scientists are faced with an overwhelming amount of articles. Reading all published articles is a tedious and time-consuming process. Therefore a way to summarise the information in the articles is needed. A solution is the derivation of an ontology representing the knowledge enclosed in the set of articles and allowing to browse through them. In this thesis we present the tool Ontolo, which allows to build an initial ontology of a domain by inserting a set of articles related to that domain in the system. The quality of the ontology construction has been tested by comparing our ontology results for keywords to the ones provided by the Gene Ontology for the same keywords. The obtained results are quite promising for a first prototype of the system as it finds many common terms on both ontologies for justa few hundred of inserted articles.
267

Deriving Genetic Networks Using Text Mining

Olsson, Elin January 2002 (has links)
On the Internet an enormous amount of information is available that is represented in an unstructured form. The purpose with a text mining tool is to collect this information and present it in a more structured form. In this report text mining is used to create an algorithm that searches abstracts available from PubMed and finds specific relationships between genes that can be used to create a network. The algorithm can also be used to find information about a specific gene. The network created by Mendoza et al. (1999) was verified in all the connections but one using the algorithm. This connection contained implicit information. The results suggest that the algorithm is better at extracting information about specific genes than finding connections between genes. One advantage with the algorithm is that it can also find connections between genes and proteins and genes and other chemical substances.
268

Extraction of database and software usage patterns from the bioinformatics literature

Duck, Geraint January 2015 (has links)
Method forms the basis of scientific research, enabling criticism, selection and extension of current knowledge. However, methods are usually confined to the literature, where they are often difficult to find, understand, compare, or repeat. Bioinformatics and computational biology provide a rich opportunity for resource creation and discovery, with a rapidly expanding "resourceome". Many of these resources are difficult to find due to the large choice available, and there are only a limited number of sufficiently populated lists that can help inform resource selection. Text mining has enabled large scale data analysis and extraction from within the scientific literature, and as such can provide a way to help explore the vast wealth of resources available, which form the basis of bioinformatics methods. As such, this thesis aims to survey the computational biology literature, using text mining to extract database and software resource name mentions. By evaluating the common pairs and patterns of usage of these resources within such articles, an abstract approximation of the in silico methods employed within the target domain is developed. Specifically, this thesis provides an analysis of the difficulties of resource name extraction from the literature, then using this knowledge to develop bioNerDS - a rule-based system that can detect database and software name mentions within full-text documents (with a final F-score of 67%). bioNerDS is then applied to the full-text document corpus from PubMed Central, the results of which are then explored to identify the differences in resource usage between different domains (bioinformatics, biology and medicine) through time, different journals and different document sections. In particular, the well established resources (e.g., BLAST, GO and GenBank) remain pervasive throughout the domains, although they are seeing a slight decline in usage. Statistical programs see high levels of usage, with R in bioinformatics and SPSS in medicine being frequently mentioned throughout the literature. An overview of the common resource pairs has been generated by pairing database and software names which directly co-occur after one another in text. Combining and aggregating these resource pairs together across the literature enables the generation of a network of common resource patterns within computational biology, which provides an abstract representation of the common in silico methods used. For example, sequence alignment tools remain an important part of several computational biology analysis pipelines, and GO is a strong network sink (primarily used for data annotation). The networks also show the emergence of proteomics and next generation sequencing resources, and provide a specialised overview of a typical phylogenetics method. This work performs an analysis of common resource usage patterns, and thus provides an important first step towards in silico method extraction using text-mining. This should have future implications in community best practice, both for resource and method selection.
269

Classification of Stock Exchange News

Kroha, Petr, Baeza-Yates, Ricardo 24 November 2004 (has links) (PDF)
In this report we investigate how much similarity good news and bad news may have in context of long-terms market trends. We discuss the relation between text mining, classification, and information retrieval. We present examples that use identical set of words but have a quite different meaning, we present examples that can be interpreted in both positive or negative sense so that the decision is difficult as before reading them. Our examples prove that methods of information retrieval are not strong enough to solve problems as specified above. For searching of common properties in groups of news we had used classifiers (e.g. naive Bayes classifier) after we found that the use of diagnostic methods did not deliver reasonable results. For our experiments we have used historical data concerning the German market index DAX 30. / In diesem Bericht untersuchen wir, wieviel Ähnlichkeit gute und schlechte Nachrichten im Kontext von Langzeitmarkttrends besitzen. Wir diskutieren die Verbindungen zwischen Text Mining, Klassifikation und Information Retrieval. Wir präsentieren Beispiele, die identische Wortmengen verwenden, aber trotzdem recht unterschiedliche Bedeutungen besitzen; Beispiele, die sowohl positiv als auch negativ interpretiert werden können. Sie zeigen Probleme auf, die mit Methoden des Information Retrieval nicht gelöst werden können. Um nach Gemeinsamkeiten in Nachrichtengruppen zu suchen, verwendeten wir Klassifikatoren (z.B. Naive Bayes), nachdem wir herausgefunden hatten, dass der Einsatz von diagnostizierenden Methoden keine vernünftigen Resultate erzielte. Für unsere Experimente nutzten wir historische Daten des Deutschen Aktienindex DAX 30.
270

中國古典詩歌對應探勘及詞彙分析工具 / Tools for Pattern Comparison and Word Analysis of Chinese Classical Poetry

黃植琨 Unknown Date (has links)
本研究以《詩經》、《楚辭》、《全唐詩》、《全宋詩》及《全宋詞》等,數位化的文本資料作為基礎,運用資訊技術,建構分析文獻間借鑒的工具。工具採用字串或詞彙比對的方式,使用者可以透過設定,過濾出可能的對應關係,特別是《全唐詩》、《全宋詩》和《全宋詞》間字面上的類似之處。本研究參考人文領域的研究,用以評估工具的效果。同時,我們也藉由資訊科學的角度,統計如唐詩和宋代詩詞間的對應關係,亦透過如《詩經》和《詩經》、《楚辭》和《楚辭》、《全唐詩》和《全唐詩》、《全宋詞》和《全宋詞》、《全宋詩》和《全宋詩》的對應關係,挖掘同一時代文人作品的對應。另外,本研究也嘗試中國古典詩歌的斷詞,以及分析詩歌中詞彙的語意,未來也希望能夠透過語意進行詩歌比對。本研究雖不如傳統方法的人文研究深入,但提供從大量的語料中去蕪存菁,以及統計等相關服務,節省人文研究分析整理文本所需的時間,用數位的力量輔助人文領域的相關研究。

Page generated in 0.0272 seconds