Global ETD Search

1	Integra??o de ferramentas para compila??o e explora??o de corpora Silveira, Filipe Pereira da 25 August 2008 (has links) Made available in DSpace on 2015-04-14T14:49:08Z (GMT). No. of bitstreams: 1 414886.pdf: 1368148 bytes, checksum: 096cd52430fb611a7d24242f6cc7ff92 (MD5) Previous issue date: 2008-08-25 / Este trabalho realiza um estudo da tipologia e disponibilidade de corpora. S?o discutidas quest?es referentes ao projeto de um corpus no que se refere a sua compila??o. S?o apresentadas funcionalidades para explora??o de corpora e analisadas ferramentas e recursos dispon?veis para trabalhar com corpus. A sele??o de ferramentas adequadas para compila??o e explora??o de corpora de textos em l?ngua natural representa hoje um desafio aos pesquisadores da ?rea. Muitas das ferramentas dispon?veis dependem de licen?as e plataformas espec?ficas para serem executadas, limitam o uso de v?rios formatos de documento ou criam padr?es pr?prios de codifica??o de corpus e de anota??es, dificultando a cria??o, a interoperabilidade e o compartilhamento de recursos ling??sticos entre grupos de pesquisas. Nesse sentido ? apresentada e descrita uma ferramenta para a ling??stica de corpus que constru?mos e oferecemos ? comunidade de pesquisadores em l?ngua portuguesa a ferramenta ENTRELINHAS. Esta ferramenta facilita a compila??o e agrega funcionalidades essenciais para explora??o de corpora. A ferramenta adere a um formato de codifica??o compat?vel com o Portal de C?rpus do NILC/USP contribuindo com o interc?mbio de recursos para o processamento da l?ngua portuguesa. Uma an?lise quanto ao uso dessa ferramenta tamb?m ? apresentada. INFORM?TICA LING??STICA COMPUTACIONAL PROCESSAMENTO DE TEXTOS (COMPUTA??O) LINGU?STICA DE CORPUS
2	Agrupamento e categoriza??o de documentos jur?dicos Furquim, Luis Ot?vio de Colla 25 March 2011 (has links) Made available in DSpace on 2015-04-14T14:49:50Z (GMT). No. of bitstreams: 1 439389.pdf: 2902269 bytes, checksum: 8e1dea861e0b5f7c53712bc7f1561efe (MD5) Previous issue date: 2011-03-25 / In this work we study the use of machine learning (clustering and classification) in judicial decisions search under electronic legal proceedings. We discuss and develop alternatives for precedent clustering, automatically generating classes to use to categorize when a user attaches new documents to its electronic legal proceeding. A changed version of the algorithm TClus, authored by Aggarwal, Gates and Yu was selected to be the use example, we propose removing its document and cluster discarding features and adding a cluster division feature. We introduce here a new paradigm bag of terms and law references instead of bag of words by generating attributes using two thesauri from the Brazilian Federal Senate and the Brazilian Federal Justice to detect legal terms a regular expressions to detect law references. In our use example, we build a corpus with precedents of the 4th Region s Federal Court. The clustering results were evaluated with the Relative Hardness Measure and the p-Measure which were then tested with Wilcoxon s Signed-ranks Test and the Count of Wins and Losses Test to determine its significance. The categorization results were evaluated by human specialists. The analysis and discussion of these results covered comparations of true/false positives against document similarity with the centroid, quantity of documents in the clusters, quantity and type of the attributes in the centroids e cluster cohesion. We also discuss attribute generation and its implications in the classification results. Contributions in this work: we confirmed that it is possible to use machine learning techniques in judicial decisions search, we developed an evolution of the TClus algorithm by removing its document and group discarding features and creating a group division feature, we proposed a new paradigm called bag of terms and law references evaluated by a prototype of the proposed process in a use case and automatic evaluation in the clustering phase and a human specialist evaluation in the categorization phase. / Este trabalho estuda a aplica??o de t?cnicas de aprendizado de m?quina (agrupamento e classifica??o) ? pesquisa de jurisprud?ncia, no ?mbito do processo judicial eletr?nico. Discute e implementa alternativas para o agrupamento dos documentos da jurisprud?ncia, gerando automaticamente classes que servem ao posterior processo de categoriza??o dos documentos anexados ao processo jur?dico. O algoritmo TClus de Aggarwal, Gates e Yu ? selecionado para desenvolvimento de exemplo de uso, com propostas de altera??o no descarte de documentos e grupos, e passando a incluir a divis?o de grupos. A proposta ainda introduz um paradigma "bag of terms and law references"em lugar do "bag of words", quando utiliza, na gera??o dos atributos, os tesauros do Senado Federal e da Justi?a Federal para detectar termos jur?dicos nos documentos e express?es regulares para detectar refer?ncias legislativas. No exemplo de uso, empregam-se documentos oriundos da jurisprud?ncia do Tribunal Regional Federal da 4a Regi?o. Os resultados dos agrupamentos foram avaliados pelas medidas Relative Hardness e p- e submetidos aos testes de signific?ncia de Wilcoxon e contagem de vit?rias e derrotas. Os resultados da categoriza??o foram avaliados por avaliadores humanos. A discuss?o e an?lise desses resultados abrangeu a compara??o do sucesso e falha na classifica??o em rela??o ? similaridade do documento com o centr?ide no momento da categoriza??o, ? quantidade de documentos nos grupos, ? quantidade e tipo de atributos nos centr?ides e ? coes?o dos grupos. Discute-se, ainda, a gera??o dos atributos e suas implica??es nos resultados da classifica??o. Contribui??es deste estudo: confirma??o da possibilidade de uso do aprendizado de m?quina na pesquisa jurisprudencial, evolu??o do algoritmo TClus ao eliminar os descartes de documentos e grupos e ao implementar a divis?o de grupos, proposta de novo paradigma bag of terms and law references, atrav?s de prototipa??o do processo proposto com exemplo de uso e avalia??es autom?ticas na fase de clustering, e por especialista humano na fase de categoriza??o. INFORM?TICA PROCESSAMENTO DE TEXTOS (COMPUTA??O) CATEGORIZA??O (LINGU?STICA) ALGORITMOS (PROGRAMA??O)
3	Combina??o de classificadores na categoriza??o de textos Linden, Gustavo Sandini 06 December 2007 (has links) Made available in DSpace on 2015-04-14T14:49:04Z (GMT). No. of bitstreams: 1 409150.pdf: 923910 bytes, checksum: 44e59b532fd1e8f249aeacfa7777f126 (MD5) Previous issue date: 2007-12-06 / Este trabalho apresenta e avalia uma proposta para Categoriza??o Hier?rquica de Textos com uso combinado dos classificadores k-Nearest Neighbors (k-NN) e Support Vector Machines (SVM). O estudo foi embasado numa s?rie de experimentos os quais fizeram uso da cole??o Folha-RIcol de textos em l?ngua portuguesa, que se encontram hierarquicamente organizados em categorias. Nos experimentos realizados, os classificadores k-NN e SVM tiveram seu desempenho analisado, primeiro individualmente, com uma variante da metodologia de avalia??o hold-out, e ap?s, de modo combinado. A combina??o proposta, denominada k-NN+SVM, teve seu desempenho comparado com aquele dos classificadores individuais e com o da combina??o por voto. Em s?ntese, a combina??o k-NN+SVM n?o apresentou desempenho superior ?s demais alternativas, todavia o estudo permitiu a observa??o do comportamento dos classificadores e seu uso combinado, a identifica??o de problemas e poss?veis solu??es, bem como algumas considera??es sobre a cole??o de documentos utilizada INFORM?TICA CATEGORIZA??O (LING??STICA) LING??STICA COMPUTACIONAL PROCESSAMENTO DE TEXTOS (COMPUTA??O) APRENDIZAGEM DE M?QUINA

1

Page generated in 0.0162 seconds