Global ETD Search

211	Ontologias no processo de indexação automática de documentos textuais / Pansani Junior, Eder Antonio. January 2016 (has links) Orientador: Edberto Ferneda / Banca: Mariângela Spotti Lopes Fujita / Banca: Elvis Fusco / Resumo: Apesar dos avanços tecnológicos das últimas décadas, a busca por informações relevantes ainda é uma tarefa árdua. A recuperação de informação envolve, por um lado, um acervo documental que deve ser representado por expressões linguísticas que resumem seu conteúdo temático. Por outro lado, pessoas tentam descrever linguisticamente as suas necessidades de informação a fim de obterem documentos relevantes para satisfazer tais necessidades. Um sistema de recuperação de informação é, portanto, um elemento mediador entre um acervo documental e seus requisitantes. Um dos aspectos que interferem diretamente na sua eficiência é a forma como os documentos são representados. Sendo assim, pesquisas sobre indexação automática tomam importância, principalmente em ambiente de grande produção e disseminação de documentos, como é o caso da Web. A utilização de vocabulários controlados como elementos de normalização terminológica é um recurso utilizado para melhorar os resultados do processo de indexação. Este trabalho tem por objetivo propor, avaliar e desenvolver um método de utilização de ontologias no processo de indexação automática de documentos textuais, fazendo uso da estrutura lógica e conceitual das ontologias de domínio e implementado um método que permite aos sistemas de indexação automática a realização de inferências automáticas, favorecendo uma representação dos documentos mais semântica e abrangente. Conclui-se com o estudo que a utilização das ontologias como vocabulários cont... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Despite the technological advances of recent decades, the search for relevant information is still an arduous task. The information retrieval involves, on the one hand, a documentary collection that must be represented by linguistic expressions which summarize its thematic content. On the other hand, people try describing linguistically their information needs in order to obtain relevant documents to satisfy those needs. An information retrieval system is therefore a mediating element between a documentary collection and its requesters. One of the aspects that directly interferes in their efficiency is how documents are represented. Therefore, researches on automatic indexing take importance, particularly, in an environment of large production and dissemination of documents, as it's the case of the Web. The use of controlled vocabularies as terminology standardization elements is a feature used to improve the results of the indexing process. This study aims to propose, evaluate and develop a method for using ontologies in the automatic indexing process of textual documents, making use of logical and conceptual structure of domain ontologies and implementing a method that enables automatic indexing systems, an execution of automatic inferences, favoring a semantic and comprehensive documents representation. The study conclusion is that the use of ontologies as controlled vocabularies in automatic indexing systems can offer promising results, allowing the automatic discovery of... (Complete abstract click electronic access below) / Mestre Indexação automática. Cabeçalhos de assunto. Recuperação da informação. Automatic indexing
212	Diretrizes para a utilização de ontologias na indexação automática / Nicolino, Maria Elisa Valentim Pickler. January 2014 (has links) Orientador: Edberto Ferneda / Banca: Walter Moreira / Banca: Silvana Drumond Monteiro / Resumo: O uso de ontologias na indexação automática permite agregar a esse processo não só uma linguagem de um domínio específico, mas também uma estrutura lógica e conceitual que pode ser utilizada para realizar inferências, e cujas relações permitam uma expansão dos termos extraídos por métodos puramente matemáticos. Consideradas como linguagens de indexação, as ontologias se colocam como um novo instrumento a ser incorporado ao arsenal teórico e prático da Ciência Informação e abrem novas perspectivas para as pesquisas em indexação. As ontologias oferecem uma estrutura conceitual e terminológica restrita a um determninado domínio, originalmente representada em linguagens legíveis por computador, originalmente representada em linguagens legíveis por computador, o originalmente representada em linguagens legíveis por computador, o que permite a sua utilização nos mais variados processos computacionais. Apresentamos neste trabalho, diretrizes para a construção e utilização de ontologias no processo de indezação automática. Concluímos que é fundamentalo estabelecimento de uma Política de Indexação que reflita os interesses da instituição e as necessidades dos seus usuários. A Política de Indexação deve também nortear a construção de ontologias para fins de indexação, além de definiros parâmetros para a operação de sistemas de indexação automática. / Abstract: The use of ontologies in automatic indexing allows add to this process not only a language for a specific domain, but also a logical and conceptual framework that can be used to make inferences, and whose relations allow an expansion of the terms extracted by purely mathematical methods. Considered as indexing languages, ontologies arise as a new tool to be incorporated into the theoretical and practical arsenal of information science and open new perspectives for research in automatic indexing. Ontologies provide a conceptual framework and terminology restricted to a given domain, originally represented in readable languages by computer, which allows it to be used in the most varied computing processes. We present in this work, guidelines for the construction and utilization of ontologies in the automatic indexing process. We conclude that it is essential to establish an Indexing Policy that reflects the interests of the institution and the needs of its users. The Indexing Policy should also guide the construction of ontologies for indexing purposes, and defines the parameters for the operation of automatic indexing systems. / Mestre Indexação automática. Linguagem documentária. Ciência da informação. Ontologies (Information Retrieval)
213	Consultorías gestión Mina DataForce Romero Olivares, Patricio, Tapia Alvarez, Francisco 11 1900 (has links) TESIS PARA OPTAR AL GRADO DE MAGÍSTER EN ADMINISTRACIÓN / Patricio Romero Olivares [Parte I], Francisco Tapia Alvarez [Parte II] / El presente plan de negocio fue realizado en base al actual escenario de la minera mundial, particularmente la minería sudamericana con sistemas de control producción SCP. Actualmente existen 51 minas con SCP en Sudamérica de los cuales 38 de ellas se encuentra en Chile, el cual será nuestro mercado objetivo en la primera etapa y los mercados de Perú y Argentina como segunda etapa. Las grandes consultoras a nivel mundial indican que las tendencias del mercado están relacionadas con la excelencia operativa e integración de datos, los cuales son parte del modelo relacional propuesto por DataForce en sus 3 líneas de asesorías Business Analysis Review, Asesoría de Alto Impacto y Mejoramiento Continuo. El objetivo de las asesorías de DataForce es la integración de datos para análisis de brechas y las herramientas de gestión en tiempo real de los procesos productivos mineros. El cambio de enfoque que realizaran las mineras para enfrentar las coyunturas del mercado ha obligado a los ejecutivos a realizar cambios en la gestión de una mina basados en la eficiencia en post de mejorar la rentabilidad del negocio. El Know How del equipos es un pilar fundamental para el desarrollo de las Soluciones, la experiencia por mas de 18 años en el mercado de los SCP a entregado una alta especialización técnica y un alto nivel de conocimiento de los clientes con lo que se ha llegado a llegado a determinar los principales requerimientos que actualmente no han sido cubiertos por los SCP, La proyección financiera realizada entrego ratios positivos en base al incremento de los ingresos durante la proyección realizada, El VAN del proyecto fue de $521.305.715 y la TIR de 54%, Considerando que es un proyecto de consultoría, la empresa se deberá enfocar en incrementar la venta de servicios de consultoría de Alto Impacto y contratos de mejoramiento continuo los cuales son la base para dar sustentabilidad al negocio. Las posibilidades de escalamiento del negocio dadas por la cantidad de minas con SCP y los clientes internos que ello conlleva, indican que el crecimiento de DataForce podría incrementarse en cuando los resultados de sus asesorías generen un impacto en los clientes y con ello lleguen a considerar a DataForce con una aliado estratégico para sus operaciones. Recursos minerales Data Force Plan de negocios Administración
214	Taxas e frequências de alimentação na produção de rã-touro em baias inundadas Castro, Cecília Silva de [UNESP] 10 May 2010 (has links) (PDF) Made available in DSpace on 2014-06-11T19:28:24Z (GMT). No. of bitstreams: 0 Previous issue date: 2010-05-10Bitstream added on 2014-06-13T18:34:31Z : No. of bitstreams: 1 castro_cs_me_botfmvz.pdf: 574026 bytes, checksum: a3b5e4a6e9a6c9f9da758f541856b136 (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Universidade Estadual Paulista (UNESP) / Essa pesquisa teve por objetivo avaliar o efeito da frequência alimentar no desempenho produtivo da rã-touro (Lithobates catesbeianus) e determinar os coeficientes de disponibilidade de cálcio e fósforo e o coeficiente de digestibilidade da proteína da ração. Foram testadas três frequências de alimentação (6, 24 e 46 refeições/dia) em delineamento inteiramente casualizado com quatro repetições. Foram utilizadas rãs com peso médio de 70,59 ± 1,05 g, distribuídas em 12 baias de recria com piso alagado localizadas dentro de uma estufa. A ração foi fornecida por meio de alimentadores automáticos. Para determinação da digestibilidade da proteína e disponibilidade de cálcio e fósforo utilizou-se a sílica (SiO2) como marcador interno. O melhor crescimento foi observado com a maior frequência de alimentação aos 20, 40 e 60 dias. Ao final do experimento, as frequências de 6, 24 e 46 refeições/dia proporcionaram valores de conversão alimentar aparente de 2,31; 1,88 e 1,20, respectivamente. As diferentes frequências de alimentação não influenciaram na digestibilidade aparente da proteína e na disponibilidade aparente do cálcio e fósforo da ração fornecida para a rã-touro. Recomenda-se a alimentação de rã-touro em alta frequência (46 refeições/dia) / This study aimed to evaluate the effect of feeding frequency in the productive performance of bullfrogs (Lithobates catesbeianus) and to determine the availability coefficients of calcium and phosphorous and the digestibility coefficient of protein contained in diet. Three feeding frequencies were tested (6, 24 and 46 meals/day) in a randomized completely design, with four repetitions. Bullfrogs were used with mean weight of 70.59 ± 1.05 g, distributed in 12 frog production stalls with flooded floor. The diet was supplied through automatic feeders. For determination of protein digestibility contained in diet and calcium and phosphorous availability used the silica (SiO2) as internal marker. The best growth was obtained using the largest feeding frequency during 20, 40 and 60 days. At the end of the experiment, the frequencies of 6, 24 and 46 meals/day provided values of apparent feed conversion ranged from 2.31; 1.88 and 1.20, respectively. The different feeding frequencies didn't influence in the apparent digestibility of the protein and about the apparent availability of calcium and phosphorous contained in diet supplied for the bullfrogs. It is recommended high feeding frequency (46 meals/day) for the bullfrogs Rã touro - Nutrição Manejo alimentar Alimentação automática Automatic feed Growth Lithobates catesbeianus Feed management Flooded system
215	Recuperação de informação com auxílio de extratos automáticos. Batista Junior, Wilson dos Santos 08 May 2006 (has links) Made available in DSpace on 2016-06-02T19:05:17Z (GMT). No. of bitstreams: 1 DissWSBJ.pdf: 1130582 bytes, checksum: cddbd8f8a11a6e29a95cea9e62612f2b (MD5) Previous issue date: 2006-05-08 / Financiadora de Estudos e Projetos / This dissertation investigates the use of Automatic Summarization (AS) techniques on Information Retrieval (IR), two areas that have attracted growing attention due to the continuous growth of information repositories in digital format. The main goal of this work is to verify the contribution of extracts generated automatically in two stages of the IR: indexing and Pseudo Relevance Feedback (PRF). In general, the main goal of both phases is to find the most descriptive terms of a given document. This goal in turn is strongly related to that of the AS techniques to summarize the main parts of a document which justifies the study. In order to verify the effectiveness of the AS techniques, we have developed five systems that use extracts generated by a summarizing system that was considered useful in the task of indicating the content of documents to human readers. These systems were assessed through a set of documents written in Portuguese to test IR. In general, the results show that the generated extracts were not useful for indexing, presenting worse performance compared to when using a full document for IR. In the PRF case, however, the results obtained using specific extracts were better than those obtained by a system that does not embed PRF. The best results were obtained when using query-biased multi-documents extracts, indicating that this type of extract may be useful for PRF. / Este trabalho de mestrado investiga a aplicação de técnicas de Sumarização Automática (SA) na Recuperação de Informação (RI), duas áreas que, devido ao crescente número de repositórios de informação digital disponíveis, têm se mostrado muito importantes para a captura de informações. O intuito do trabalho é verificar a contribuição de extratos gerados automaticamente em duas etapas da RI: a indexação e a realimentação de pseudo-relevantes. O principal objetivo dessas duas etapas é encontrar os termos mais descritivos de um documento. Esse objetivo é relacionado fortemente com o objetivo principal da SA que é condensar as principais partes do documento, o que justifica o emprego. Para verificar a efetividade das técnicas de SA, foram construídos cinco sistemas que utilizam extratos gerados por um sistema de sumarização que foi considerado útil na tarefa de indicar aos leitores humanos o conteúdo de documentos. Esses sistemas foram avaliados com uma coleção de documentos para testes em RI, escritos em português. Em geral, os resultados apontam que os extratos gerados não foram úteis para a indexação, apresentando desempenho inferior à recuperação que usou o conteúdo completo dos documentos na indexação. No caso da realimentação de pseudo-relevantes, os resultados dos sistemas que utilizam extratos específicos foram superiores aos de um sistema sem esta realimentação em muitos casos. Os melhores resultados foram obtidos pelos extratos específicos multi-documentos, mostrando que esse tipo de extrato pode ser útil para a realimentação de pseudo-relevantes. Inteligência artificial Processamento da linguagem natural Sumarização automática
216	ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia. Silva, Patrick Pedreira 10 July 2006 (has links) Made available in DSpace on 2016-06-02T19:05:19Z (GMT). No. of bitstreams: 1 DissPPS.pdf: 2486545 bytes, checksum: 45bf3bd34f1453685126954dc3708459 (MD5) Previous issue date: 2006-07-10 / Financiadora de Estudos e Projetos / This dissertation presents an automatic summarizer of Web documents based on both HTML tags and ontological knowledge. It has been derived from two independent approaches: one that focuses solely upon HTML tags, and another that focuses only on ontological knowledge. The three approaches were implemented and assessed, indicating that associating both knowledge types have a promising descriptive power for Web documents. The resulting prototype has been named ExtraWeb. The ExtraWeb system explores the HTML structure of Web documents in Portuguese and semantic information using the Yahoo ontology in Portuguese. This has been enriched with additional terms extracted from both a thesaurus, Diadorim and the Wikipedia. In a simulated Web search, ExtraWeb achieved a similar utility degree to Google one, showing its potential to signal through extracts the relevance of the retrieved documents. This has been an important issue recently. Extracts may be particularly useful as surrogates of the current descriptions provided by the existing search engines. They may even substitute the corresponding source documents. In the former case, those descriptions do not necessarily convey relevant content of the documents; in the latter, reading full documents demands a substantial overhead of Web users. In both cases, extracts may improve the search task, provided that they actually signal relevant content. So, ExtraWeb is a potential plug-in of search engines, to improve their descriptions. However, its scability and insertion in a real setting have not yet been explored. / Esta dissertação propõe um sumarizador de documentos Web baseado em etiquetas HTML e conhecimento ontológico, derivado de outras duas abordagens independentes: uma que contempla somente etiquetas HTML e outra, somente conhecimento ontológico. As três abordagens foram implementadas e avaliadas, indicando que a composição desses dois tipos de conhecimento tem um bom potencial descritivo de documentos Web. O protótipo resultante é denominado ExtraWeb. O ExtraWeb explora a estrutura de marcação de documentos em português e informações de nível semântico usando a ontologia do Yahoo em português, enriquecida com vocabulário extraído de um thesaurus, Diadorim, e da Wikipédia. Em uma tarefa simulada por internautas, de busca de documentos, o ExtraWeb obteve um grau de utilidade próximo ao do Google, evidenciando seu potencial para indicar, por meio de extratos, a relevância de documentos recuperados na Web. Esse foco é de grande interesse atualmente, pois os extratos podem ser particularmente úteis como substitutos das descrições atuais das ferramentas de busca ou, mesmo, como substitutos dos documentos correspondentes completos. No primeiro caso, as descrições nem sempre contemplam as informações mais relevantes dos documentos; no segundo, sua leitura implica um esforço considerável por parte do internauta. Em ambos os casos, extratos podem otimizar essa tarefa, se comprovada sua utilidade para a indicação da relevância dos documentos. Assim, o ExtraWeb tem potencial para ser um acessório das ferramentas de busca, para melhorar a forma como os resultados são apresentados, muito embora sua escalabilidade e implantação em um ambiente real ainda não tenham sido exploradas. Inteligência artificial Processamento da linguagem natural Sumarização automática
217	A resolução de anáforas pronominais da língua portuguesa com base no algoritmo de Mitkov. Chaves, Amanda Rocha 22 August 2007 (has links) Made available in DSpace on 2016-06-02T19:05:25Z (GMT). No. of bitstreams: 1 ChavesDissMestrado2007.pdf: 1531762 bytes, checksum: 7abc0f23650c4081b1838680a8af1dd3 (MD5) Previous issue date: 2007-08-22 / One of the problems of natural language processing systems is to assure referential cohesion in a text. This property allows connecting the text constituents and making it readable. We address the anaphoric phenomenon as one of the main factors of referential cohesion. Anaphors depict a reference relationship between two or more text components, and the interpretation of the anaphor is dependent upon the interpretation of its antecedent. This work is limited to pronominal anaphors, thus, to automatic pronoun resolution. Several algorithms have been proposed to this end. They usually involve (1) identifying the anaphoric component; (2) determining the set of its possible antecedents; and (3) identifying and selecting the most likely antecedent of the anaphor. The lack of anaphora resolution in, e.g., information extraction and automatic translation or summarization may yield non-cohesive texts. Herein we present an adaptation of the Mitkov´s algorithm for pronoun resolution. 3rd person pronouns for Brazilian Portuguese are especially addressed, whose antecedents are noun phrases. This approach has been intrinsically evaluated on annotated corpora. It has also been compared with Lappin and Leass algorithm for pronoun resolution, adapted to Portuguese. Annotations embed morphological, syntactic and co-referential information. The evaluation measure adopted was the success rate. This is defined as the ratio between the number of anaphors correctly resolved by the system and the total number of anaphors in the text. The results of both evaluations are discussed here. / Um dos problemas encontrados em sistemas de processamento de línguas naturais é conseguir manter a coesão referencial de um texto, propriedade que permite estabelecer as ligações entre os seus constituintes, tornando-o inteligível. Dentre os fatores de coesão referencial destacamos a anáfora, que ocorre quando duas ou mais expressões de um texto estabelecem uma relação de referência entre si, isto é, a interpretação da anáfora depende de um antecedente ao qual ela se refere no texto. Diversos algoritmos na literatura foram propostos para a resolução automática de anáforas pronominais, que consiste em: 1) identificar a anáfora, 2) determinar o conjunto de possíveis antecedentes e 3) identificar e selecionar o antecedente da anáfora. A ausência da resolução anafórica em aplicações como extração de informação, tradução automática e sumarização textual, dentre outras, pode levar à descontinuidade referencial de seus resultados, tornando-os não-coesos. Nesse contexto, apresentamos uma adaptação do algoritmo de Mitkov, originalmente aplicado no inglês, para resolver anáforas da língua portuguesa, especialmente as determinadas por pronomes pessoais de terceira pessoa cujo antecedente seja um sintagma nominal. Essa abordagem foi avaliada com base em corpora anotados com informações morfossintáticas e coreferenciais, utilizando-se como medida de avaliação de desempenho a taxa de sucesso, que determina o número de anáforas resolvidas corretamente pelo sistema automático em relação ao número de anáforas presentes no corpus avaliado. Além disso, fez-se uma comparação de desempenho entre essa abordagem e o algoritmo de Lappin & Leass adaptado para o português. Os resultados dessa avaliação são discutidos ao final do trabalho. Inteligência artificial Resolução anafórica automática
218	RHeSumaRST: um sumarizador automático de estruturas RST. Seno, Eloize Rossi Marques 05 August 2005 (has links) Made available in DSpace on 2016-06-02T19:06:27Z (GMT). No. of bitstreams: 1 DissERMS.pdf: 1350059 bytes, checksum: b053cbd6eaf16da40d372057cbe1d76d (MD5) Previous issue date: 2005-08-05 / This work presents an automatic summarization model based on both the Rhetorical Structure Theory RST and the Veins Theory VT. RST allows inter-relating discourse units by means of rhetorical relations. These, in turn, mirror meaning relations between those units. Adding to RST, VT delimits the domain of referential accessibility of each discourse unit of an RST tree, resulting in its vein . A vein signals, thus, the limits of a discourse unit that may enclose its anaphora antecedents. The automatic summarization model also embeds Marcu s model of salience: once a discourse is structured as an RST tree, its units are classified according to their salience by considering the its deep in the tree. The model consists of a set of pruning heuristics that aim at identifying superfluous information in an RST tree of a text. In excluding them, the resulting summary RST tree and, thus, the text summary, should preserve the co-referential chains. In this way, the heuristics are driven by both, specific features of RST relations and constraints on the referential accessibility provided by VT. The main contributions of this work include the proposal of the AS model itself and the availability of a prototype for its automatic exploration. / Este trabalho apresenta um modelo de sumarização automática que se baseia no modelo de estruturação de discurso Rhetorical Structure Theory RST e no modelo de coerência global do discurso Veins Theory VT. A RST permite a estruturação de um discurso relacionando-se unidades discursivas com base em relações retóricas, isto é, permitindo recuperar as relações de significados entre tais unidades. Com base na estruturação RST, a Veins Theory delimita o domínio de acessibilidade referencial para cada unidade do discurso na forma de veias , indicando os limites nos quais os antecedentes de uma anáfora podem ocorrer ao longo do discurso. Além dessas teorias, o modelo também incorpora o modelo de classificação de saliência de unidades discursivas proposto por Marcu (1997a), que obtém uma ordem de importância das unidades discursivas de uma estrutura RST. O modelo de sumarização proposto consiste em um elenco de heurísticas que visam identificar informações supérfluas em uma estrutura RST de um texto, para exclusão durante a construção do seu sumário, tendo sempre como foco a preservação dos elos coreferenciais. Dessa forma, as heurísticas são guiadas por características específicas das relações retóricas da RST e por restrições de acessibilidade referencial da Veins Theory. Assim, o sumarizador proposto se resume à poda de segmentos discursivos irrelevantes das estruturas RST de textos, resultando em seus correspondentes sumários. As principais contribuições deste trabalho são a proposta de um novo modelo de sumarização automática e um protótipo para a sua aplicação automática. Sumarização automática Inteligência artificial
219	Descrição linguística da complementaridade para a sumarização automática multidocumento Souza, Jackson Wilke da Cruz 11 November 2015 (has links) Submitted by Bruna Rodrigues (bruna92rodrigues@yahoo.com.br) on 2016-10-25T11:34:48Z No. of bitstreams: 1 DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T19:04:54Z (GMT) No. of bitstreams: 1 DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T19:05:00Z (GMT) No. of bitstreams: 1 DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Made available in DSpace on 2016-11-08T19:05:06Z (GMT). No. of bitstreams: 1 DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) Previous issue date: 2015-11-11 / Não recebi financiamento / Automatic Multidocument Summarizarion (AMS) is a computational alternative to process the large quantity of information available online. In AMS, we try to automatically generate a single coherent and cohesive summary from a set of documents which have same subject, each these documents are originate from different sources. Furthermore, some methods of AMS select the most important information from the collection to compose the summary. The selection of main content sometimes requires the identification of redundancy, complementarity and contradiction, characterized by being the multidocument phenomena. The identification of complementarity, in particular, is relevant inasmuch as some information may be selected to the summary as a complement of another information that was already selected, ensuring more coherence and most informative. Some AMS methods to condense the content of the documents based on the identification of relations from the Cross-document Structure Theory (CST), which is established between sentences of different documents. These relationships (for example Historical background) capture the phenomenon of complementarity. Automatic detection of these relationships is often made based on lexical similarity between a pair of sentences, since research on AMS not count on studies that have characterized the phenomenon and show other relevant linguistic strategies to automatically detect the complementarity. In this work, we present the linguistic description of complementarity based on corpus. In addition, we elaborate the characteristics of this phenomenon in attributes that support the automatic identification. As a result, we obtained sets of rules that demonstrate the most relevant attributes for complementary CST relations (Historical background, Follow-up and Elaboration) and its types (temporal and timeless) complementarity. According this, we hope to contribute to the Descriptive Linguistics, with survey-based corpus of linguistic characteristics of this phenomenon, as of Automatic Processing of Natural Languages, by means of rules that can support the automatic identification of CST relations and types complementarity. / A Sumarização Automática Multidocumento (SAM) é uma alternativa computacional para o tratamento da grande quantidade de informação disponível on-line. Nela, busca-se gerar automaticamente um único sumário coerente e coeso a partir de uma coleção de textos que tratam de um mesmo assunto, sendo cada um deles proveniente de fontes distintas. Para tanto, a SAM seleciona informações mais importantes da coleção para compor o sumário. A seleção do conteúdo principal requer, por vezes, a identificação da redundância, complementaridade e contradição, que se caracterizam por serem os fenômenos multidocumento. A identificação da complementaridade, em especial, é relevante porque uma informação pode ser selecionada para o sumário uma vez que complementa outra já selecionada, garantindo mais coerência e informatividade. Alguns métodos de SAM realizam a condensação do conteúdo dos textos-fonte com base na identificação das relações do modelo/teoria Cross Document Structure Theory (CST) que se estabelecem entre as sentenças dos diferentes textos-fonte. Algumas dessas relações (p.ex., Historical background) capturam o fenômeno da complementaridade. A detecção automática dessas relações é comumente feita com base na similaridade lexical entre as sentenças, posto que as pesquisas sobre SAM não contam com estudos que tenham caracterizado o fenômeno, evidenciado outras estratégias linguísticas relevantes para detectar automaticamente a complementaridade. Neste trabalho, fez-se a descrição linguística da complementaridade com base em corpus, traduzindo as características desse fenômeno em atributos que subsidiam a sua identificação automática. Como resultados, obtiveram-se conjuntos de regras que evidenciam os atributos mais relevantes para a discriminação das relações CST de complementaridade (Historical background, Follow-up e Elaboration) e dos tipos (temporal e atemporal) da complementaridade. Com isso, espera-se contribuir para a Linguística Descritiva, com o levantamento baseados em corpus das características linguísticas do referido fenômeno, quanto para o Processamento Automático de Línguas Naturais, por meio das regras que podem subsidiar a identificação automática das relações CST e dos tipos de complementaridade. Complementaridade Relações CST Linguística textual Descrição linguística Sumarização automática multidocumento LINGUISTICA, LETRAS E ARTES::LINGUISTICA
220	Ontologias no processo de indexação automática de documentos textuais / Ontologies in automatic indexing proccess of textual documents Pansani Junior, Eder Antonio [UNESP] 06 May 2016 (has links) Submitted by EDER ANTONIO PANSANI JUNIOR null (epansani@gmail.com) on 2016-06-03T12:24:33Z No. of bitstreams: 1 Dissertação_ME_Eder_Pansani-v15(Final).pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5) / Approved for entry into archive by Ana Paula Grisoto (grisotoana@reitoria.unesp.br) on 2016-06-06T18:47:42Z (GMT) No. of bitstreams: 1 pansanijunior_ea_me_mar.pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5) / Made available in DSpace on 2016-06-06T18:47:42Z (GMT). No. of bitstreams: 1 pansanijunior_ea_me_mar.pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5) Previous issue date: 2016-05-06 / Apesar dos avanços tecnológicos das últimas décadas, a busca por informações relevantes ainda é uma tarefa árdua. A recuperação de informação envolve, por um lado, um acervo documental que deve ser representado por expressões linguísticas que resumem seu conteúdo temático. Por outro lado, pessoas tentam descrever linguisticamente as suas necessidades de informação a fim de obterem documentos relevantes para satisfazer tais necessidades. Um sistema de recuperação de informação é, portanto, um elemento mediador entre um acervo documental e seus requisitantes. Um dos aspectos que interferem diretamente na sua eficiência é a forma como os documentos são representados. Sendo assim, pesquisas sobre indexação automática tomam importância, principalmente em ambiente de grande produção e disseminação de documentos, como é o caso da Web. A utilização de vocabulários controlados como elementos de normalização terminológica é um recurso utilizado para melhorar os resultados do processo de indexação. Este trabalho tem por objetivo propor, avaliar e desenvolver um método de utilização de ontologias no processo de indexação automática de documentos textuais, fazendo uso da estrutura lógica e conceitual das ontologias de domínio e implementado um método que permite aos sistemas de indexação automática a realização de inferências automáticas, favorecendo uma representação dos documentos mais semântica e abrangente. Conclui-se com o estudo que a utilização das ontologias como vocabulários controlados em sistemas de indexação automática pode oferecer resultados promissores, permitindo a descoberta automática de termos e a resolução de alguns problemas ligados à linguagem que permeia todo o processo de recuperação de informação. / Despite the technological advances of recent decades, the search for relevant information is still an arduous task. The information retrieval involves, on the one hand, a documentary collection that must be represented by linguistic expressions which summarize its thematic content. On the other hand, people try describing linguistically their information needs in order to obtain relevant documents to satisfy those needs. An information retrieval system is therefore a mediating element between a documentary collection and its requesters. One of the aspects that directly interferes in their efficiency is how documents are represented. Therefore, researches on automatic indexing take importance, particularly, in an environment of large production and dissemination of documents, as it’s the case of the Web. The use of controlled vocabularies as terminology standardization elements is a feature used to improve the results of the indexing process. This study aims to propose, evaluate and develop a method for using ontologies in the automatic indexing process of textual documents, making use of logical and conceptual structure of domain ontologies and implementing a method that enables automatic indexing systems, an execution of automatic inferences, favoring a semantic and comprehensive documents representation. The study conclusion is that the use of ontologies as controlled vocabularies in automatic indexing systems can offer promising results, allowing the automatic discovery of terms and the resolution of some language related problems that permeates the whole process of information retrieval. Indexação automática Vocabulário controlado Ontologias Recuperação da Informação Automatic indexing Controlled vocabulary Ontology Information Retrieval

Search results