Global ETD Search

11	O fonema : linguística e história Garay, Rodrigo Garcia January 2016 (has links) O presente trabalho é o produto de minha pesquisa acerca dos aspectos históricos e linguísticos que subjazem o conceito do fonema. Nossa ideia originou-se a partir de dois extratos diferentes escritos pelo linguista russo Roman Jakobson: 1) sobre a gênese do fonema: “A procura pelos constituintes diferenciais discretos mais elementares da linguagem nos faz remontar à doutrina do sphoṭa dos gramáticos do sânscrito e a concepção do στοιχεῖον de Platão, mas o verdadeiro estudo linguístico desses invariantes iniciou-se apenas em 1870” (Jakobson, 1962:467); e 2) acerca dos fundadores da Fonologia: “Os primeiros alicerces da Fonologia foram assentados por Baudouin de Courtenay, Ferdinand de Saussure e seus discípulos” (Jakobson, 1962:232). Desta forma, tentamos realizar uma “reconstrução” desta trajetória histórica e linguística, dos nomes, fatos e teorias que formam o conceito da unidade fonológica no estudo científico da língua. Iniciamos com o estudo da ciência da linguagem na Índia antiga (em particular, o estudo da gramática do sânscrito), seguido pelo estudo do alfabeto grego (incluindo aí os problemas relativos à língua grega, assim como à Gramática e à Filosofia). Finalmente, tentamos fazer “um recorte” preciso do momento na história das ideias linguísticas quando o conceito científico do fonema foi delineado, definido e incorporado à terminologia da epistemologia linguística. Os grandes teóricos da escola incipiente da Linguística Geral, da Fonologia e do fonema, são, como disse Jakobson, o linguista e filólogo suíço Saussure, e o filólogo e foneticista polonês Courtenay; mas a história do fonema não é nada simples. Recentemente, um trabalho meticuloso por parte dos pesquisadores tem resgatado grande parte desta história já há muito esquecida, no que tange as teorias antigas dos gramáticos filósofos hindus e gregos, e os manuscritos de Saussure recentemente publicados, assim como os artigos de Courtenay e seus alunos (entre eles o polonês Mikołaj Kruszewski), escritos que, em sua maioria, permanecem sem tradução ao português. Nossa tarefa, então, foi trazer à luz esta história, seus desenvolvimentos no campo da Linguística em geral, e da Fonologia em particular. Realizamos nossa análise por meio de um cuidadoso estudo do fonema, um conceito no qual vários séculos de história e de ideias linguísticas estão sedimentados. / The present work is the product of my research into the historical and linguistic aspects that underlie the concept of the phoneme. Our main idea originated from two different extracts by the Russian linguist Roman Jakobson: 1) on the genesis of the phoneme: “the search for the ultimate discrete differential constituents of language can be traced back to the sphoṭa doctrine of the Sanskrit grammarians and to Plato’s conception of στοιχεῖον, but the actual linguistic study of these invariants started only in the 1870s” (Jakobson, 1962:467); and 2) on the founders of Phonology: “The first foundations of Phonology were laid by Baudouin de Courtenay, Ferdinand de Saussure and their disciples” (Jakobson, 1962:232). Thus, we attempted a historical and linguistic “reconstruction” of names, facts and theories that comprise the concept of a phonological unit and that of the phonological structure of language. We started with the study of the Science of Language in ancient India (in particular the grammar of Sanskrit), followed by the study of the Greek alphabet (including its implications concerning the Greek language, as well as Grammar and Philosophy). Finally, we attempted a precise “cut”, so to speak, on the moment in the history of Linguistic ideas when the scientific concept of the phoneme was outlined, defined and incorporated into the terminology of modern linguistic epistemology. The great theoreticians of the incipient school of General Linguistics, of Phonology and of the phoneme are, as Jakobson stated, the Swiss linguist and philologist Saussure, and the Polish philologist and phonetician Courtenay; yet the story inside the phoneme is anything but a simple one. Recently, meticulous scholarship has rescued a great part of this long forgotten history, in what concerns the ancient theories of both the Hindu and the Greek grammarian-philosophers, and the unpublished manuscript works of Saussure and the works of Courtenay and his students (among them the Polish professor Mikołaj Kruszewski), works that so far have remained without translation into Portuguese. Our task, then, has been to bring this history to light, its developments in the field of Linguistics in general, and Phonology in particular. We carried out this analysis by means of a careful study of the phoneme, a concept in which several hundred years of history and linguistic ideas have crystallized. Saussure, Ferdinand de, 1857-1913 Fonologia : História Fonética : Fonemas Língua sânscrita Língua grega Língua russa Phoneme Sanskrit Greek Courtenay Saussure Phonology
12	O fonema : linguística e história Garay, Rodrigo Garcia January 2016 (has links) O presente trabalho é o produto de minha pesquisa acerca dos aspectos históricos e linguísticos que subjazem o conceito do fonema. Nossa ideia originou-se a partir de dois extratos diferentes escritos pelo linguista russo Roman Jakobson: 1) sobre a gênese do fonema: “A procura pelos constituintes diferenciais discretos mais elementares da linguagem nos faz remontar à doutrina do sphoṭa dos gramáticos do sânscrito e a concepção do στοιχεῖον de Platão, mas o verdadeiro estudo linguístico desses invariantes iniciou-se apenas em 1870” (Jakobson, 1962:467); e 2) acerca dos fundadores da Fonologia: “Os primeiros alicerces da Fonologia foram assentados por Baudouin de Courtenay, Ferdinand de Saussure e seus discípulos” (Jakobson, 1962:232). Desta forma, tentamos realizar uma “reconstrução” desta trajetória histórica e linguística, dos nomes, fatos e teorias que formam o conceito da unidade fonológica no estudo científico da língua. Iniciamos com o estudo da ciência da linguagem na Índia antiga (em particular, o estudo da gramática do sânscrito), seguido pelo estudo do alfabeto grego (incluindo aí os problemas relativos à língua grega, assim como à Gramática e à Filosofia). Finalmente, tentamos fazer “um recorte” preciso do momento na história das ideias linguísticas quando o conceito científico do fonema foi delineado, definido e incorporado à terminologia da epistemologia linguística. Os grandes teóricos da escola incipiente da Linguística Geral, da Fonologia e do fonema, são, como disse Jakobson, o linguista e filólogo suíço Saussure, e o filólogo e foneticista polonês Courtenay; mas a história do fonema não é nada simples. Recentemente, um trabalho meticuloso por parte dos pesquisadores tem resgatado grande parte desta história já há muito esquecida, no que tange as teorias antigas dos gramáticos filósofos hindus e gregos, e os manuscritos de Saussure recentemente publicados, assim como os artigos de Courtenay e seus alunos (entre eles o polonês Mikołaj Kruszewski), escritos que, em sua maioria, permanecem sem tradução ao português. Nossa tarefa, então, foi trazer à luz esta história, seus desenvolvimentos no campo da Linguística em geral, e da Fonologia em particular. Realizamos nossa análise por meio de um cuidadoso estudo do fonema, um conceito no qual vários séculos de história e de ideias linguísticas estão sedimentados. / The present work is the product of my research into the historical and linguistic aspects that underlie the concept of the phoneme. Our main idea originated from two different extracts by the Russian linguist Roman Jakobson: 1) on the genesis of the phoneme: “the search for the ultimate discrete differential constituents of language can be traced back to the sphoṭa doctrine of the Sanskrit grammarians and to Plato’s conception of στοιχεῖον, but the actual linguistic study of these invariants started only in the 1870s” (Jakobson, 1962:467); and 2) on the founders of Phonology: “The first foundations of Phonology were laid by Baudouin de Courtenay, Ferdinand de Saussure and their disciples” (Jakobson, 1962:232). Thus, we attempted a historical and linguistic “reconstruction” of names, facts and theories that comprise the concept of a phonological unit and that of the phonological structure of language. We started with the study of the Science of Language in ancient India (in particular the grammar of Sanskrit), followed by the study of the Greek alphabet (including its implications concerning the Greek language, as well as Grammar and Philosophy). Finally, we attempted a precise “cut”, so to speak, on the moment in the history of Linguistic ideas when the scientific concept of the phoneme was outlined, defined and incorporated into the terminology of modern linguistic epistemology. The great theoreticians of the incipient school of General Linguistics, of Phonology and of the phoneme are, as Jakobson stated, the Swiss linguist and philologist Saussure, and the Polish philologist and phonetician Courtenay; yet the story inside the phoneme is anything but a simple one. Recently, meticulous scholarship has rescued a great part of this long forgotten history, in what concerns the ancient theories of both the Hindu and the Greek grammarian-philosophers, and the unpublished manuscript works of Saussure and the works of Courtenay and his students (among them the Polish professor Mikołaj Kruszewski), works that so far have remained without translation into Portuguese. Our task, then, has been to bring this history to light, its developments in the field of Linguistics in general, and Phonology in particular. We carried out this analysis by means of a careful study of the phoneme, a concept in which several hundred years of history and linguistic ideas have crystallized. Saussure, Ferdinand de, 1857-1913 Fonologia : História Fonética : Fonemas Língua sânscrita Língua grega Língua russa Phoneme Sanskrit Greek Courtenay Saussure Phonology
13	A canção popular autêntica aplicada ao processo de ensino-aprendizagem da língua alemã como língua estrangeira / The authentic pop music applied the process of teaching-learning of the german language as a foreign language Zachariadis, Carin Beatriz Carreira 17 October 2008 (has links) O presente estudo teve como objetivo principal aplicar a canção em sala de aula, para medir o seu grau de influência na aprendizagem do aluno no contexto de LE, particularmente da língua alemã. Com base no levantamento bibliográfico, foi constatado que a canção é uma ferramenta importante no ensino-aprendizagem de LE. Porém, sentiu-se falta da descrição dos resultados a partir da sua aplicação em sala de aula. Nos livros didáticos e em sala de aula, há, geralmente, canções elaboradas. No entanto, para despertar a motivação dos alunos da faixa etária de 13-14 anos das 8as séries de uma escola particular de São Paulo, houve a preocupação em selecionar uma canção autêntica que correspondesse ao universo de interesses dos jovens. Antes da escolha da canção houve a preocupação em definir a canção autêntica, segundo Parnitzke (1997). Dentre as canções autênticas, foi adotada a canção popular, que vai ao encontro dos interesses dos jovens. Dessa forma compreende-se por canção popular uma melodia cantada, com uma estrutura conjugada de língua e música, que compõem uma unidade. As suas partes melódicas são fáceis de cantar e de memorizar, as entoações e o ritmo orientam-se pelo texto. Engloba os gêneros musicais cantados, que são produzidos e divulgados em massa. A escolha da canção popular iniciou com um questionário respondido por jovens alemães da mesma faixa etária do público-alvo, passando pela definição do objetivo de aprendizagem para a sua aplicação e pela consideração dos critérios de escolha de canções estabelecidos por Setzer (2003), entre outros autores. O objetivo de aprendizagem com a canção concentrou-se na identificação de fonemas vocálicos característicos da língua alemã, ausentes no português do Brasil, visando uma melhor compreensão na comunicação oral. Para medir o grau de aprendizagem dos fonemas vocálicos, optou-se pela aplicação de um ditado antes e após o uso da canção em quatro grupos, dos quais um representou o grupo-controle, ou seja, não realizou a atividade com a canção. Após a aplicação da canção e a realização do segundo ditado verificou-se que, embora ainda ocorressem diversos erros ortográficos, houve uma melhora na compreensão auditiva refletida na representação de grafia dos fonemas específicos da língua alemã pelos alunos. Ao mesmo tempo, verificou-se que no grupocontrole essa melhora não ocorreu. Diante disso, conclui-se que a canção é um instrumento importante para a aprendizagem da LE. / The application of songs as class room activity, aiming at the measurement of their influence, presumed positive, on the pupils learning process of foreign languages, is the main goal of this study. From the literature review one concludes that songs are considered useful foreign language teaching tools. Nevertheless, there is a lack of measurements showing how effectively music influences the learning process. Text books usually present songs which are deliberately composed for teaching purposes. Considering 13-14 year old students, an authentic song, and thus motivating since it brings up young peoples concerns, was selected. Prior to the choice, Parnitzkes (1997) definition of authentic song was presented and discussed. Among the universe of authentic songs, the so called pop music was chosen, as it meets young peoples expectations. Pop song is understood as a sung tune with an integrated structure of music and language which composes a unity. Its melody is easily sung and memorized, its intonation and rhythm are guided by the lyrics. It comprises songs that are mass orientated and broadcast. The song selection process began with a questionnaire completed by young German students aged like the ones considered in this research, followed by the definition of the learning goal and of the choice criteria proposed by Setzer (2003), among others. The learning goal was focused on the identification of German language characteristic vocal phonemes which are absent in the Portuguese language spoken in Brasil, aiming at the improvement of listening comprehension skills. Four groups of students were considered, one of which was the control group that did not have contact with the song, and in order to measure the learning progress on the phonemes, the students did one dictation prior to and after the song activity. An analysis of the errors made by the students on both dictations showed that, excepting the students of the control group, there was an improvement in their listening comprehension skills, measured by the reduction of spelling mistakes. According to this, one confirms that the song is an important foreign language learning tool Canção popular (autêntica) Compreensão auditiva Ensino-aprendizagem do alemão como LE German as foreign language German characteristic vocal phonemes Língua alemã como LE Listening comprehension Pop music (authentic)
14	A canção popular autêntica aplicada ao processo de ensino-aprendizagem da língua alemã como língua estrangeira / The authentic pop music applied the process of teaching-learning of the german language as a foreign language Carin Beatriz Carreira Zachariadis 17 October 2008 (has links) O presente estudo teve como objetivo principal aplicar a canção em sala de aula, para medir o seu grau de influência na aprendizagem do aluno no contexto de LE, particularmente da língua alemã. Com base no levantamento bibliográfico, foi constatado que a canção é uma ferramenta importante no ensino-aprendizagem de LE. Porém, sentiu-se falta da descrição dos resultados a partir da sua aplicação em sala de aula. Nos livros didáticos e em sala de aula, há, geralmente, canções elaboradas. No entanto, para despertar a motivação dos alunos da faixa etária de 13-14 anos das 8as séries de uma escola particular de São Paulo, houve a preocupação em selecionar uma canção autêntica que correspondesse ao universo de interesses dos jovens. Antes da escolha da canção houve a preocupação em definir a canção autêntica, segundo Parnitzke (1997). Dentre as canções autênticas, foi adotada a canção popular, que vai ao encontro dos interesses dos jovens. Dessa forma compreende-se por canção popular uma melodia cantada, com uma estrutura conjugada de língua e música, que compõem uma unidade. As suas partes melódicas são fáceis de cantar e de memorizar, as entoações e o ritmo orientam-se pelo texto. Engloba os gêneros musicais cantados, que são produzidos e divulgados em massa. A escolha da canção popular iniciou com um questionário respondido por jovens alemães da mesma faixa etária do público-alvo, passando pela definição do objetivo de aprendizagem para a sua aplicação e pela consideração dos critérios de escolha de canções estabelecidos por Setzer (2003), entre outros autores. O objetivo de aprendizagem com a canção concentrou-se na identificação de fonemas vocálicos característicos da língua alemã, ausentes no português do Brasil, visando uma melhor compreensão na comunicação oral. Para medir o grau de aprendizagem dos fonemas vocálicos, optou-se pela aplicação de um ditado antes e após o uso da canção em quatro grupos, dos quais um representou o grupo-controle, ou seja, não realizou a atividade com a canção. Após a aplicação da canção e a realização do segundo ditado verificou-se que, embora ainda ocorressem diversos erros ortográficos, houve uma melhora na compreensão auditiva refletida na representação de grafia dos fonemas específicos da língua alemã pelos alunos. Ao mesmo tempo, verificou-se que no grupocontrole essa melhora não ocorreu. Diante disso, conclui-se que a canção é um instrumento importante para a aprendizagem da LE. / The application of songs as class room activity, aiming at the measurement of their influence, presumed positive, on the pupils learning process of foreign languages, is the main goal of this study. From the literature review one concludes that songs are considered useful foreign language teaching tools. Nevertheless, there is a lack of measurements showing how effectively music influences the learning process. Text books usually present songs which are deliberately composed for teaching purposes. Considering 13-14 year old students, an authentic song, and thus motivating since it brings up young peoples concerns, was selected. Prior to the choice, Parnitzkes (1997) definition of authentic song was presented and discussed. Among the universe of authentic songs, the so called pop music was chosen, as it meets young peoples expectations. Pop song is understood as a sung tune with an integrated structure of music and language which composes a unity. Its melody is easily sung and memorized, its intonation and rhythm are guided by the lyrics. It comprises songs that are mass orientated and broadcast. The song selection process began with a questionnaire completed by young German students aged like the ones considered in this research, followed by the definition of the learning goal and of the choice criteria proposed by Setzer (2003), among others. The learning goal was focused on the identification of German language characteristic vocal phonemes which are absent in the Portuguese language spoken in Brasil, aiming at the improvement of listening comprehension skills. Four groups of students were considered, one of which was the control group that did not have contact with the song, and in order to measure the learning progress on the phonemes, the students did one dictation prior to and after the song activity. An analysis of the errors made by the students on both dictations showed that, excepting the students of the control group, there was an improvement in their listening comprehension skills, measured by the reduction of spelling mistakes. According to this, one confirms that the song is an important foreign language learning tool Canção popular (autêntica) Compreensão auditiva Ensino-aprendizagem do alemão como LE Língua alemã como LE German as foreign language German characteristic vocal phonemes Listening comprehension Pop music (authentic)
15	RAMBLE: robust acoustic modeling for Brazilian learners of English / RAMBLE: modelagem acústica robusta para estudantes brasileiros de Inglês Shulby, Christopher Dane 08 August 2018 (has links) The gains made by current deep-learning techniques have often come with the price tag of big data and where that data is not available, a new solution must be found. Such is the case for accented and noisy speech where large databases do not exist and data augmentation techniques, which are less than perfect, present an even larger obstacle. Another problem is that state-of-the-art results are rarely reproducible because they use proprietary datasets, pretrained networks and/or weight initializations from other larger networks. An example of a low resource scenario exists even in the fifth largest land in the world; home to most of the speakers of the seventh most spoken language on earth. Brazil is the leader in the Latin-American economy and as a BRIC country aspires to become an ever-stronger player in the global marketplace. Still, English proficiency is low, even for professionals in businesses and universities. Low intelligibility and strong accents can damage professional credibility. It has been established in the literature for foreign language teaching that it is important that adult learners are made aware of their errors as outlined by the Noticing Theory, explaining that a learner is more successful when he is able to learn from his own mistakes. An essential objective of this dissertation is to classify phonemes in the acoustic model which is needed to properly identify phonemic errors automatically. A common belief in the community is that deep learning requires large datasets to be effective. This happens because brute force methods create a highly complex hypothesis space which requires large and complex networks which in turn demand a great amount of data samples in order to generate useful networks. Besides that, the loss functions used in neural learning does not provide statistical learning guarantees and only guarantees the network can memorize the training space well. In the case of accented or noisy speech where a new sample can carry a great deal of variation from the training samples, the generalization of such models suffers. The main objective of this dissertation is to investigate how more robust acoustic generalizations can be made, even with little data and noisy accented-speech data. The approach here is to take advantage of raw feature extraction provided by deep learning techniques and instead focus on how learning guarantees can be provided for small datasets to produce robust results for acoustic modeling without the dependency of big data. This has been done by careful and intelligent parameter and architecture selection within the framework of the statistical learning theory. Here, an intelligently defined CNN architecture, together with context windows and a knowledge-driven hierarchical tree of SVM classifiers achieves nearly state-of-the-art frame-wise phoneme recognition results with absolutely no pretraining or external weight initialization. A goal of this thesis is to produce transparent and reproducible architectures with high frame-level accuracy, comparable to the state of the art. Additionally, a convergence analysis based on the learning guarantees of the statistical learning theory is performed in order to evidence the generalization capacity of the model. The model achieves 39.7% error in framewise classification and a 43.5% phone error rate using deep feature extraction and SVM classification even with little data (less than 7 hours). These results are comparable to studies which use well over ten times that amount of data. Beyond the intrinsic evaluation, the model also achieves an accuracy of 88% in the identification of epenthesis, the error which is most difficult for Brazilian speakers of English This is a 69% relative percentage gain over the previous values in the literature. The results are significant because it shows how deep feature extraction can be applied to little data scenarios, contrary to popular belief. The extrinsic, task-based results also show how this approach could be useful in tasks like automatic error diagnosis. Another contribution is the publication of a number of freely available resources which previously did not exist, meant to aid future researches in dataset creation. / Os ganhos obtidos pelas atuais técnicas de aprendizado profundo frequentemente vêm com o preço do big data e nas pesquisas em que esses grandes volumes de dados não estão disponíveis, uma nova solução deve ser encontrada. Esse é o caso do discurso marcado e com forte pronúncia, para o qual não existem grandes bases de dados; o uso de técnicas de aumento de dados (data augmentation), que não são perfeitas, apresentam um obstáculo ainda maior. Outro problema encontrado é que os resultados do estado da arte raramente são reprodutíveis porque os métodos usam conjuntos de dados proprietários, redes prétreinadas e/ou inicializações de peso de outras redes maiores. Um exemplo de um cenário de poucos recursos existe mesmo no quinto maior país do mundo em território; lar da maioria dos falantes da sétima língua mais falada do planeta. O Brasil é o líder na economia latino-americana e, como um país do BRIC, deseja se tornar um participante cada vez mais forte no mercado global. Ainda assim, a proficiência em inglês é baixa, mesmo para profissionais em empresas e universidades. Baixa inteligibilidade e forte pronúncia podem prejudicar a credibilidade profissional. É aceito na literatura para ensino de línguas estrangeiras que é importante que os alunos adultos sejam informados de seus erros, conforme descrito pela Noticing Theory, que explica que um aluno é mais bem sucedido quando ele é capaz de aprender com seus próprios erros. Um objetivo essencial desta tese é classificar os fonemas do modelo acústico, que é necessário para identificar automaticamente e adequadamente os erros de fonemas. Uma crença comum na comunidade é que o aprendizado profundo requer grandes conjuntos de dados para ser efetivo. Isso acontece porque os métodos de força bruta criam um espaço de hipóteses altamente complexo que requer redes grandes e complexas que, por sua vez, exigem uma grande quantidade de amostras de dados para gerar boas redes. Além disso, as funções de perda usadas no aprendizado neural não fornecem garantias estatísticas de aprendizado e apenas garantem que a rede possa memorizar bem o espaço de treinamento. No caso de fala marcada ou com forte pronúncia, em que uma nova amostra pode ter uma grande variação comparada com as amostras de treinamento, a generalização em tais modelos é prejudicada. O principal objetivo desta tese é investigar como generalizações acústicas mais robustas podem ser obtidas, mesmo com poucos dados e/ou dados ruidosos de fala marcada ou com forte pronúncia. A abordagem utilizada nesta tese visa tirar vantagem da raw feature extraction fornecida por técnicas de aprendizado profundo e obter garantias de aprendizado para conjuntos de dados pequenos para produzir resultados robustos para a modelagem acústica, sem a necessidade de big data. Isso foi feito por meio de seleção cuidadosa e inteligente de parâmetros e arquitetura no âmbito da Teoria do Aprendizado Estatístico. Nesta tese, uma arquitetura baseada em Redes Neurais Convolucionais (RNC) definida de forma inteligente, junto com janelas de contexto e uma árvore hierárquica orientada por conhecimento de classificadores que usam Máquinas de Vetores Suporte (Support Vector Machines - SVMs) obtém resultados de reconhecimento de fonemas baseados em frames quase no estado da arte sem absolutamente nenhum pré-treinamento ou inicialização de pesos de redes externas. Um objetivo desta tese é produzir arquiteturas transparentes e reprodutíveis com alta precisão em nível de frames, comparável ao estado da arte. Adicionalmente, uma análise de convergência baseada nas garantias de aprendizado da teoria de aprendizagem estatística é realizada para evidenciar a capacidade de generalização do modelo. O modelo possui um erro de 39,7% na classificação baseada em frames e uma taxa de erro de fonemas de 43,5% usando raw feature extraction e classificação com SVMs mesmo com poucos dados (menos de 7 horas). Esses resultados são comparáveis aos estudos que usam bem mais de dez vezes essa quantidade de dados. Além da avaliação intrínseca, o modelo também alcança uma precisão de 88% na identificação de epêntese, o erro que é mais difícil para brasileiros falantes de inglês. Este é um ganho relativo de 69% em relação aos valores anteriores da literatura. Os resultados são significativos porque mostram como raw feature extraction pode ser aplicada a cenários de poucos dados, ao contrário da crença popular. Os resultados extrínsecos também mostram como essa abordagem pode ser útil em tarefas como o diagnóstico automático de erros. Outra contribuição é a publicação de uma série de recursos livremente disponíveis que anteriormente não existiam, destinados a auxiliar futuras pesquisas na criação de conjuntos de dados. Acoustic modeling Aprendizado profundo Computer vision Convolutional neural networks Deep learning Máquinas de vetores de suporte Modelagem acústica Non-native phoneme recognition Processamento de fala Reconhecimento de fonemas não nativos Redes neurais convolucionais Speech processing Statistical learning theory Support vector machines Teoria do aprendizado estatístico Visão computacional
16	RAMBLE: robust acoustic modeling for Brazilian learners of English / RAMBLE: modelagem acústica robusta para estudantes brasileiros de Inglês Christopher Dane Shulby 08 August 2018 (has links) The gains made by current deep-learning techniques have often come with the price tag of big data and where that data is not available, a new solution must be found. Such is the case for accented and noisy speech where large databases do not exist and data augmentation techniques, which are less than perfect, present an even larger obstacle. Another problem is that state-of-the-art results are rarely reproducible because they use proprietary datasets, pretrained networks and/or weight initializations from other larger networks. An example of a low resource scenario exists even in the fifth largest land in the world; home to most of the speakers of the seventh most spoken language on earth. Brazil is the leader in the Latin-American economy and as a BRIC country aspires to become an ever-stronger player in the global marketplace. Still, English proficiency is low, even for professionals in businesses and universities. Low intelligibility and strong accents can damage professional credibility. It has been established in the literature for foreign language teaching that it is important that adult learners are made aware of their errors as outlined by the Noticing Theory, explaining that a learner is more successful when he is able to learn from his own mistakes. An essential objective of this dissertation is to classify phonemes in the acoustic model which is needed to properly identify phonemic errors automatically. A common belief in the community is that deep learning requires large datasets to be effective. This happens because brute force methods create a highly complex hypothesis space which requires large and complex networks which in turn demand a great amount of data samples in order to generate useful networks. Besides that, the loss functions used in neural learning does not provide statistical learning guarantees and only guarantees the network can memorize the training space well. In the case of accented or noisy speech where a new sample can carry a great deal of variation from the training samples, the generalization of such models suffers. The main objective of this dissertation is to investigate how more robust acoustic generalizations can be made, even with little data and noisy accented-speech data. The approach here is to take advantage of raw feature extraction provided by deep learning techniques and instead focus on how learning guarantees can be provided for small datasets to produce robust results for acoustic modeling without the dependency of big data. This has been done by careful and intelligent parameter and architecture selection within the framework of the statistical learning theory. Here, an intelligently defined CNN architecture, together with context windows and a knowledge-driven hierarchical tree of SVM classifiers achieves nearly state-of-the-art frame-wise phoneme recognition results with absolutely no pretraining or external weight initialization. A goal of this thesis is to produce transparent and reproducible architectures with high frame-level accuracy, comparable to the state of the art. Additionally, a convergence analysis based on the learning guarantees of the statistical learning theory is performed in order to evidence the generalization capacity of the model. The model achieves 39.7% error in framewise classification and a 43.5% phone error rate using deep feature extraction and SVM classification even with little data (less than 7 hours). These results are comparable to studies which use well over ten times that amount of data. Beyond the intrinsic evaluation, the model also achieves an accuracy of 88% in the identification of epenthesis, the error which is most difficult for Brazilian speakers of English This is a 69% relative percentage gain over the previous values in the literature. The results are significant because it shows how deep feature extraction can be applied to little data scenarios, contrary to popular belief. The extrinsic, task-based results also show how this approach could be useful in tasks like automatic error diagnosis. Another contribution is the publication of a number of freely available resources which previously did not exist, meant to aid future researches in dataset creation. / Os ganhos obtidos pelas atuais técnicas de aprendizado profundo frequentemente vêm com o preço do big data e nas pesquisas em que esses grandes volumes de dados não estão disponíveis, uma nova solução deve ser encontrada. Esse é o caso do discurso marcado e com forte pronúncia, para o qual não existem grandes bases de dados; o uso de técnicas de aumento de dados (data augmentation), que não são perfeitas, apresentam um obstáculo ainda maior. Outro problema encontrado é que os resultados do estado da arte raramente são reprodutíveis porque os métodos usam conjuntos de dados proprietários, redes prétreinadas e/ou inicializações de peso de outras redes maiores. Um exemplo de um cenário de poucos recursos existe mesmo no quinto maior país do mundo em território; lar da maioria dos falantes da sétima língua mais falada do planeta. O Brasil é o líder na economia latino-americana e, como um país do BRIC, deseja se tornar um participante cada vez mais forte no mercado global. Ainda assim, a proficiência em inglês é baixa, mesmo para profissionais em empresas e universidades. Baixa inteligibilidade e forte pronúncia podem prejudicar a credibilidade profissional. É aceito na literatura para ensino de línguas estrangeiras que é importante que os alunos adultos sejam informados de seus erros, conforme descrito pela Noticing Theory, que explica que um aluno é mais bem sucedido quando ele é capaz de aprender com seus próprios erros. Um objetivo essencial desta tese é classificar os fonemas do modelo acústico, que é necessário para identificar automaticamente e adequadamente os erros de fonemas. Uma crença comum na comunidade é que o aprendizado profundo requer grandes conjuntos de dados para ser efetivo. Isso acontece porque os métodos de força bruta criam um espaço de hipóteses altamente complexo que requer redes grandes e complexas que, por sua vez, exigem uma grande quantidade de amostras de dados para gerar boas redes. Além disso, as funções de perda usadas no aprendizado neural não fornecem garantias estatísticas de aprendizado e apenas garantem que a rede possa memorizar bem o espaço de treinamento. No caso de fala marcada ou com forte pronúncia, em que uma nova amostra pode ter uma grande variação comparada com as amostras de treinamento, a generalização em tais modelos é prejudicada. O principal objetivo desta tese é investigar como generalizações acústicas mais robustas podem ser obtidas, mesmo com poucos dados e/ou dados ruidosos de fala marcada ou com forte pronúncia. A abordagem utilizada nesta tese visa tirar vantagem da raw feature extraction fornecida por técnicas de aprendizado profundo e obter garantias de aprendizado para conjuntos de dados pequenos para produzir resultados robustos para a modelagem acústica, sem a necessidade de big data. Isso foi feito por meio de seleção cuidadosa e inteligente de parâmetros e arquitetura no âmbito da Teoria do Aprendizado Estatístico. Nesta tese, uma arquitetura baseada em Redes Neurais Convolucionais (RNC) definida de forma inteligente, junto com janelas de contexto e uma árvore hierárquica orientada por conhecimento de classificadores que usam Máquinas de Vetores Suporte (Support Vector Machines - SVMs) obtém resultados de reconhecimento de fonemas baseados em frames quase no estado da arte sem absolutamente nenhum pré-treinamento ou inicialização de pesos de redes externas. Um objetivo desta tese é produzir arquiteturas transparentes e reprodutíveis com alta precisão em nível de frames, comparável ao estado da arte. Adicionalmente, uma análise de convergência baseada nas garantias de aprendizado da teoria de aprendizagem estatística é realizada para evidenciar a capacidade de generalização do modelo. O modelo possui um erro de 39,7% na classificação baseada em frames e uma taxa de erro de fonemas de 43,5% usando raw feature extraction e classificação com SVMs mesmo com poucos dados (menos de 7 horas). Esses resultados são comparáveis aos estudos que usam bem mais de dez vezes essa quantidade de dados. Além da avaliação intrínseca, o modelo também alcança uma precisão de 88% na identificação de epêntese, o erro que é mais difícil para brasileiros falantes de inglês. Este é um ganho relativo de 69% em relação aos valores anteriores da literatura. Os resultados são significativos porque mostram como raw feature extraction pode ser aplicada a cenários de poucos dados, ao contrário da crença popular. Os resultados extrínsecos também mostram como essa abordagem pode ser útil em tarefas como o diagnóstico automático de erros. Outra contribuição é a publicação de uma série de recursos livremente disponíveis que anteriormente não existiam, destinados a auxiliar futuras pesquisas na criação de conjuntos de dados. Aprendizado profundo Máquinas de vetores de suporte Modelagem acústica Processamento de fala Reconhecimento de fonemas não nativos Redes neurais convolucionais Teoria do aprendizado estatístico Visão computacional Acoustic modeling Computer vision Convolutional neural networks Deep learning Non-native phoneme recognition Speech processing Statistical learning theory Support vector machines

Page generated in 0.0256 seconds