• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 6
  • 2
  • 2
  • 2
  • 1
  • 1
  • Tagged with
  • 17
  • 17
  • 10
  • 5
  • 4
  • 4
  • 4
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Automatic Recognition of Printed Music Score

Tsai, Tzu-Wei 25 July 2004 (has links)
Optical music recognition (OMR) allows pages of sheet music to be interpreted by a computer, and converted into a versatile machine-readable format. There are many advantages of such a system. For instance, a soloist could have the computer play an accompaniment for rehearsal; a user could build music database occupying less memory; or a musicologist could make an edition, modification, or print of the captured image. Typically, OCR techniques can not be used in music score recognition since music notation presents a two dimensional structure: in a staff the horizontal position denotes different duration for notes and the vertical position defines the height of the note. That the quality or the typesetting of a score is not the same, or some of the man-made factors make many related researches could not process flexibility, or could only recognize with restriction. The paper covers two fields of knowledge: one is image processing technology, mainly based on projection, which is employed to extract horizontal and vertical line to abridge the recognition field, and morphology, which recognize musical symbols. The other is music metric, which provides the help on the analysis, and corrects the errors after recognizing. This system divides into three phases. It starts with all the pre-processing that is needed to de-skew input image, which afford to staff line detection and removal. Then, the symbol recognition, detects the vertical and non-vertical line musical symbol respectively, which are combined into a notation to refine by metric. Finally, the results are stored in a musical representation language, which could be converted into the MIDI format and the music can be played on a MIDI synthesizer. The experiment shows this system could get a satisfied result successfully in short time, and there is no hard-and-fast claim for image resolution.
2

Writer Identification by a Combination of Graphical Features in the Framework of Old Handwritten Music Scores

Fornés Bisquerra, Alicia 03 July 2009 (has links)
No description available.
3

The Effect of Free Movement on Preschool Students' Preference for and Recognition of Classical Music

Knell, Emilee Keith 13 July 2010 (has links) (PDF)
This study was conducted in order to examine two questions: 1) Does free movement while listening to classical music influence a preschooler's preference for the music?; and 2) Does free movement while listening to classical music influence a preschooler's ability to answer recognition questions relative to the music? Subjects (N = 34) were 4- to 5-year-old students from two intact classrooms at the BYU Child and Family Studies Laboratory Preschool. After being involved in six lessons utilizing two different classical pieces, each identified by a prominent instrument and experienced either Actively (with free movement) or Passively (while sitting or lying down), the students were interviewed relative to their music preferences and recognition. To strengthen the results, the process was repeated (termed Wave 1 and Wave 2) with different pieces in different experience orders. Results of a Chi-Squared test of independence indicated no effect for Active or Passive exposure on piece preference in either wave. However, in Wave 1, pieces experienced Passively were significantly preferred to those experienced Actively, while the reverse was true in Wave 2. The Active exposure had no significant effect on the overall accuracy of recognition responses. Observational data is also included, which corroborates and extends statistical results.
4

Musical Form Reconstruction in Printed and Handwritten Lead Sheets via Optical Recognition of Chord Symbols

Janmohamed, Nashir A 01 January 2023 (has links) (PDF)
Optical music recognition (OMR) is the field of study which seeks to use computer vision to extract musical information from images. Most OMR work focuses on music symbols (such as notes, time signatures, clefs, etc.); to date, only two prior works pay attention to chord symbols (shorthand notation commonly used in jazz and popular music lead sheets to describe the harmony of the music) in musical documents. Chord symbols lay the foundation for jazz improvisation - a sequence of chord symbols is repeated during the improvisatory section, and the soloist and accompaniment (primarily, though not exclusively) use the chord symbols to inform their choice of notes and rhythms. In order to enable downstream work on computer-based improvisation, this work seeks to identify chords and extract musical structure from images of lead sheets with chord symbols. We contribute two new datasets for the chord identification task; one of handwritten symbols collected from students at UCF, and the other of printed symbols, collected from five different real book documents. We also propose a baseline chord identification and localization technique, using an OMR + grammar + deep learning approach to identify chord symbols and their location in the musical document, and describe baseline results on the printed and handwritten datasets. We also describe an implementation of musical form reconstruction from a lead sheet image, as well as an evaluation approach using string similarity metrics.
5

Contributions to Document Image Analysis: Application to Music Score Images

Castellanos, Francisco J. 25 November 2022 (has links)
Esta tesis contribuye en el límite del conocimiento en algunos procesos relevantes dentro del flujo de trabajo típico asociado a los sistemas de reconocimiento óptico de música (OMR). El análisis de los documentos es una etapa clave y temprana dentro de dicho flujo, cuyo objetivo es proporcionar una versión simplificada de la información entrante; es decir, de las imágenes de documentos musicales. El resto de procesos involucrados en OMR pueden aprovechar esta simplificación para resolver sus correspondientes tareas de forma más sencilla y centrándose únicamente en la información que necesitan. Un ejemplo claro es el proceso dedicado a reconocer las áreas donde se sitúan los diferentes pentagramas. Tras obtener las coordenadas de los mismos, los pentagramas individuales pueden ser procesados para recuperar la secuencia simbólica musical que contienen y así construir una versión digital de su contenido. El trabajo de investigación que se ha realizado para completar la presente tesis se encuentra avalada por una serie de contribuciones publicadas en revistas de alto impacto y congresos internacionales. Concretamente, esta tesis contiene un conjunto de 4 artículos que se han publicado en revistas indexadas en el Journal Citation Reports y situadas en los primeros cuartiles en cuanto al factor de impacto, teniendo un total de 58 citas según Google Scholar. También se han incluido 3 comunicaciones realizadas en diferentes ediciones de un congreso internacional de Clase A según la clasificación proporcionada por GII-GRIN-SCIE. Se puede observar que las publicaciones tratan temas muy relacionados entre sí, enfocándose principalmente en el análisis de documentos orientado a OMR pero con pinceladas de transcripción de la secuencia musical y técnicas de adaptación al dominio. También hay publicaciones que demuestran que algunas de estas técnicas pueden ser aplicadas a otros tipos de imágenes de documentos, haciendo que las soluciones propuestas sean más interesantes por su capacidad de generalización y adaptación a otros contextos. Además del análisis de documentos, también se estudia cómo afectan estos procesos a la transcripción final de la notación musical, que a fin de cuentas, es el objetivo final de los sistemas OMR, pero que hasta el momento no se había investigado. Por último, debido a la incontable cantidad de información que requieren las redes neuronales para construir un modelo suficientemente robusto, también se estudia el uso de técnicas de adaptación al dominio, con la esperanza de que su éxito abra las puertas a la futura aplicabilidad de los sistemas OMR en entornos reales. Esto es especialmente interesante en el contexto de OMR debido a la gran cantidad de documentos sin datos de referencia que son necesarios para entrenar modelos de redes neuronales, por lo que una solución que aproveche las limitadas colecciones etiquetadas para procesar documentos de otra índole nos permitiría un uso más práctico de estas herramientas de transcripción automáticas. Tras la realización de esta tesis, se observa que la investigación en OMR no ha llegado al límite que la tecnología puede alcanzar y todavía hay varias vías por las que continuar explorando. De hecho, gracias al trabajo realizado, se han abierto incluso nuevos horizontes que se podrían estudiar para que algún día estos sistemas puedan ser utilizados para digitalizar y transcribir de forma automática la herencia musical escrita o impresa a gran escala y en un tiempo razonable. Entre estas nuevas líneas de investigación, podemos destacar las siguientes: · En esta tesis se han publicado contribuciones que utilizan una técnica de adaptación al dominio para realizar análisis de documentos con buenos resultados. La exploración de nuevas técnicas de adaptación al dominio podría ser clave para construir modelos de redes neuronales robustos y sin la necesidad de etiquetar manualmente una parte de todas las obras musicales que se pretenden digitalizar. · La aplicación de las técnicas de adaptación al dominio en otros procesos como en la transcripción de la secuencia musical podría facilitar el entrenamiento de modelos capaces de realizar esta tarea. Los algoritmos de aprendizaje supervisado requieren que personal cualificado se encargue de transcribir manualmente una parte de las colecciones, pero los costes temporal y económico asociados a este proceso suponen un amplio esfuerzo si el objetivo final es transcribir todo este patrimonio cultural. Por ello, sería interesante estudiar la aplicabilidad de estas técnicas con el fin de reducir drásticamente esta necesidad. · Durante la tesis, se ha estudiado cómo afecta el factor de escala de los documentos en el rendimiento de varios procesos de OMR. Además de la escala, otro factor importante que se debe tratar es la orientación, ya que las imágenes de los documentos no siempre estarán perfectamente alineadas y pueden sufrir algún tipo de rotación o deformación que provoque errores en la detección de la información. Por lo tanto, sería interesante estudiar cómo afectan estas deformaciones a la transcripción y encontrar soluciones viables para el contexto que aplica. · Como caso general y más básico, se ha estudiado cómo, con diferentes modelos de propósito general de detección de objetos, se podrían extraer los pentagramas para su posterior procesamiento. Estos elementos se han considerado rectangulares y sin rotación, pero hay que tener en cuenta que no siempre nos encontraremos con esta situación. Por lo tanto, otra posible vía de investigación sería estudiar otros tipos de modelos que permitan detectar elementos poligonales y no solo rectangulares, así como la posibilidad de detectar objetos con cierta inclinación sin introducir solapamiento entre elementos consecutivos como ocurre en algunas herramientas de etiquetado manual como la utilizada en esta tesis para la obtención de datos etiquetados para experimentación: MuRET. Estas líneas de investigación son, a priori, factibles pero es necesario realizar un proceso de exploración con el fin de detectar aquellas técnicas útiles para ser adaptadas al ámbito de OMR. Los resultados obtenidos durante la tesis señalan que es posible que estas líneas puedan aportar nuevas contribuciones en este campo, y por ende, avanzar un paso más a la aplicación práctica y real de estos sistemas a gran escala.
6

New Approaches to Optical Music Recognition

Alfaro-Contreras, María 22 September 2023 (has links)
El Reconocimiento Óptico de Música (Optical Music Recognition, OMR) es un campo de investigación que estudia cómo leer computacionalmente la notación musical presente en documentos y almacenarla en un formato digital estructurado. Los enfoques tradicionales de OMR suelen estructurarse en torno a un proceso de varias etapas: (i) preprocesamiento de imágenes, donde se abordan cuestiones relacionadas con el proceso de escaneado y la calidad del papel, (ii) segmentación y clasificación de símbolos, donde se detectan y etiquetan los distintos elementos de la imagen, (iii) reconstrucción de la notación musical, una fase de postprocesamiento del proceso de reconocimiento, y (iv) codificación de resultados, donde los elementos reconocidos se almacenan en un formato simbólico adecuado. Estos sistemas logran tasas de reconocimiento competitivas a costa de utilizar determinadas heurísticas, adaptadas a los casos para los que fueron diseñados. En consecuencia, la escalabilidad se convierte en una limitación importante, ya que para cada colección o tipo notacional es necesario diseñar un nuevo conjunto de heurísticas. Además, otro inconveniente de estos enfoques tradicionales es la necesidad de un etiquetado detallado, a menudo obtenido manualmente. Dado que cada símbolo se reconoce individualmente, se requieren las posiciones exactas de cada uno de ellos, junto con sus correspondientes etiquetas musicales. Los enfoques tradicionales de OMR suelen estructurarse en torno a un proceso de varias etapas: (i) preprocesamiento de imágenes, donde se abordan cuestiones relacionadas con el proceso de escaneado y la calidad del papel, (ii) segmentación y clasificación de símbolos, donde se detectan y etiquetan los distintos elementos de la imagen, (iii) reconstrucción de la notación musical, una fase de postprocesamiento del proceso de reconocimiento, y (iv) codificación de resultados, donde los elementos reconocidos se almacenan en un formato simbólico adecuado. Estos sistemas logran tasas de reconocimiento competitivas a costa de utilizar determinadas heurísticas, adaptadas a los casos para los que fueron diseñados. En consecuencia, la escalabilidad se convierte en una limitación importante, ya que para cada colección o tipo notacional es necesario diseñar un nuevo conjunto de heurísticas. Además, otro inconveniente de estos enfoques tradicionales es la necesidad de un etiquetado detallado, a menudo obtenido manualmente. Dado que cada símbolo se reconoce individualmente, se requieren las posiciones exactas de cada uno de ellos, junto con sus correspondientes etiquetas musicales. La incorporación del Aprendizaje Profundo (Deep Learning, DL) en el OMR ha producido un cambio hacia el uso de sistemas holísticos o de extremo a extremo basados en redes neuronales para la etapa de segmentación y clasificación de símbolos, tratando el proceso de reconocimiento como un único paso en lugar de dividirlo en distintas subtareas. Al aprender simultáneamente los procesos de extracción de características y clasificación, estas soluciones eliminan la necesidad de diseñar procesos específicos para cada caso: las características necesarias para la clasificación se infieren directamente de los datos. Para lograrlo, solo son necesarios pares de entrenamiento formados por la imagen de entrada y su correspondiente transcripción. En otras palabras, este enfoque evita la necesidad de anotar las posiciones exactas de los símbolos, lo que simplifica aún más el proceso de transcripción. El enfoque de extremo a extremo ha sido recientemente explorado en la literatura, pero siempre bajo la suposición de que un determinado preproceso ya ha segmentado los diferentes pentagramas de una partitura. El objetivo es, por tanto, recuperar la serie de símbolos musicales que aparecen en una imagen de un pentagrama. En este contexto, las Redes Neuronales Convolucionales Recurrentes (Convolutional Recurrent Neural Networks, CRNN) representan el estado del arte: el bloque convolucional se encarga de extraer características relevantes de la imagen de entrada, mientras que las capas recurrentes interpretan estas características en términos de secuencias de símbolos musicales. Las CRNN se entrenan principalmente utilizando la función de pérdida de Clasificación Temporal Conexionista (Connectionist Temporal Classification, CTC), la cual permite el entrenamiento sin requerir información explícita sobre la ubicación de los símbolos en la imagen. Para la etapa de inferencia, generalmente se emplea una política de decodificación voraz, es decir, se recupera la secuencia de mayor probabilidad. Esta tesis presenta una serie de contribuciones, organizadas en tres grupos distintos pero interconectados, que avanzan en el desarrollo de sistemas de OMR a nivel de pentagrama más robustos y generalizables. El primer grupo de contribuciones se centra en la reducción del esfuerzo humano al utilizar sistemas de OMR. Se comparan los tiempos de transcripción con y sin la ayuda de un sistema de OMR, observando que su uso acelera el proceso, aunque requiere una cantidad suficiente de datos etiquetados, lo cual implica un esfuerzo humano. Por lo tanto, se propone utilizar técnicas de Aprendizaje Auto- Supervisado (Self-Supervised Learning, SSL) para preentrenar un clasificador de símbolos, logrando una precisión superior al 80% al utilizar solo un ejemplo por clase en el entrenamiento. Este clasificador de símbolos puede acelerar el proceso de etiquetado de datos. El segundo grupo de contribuciones mejora el rendimiento de los sistemas de OMR de dos maneras. Por un lado, se propone una codificación musical que permite reconocer música monofónica y homofónica. Por otro lado, se mejora el rendimiento de los sistemas mediante el uso de la bidimensionalidad de la representación agnóstica, introduciendo tres cambios en el enfoque estándar: (i) una nueva arquitectura que incluye ramas específicas para captura características relacionadas con la forma (duración del evento) o la altura (tono) de los símbolos musicales, (ii) el uso de una representación de secuencia dividida, que requiere que el modelo prediga los atributos de forma y altura de manera secuencial, y (iii) un algoritmo de decodificación voraz personalizado que garantiza que la representación mencionada se cumple en la secuencia predicha. El tercer y último grupo de contribuciones explora las sinergias entre OMR y su equivalente en audio, la Transcripción Automática de Música (Automatic Music Transcription, AMT). Estas contribuciones confirman la existencia de sinergias entre ambos campos y evalúan distintos enfoques de fusión tardía para la transcripción multimodal, lo que se traduce en mejoras significativas en la precisión de la transcripción. Por último, la tesis concluye comparando los enfoques de fusión temprana y fusión tardía, y afirma que la fusión tardía ofrece más flexibilidad y mejor rendimiento. / Esta tesis ha sido financiada por el Ministerio de Universidades a través del programa de ayudas para la formación de profesorado universitario (Ref. FPU19/04957).
7

Optical Music Recognition in der Bayerischen Staatsbibliothek

Diet, Jürgen 03 December 2019 (has links)
Die Bayerische Staatsbibliothek hat im Sommer 2016 ein Projekt zur automatischen Notenerkennung (Optical Music Recognition, OMR) gestartet. Dieser Beitrag beschreibt zunächst die Funktionsweise und die Qualität von OMR-Programmen und geht dann auf die bisherigen Erfahrungen der Bayerischen Staatsbibliothek mit OMR ein. Anschließend werden die Anwendungsszenarien skizziert, die die Bayerische Staatsbibliothek aufsetzend auf den OMR-Daten entwickeln wird. / During summer 2016, the Bavarian State Library has started a project on optical music recognition (OMR). This paper describes the functionality and quality of OMR programs at first and then depicts the OMR-experiences of the Bavarian State Library. Finally, the use case scenarios are outlined that the Bavarian State Library will implement on top of the OMR data.
8

Talker Discrimination, Emotion Identification, and Melody Recognition by Young Children with Bilateral Cochlear Implants

Volkova, Anna 26 March 2012 (has links)
Users of cochlear implants typically have difficulty differentiating talkers, identifying vocal expressions of emotion, and recognizing familiar melodies because of the degraded spectral cues provided by conventional implants. This thesis examined these abilities in a small, relatively privileged sample of young bilateral implant users. In Study 1 child implant users and a control sample of hearing children were required to judge whether various utterances were produced by a man, woman, or girl (Experiment 1) and to identify the voices of cartoon characters from familiar television programs (Experiment 2). Child implant users’ performance on talker classification was comparable to that of hearing children. Their identification of cartoon characters’ voices was less accurate than that of hearing children but well above chance levels. These findings challenge conventional wisdom about the talker identification difficulties of implant users. In Study 2 the children were required to indicate whether semantically neutral utterances (Experiment 1) or classical piano excerpts (Experiment 2) sounded “happy” or “sad”. In both cases, implant users performed less accurately than hearing children but well above chance levels. Although the findings on emotion recognition in music are in line with those of previous research, the findings on emotion in speech are at odds with claims that young implant users are insensitive to vocal affect. In Study 3 the children were required to identify the theme songs from familiar television programs on the basis of combined timing and pitch cues as well as timing or pitch cues alone. Implant users’ performance was comparable to that of hearing children except when the cues were restricted to pitch relations, which resulted in performance at chance levels. The findings suggest that the musical representations of young implanted listeners include precise information about timing and coarser information about pitch. They also demonstrate, for the first time, that children, both implant users and those with normal hearing, can identify familiar music on the basis of timing cues alone. Overall, the findings highlight the importance of timing cues for implant users, the range of individual differences, and habilitation possibilities for the recognition of talkers, emotion, and music.
9

Comparison of two audio fingerprinting algorithms for advertisement identification / van Nieuwenhuizen H.A.

Van Nieuwenhuizen, Heinrich Abrie January 2011 (has links)
Although the identification of humans by fingerprints is a well–known technique in practice, the identification of an audio sample by means of a technique called audio fingerprinting is still under development. Audio fingerprinting can be used to identify different types of audio samples of which music and advertisements are the two most frequently encountered. Different audio fingerprinting techniques to identify audio samples appear seldom in the literature and direct comparisons of the techniques are not always available In this dissertation, the two audio fingerprinting techniques of Avery Wang and Haitsma and Kalker are compared in terms of accuracy, speed, versatility and scalability, with the goal of modifying the algorithms for optimal advertisement identification applications. To start the background of audio fingerprinting is summarised and different algorithms for audio fingerprinting are reviewed. Problems, issues to be addressed and research methodology are discussed. The research question is formulated as follows : “Can audio fingerprinting be applied successfully to advertisement monitoring, and if so, which existing audio fingerprinting algorithm is most suitable as a basis for a generic algorithm and how should the original algorithm be changed for this purpose?” The research question is followed by literature regarding the background of audio fingerprinting and different audio fingerprinting algorithms. Next, the importance of audio fingerprinting in the engineering field is motivated by the technical aspects related to audio fingerprinting. The technical aspects are not always necessary or part of the algorithm, but in most cases, the algorithms are pre–processed, filtered and downsampled. Other aspects include identifying unique features and storing them, on which each algorithm’s techniques differ. More detail on Haitsma and Kalker’s, Avery Wang’s and Microsoft’s RARE algorithms are then presented. Next, the desired interface for advertisement identification Graphical User Interface (GUI) is presented. Different solution architectures for advertisement identification are discussed. A design is presented and implemented which focuses on advertisement identification and helps with the validation process of the algorithm. The implementation is followed by the experimental setup and tests. Finally, the dissertation ends with results and comparisons, which verified and validated the algorithm and thus affirmed the first part of the research question. A short summary of the contribution made in the dissertation is given, followed by conclusions and recommendations for future work. / Thesis (M.Ing. (Computer and Electronical Engineering))--North-West University, Potchefstroom Campus, 2012.
10

Comparison of two audio fingerprinting algorithms for advertisement identification / van Nieuwenhuizen H.A.

Van Nieuwenhuizen, Heinrich Abrie January 2011 (has links)
Although the identification of humans by fingerprints is a well–known technique in practice, the identification of an audio sample by means of a technique called audio fingerprinting is still under development. Audio fingerprinting can be used to identify different types of audio samples of which music and advertisements are the two most frequently encountered. Different audio fingerprinting techniques to identify audio samples appear seldom in the literature and direct comparisons of the techniques are not always available In this dissertation, the two audio fingerprinting techniques of Avery Wang and Haitsma and Kalker are compared in terms of accuracy, speed, versatility and scalability, with the goal of modifying the algorithms for optimal advertisement identification applications. To start the background of audio fingerprinting is summarised and different algorithms for audio fingerprinting are reviewed. Problems, issues to be addressed and research methodology are discussed. The research question is formulated as follows : “Can audio fingerprinting be applied successfully to advertisement monitoring, and if so, which existing audio fingerprinting algorithm is most suitable as a basis for a generic algorithm and how should the original algorithm be changed for this purpose?” The research question is followed by literature regarding the background of audio fingerprinting and different audio fingerprinting algorithms. Next, the importance of audio fingerprinting in the engineering field is motivated by the technical aspects related to audio fingerprinting. The technical aspects are not always necessary or part of the algorithm, but in most cases, the algorithms are pre–processed, filtered and downsampled. Other aspects include identifying unique features and storing them, on which each algorithm’s techniques differ. More detail on Haitsma and Kalker’s, Avery Wang’s and Microsoft’s RARE algorithms are then presented. Next, the desired interface for advertisement identification Graphical User Interface (GUI) is presented. Different solution architectures for advertisement identification are discussed. A design is presented and implemented which focuses on advertisement identification and helps with the validation process of the algorithm. The implementation is followed by the experimental setup and tests. Finally, the dissertation ends with results and comparisons, which verified and validated the algorithm and thus affirmed the first part of the research question. A short summary of the contribution made in the dissertation is given, followed by conclusions and recommendations for future work. / Thesis (M.Ing. (Computer and Electronical Engineering))--North-West University, Potchefstroom Campus, 2012.

Page generated in 0.1308 seconds