Global ETD Search

1	Automatic Recognition of Printed Music Score Tsai, Tzu-Wei 25 July 2004 (has links) Optical music recognition (OMR) allows pages of sheet music to be interpreted by a computer, and converted into a versatile machine-readable format. There are many advantages of such a system. For instance, a soloist could have the computer play an accompaniment for rehearsal; a user could build music database occupying less memory; or a musicologist could make an edition, modification, or print of the captured image. Typically, OCR techniques can not be used in music score recognition since music notation presents a two dimensional structure: in a staff the horizontal position denotes different duration for notes and the vertical position defines the height of the note. That the quality or the typesetting of a score is not the same, or some of the man-made factors make many related researches could not process flexibility, or could only recognize with restriction. The paper covers two fields of knowledge: one is image processing technology, mainly based on projection, which is employed to extract horizontal and vertical line to abridge the recognition field, and morphology, which recognize musical symbols. The other is music metric, which provides the help on the analysis, and corrects the errors after recognizing. This system divides into three phases. It starts with all the pre-processing that is needed to de-skew input image, which afford to staff line detection and removal. Then, the symbol recognition, detects the vertical and non-vertical line musical symbol respectively, which are combined into a notation to refine by metric. Finally, the results are stored in a musical representation language, which could be converted into the MIDI format and the music can be played on a MIDI synthesizer. The experiment shows this system could get a satisfied result successfully in short time, and there is no hard-and-fast claim for image resolution. Pattern Recognition Optical Music Recognition
2	End-to-end Optical Music Recognition Beyond Staff-Level Transcription Ríos-Vila, Antonio 04 July 2024 (has links) El Reconocimiento Óptico de Música (Optical Music Recognition, OMR) es un campo de investigación que estudia cómo leer computacionalmente la notación musical presente en documentos y almacenarla en un formato digital estructurado. Los enfoques tradicionales de OMR suelen estructurarse en torno a un proceso de varias etapas: (i) preprocesamiento de imágenes, donde se abordan cuestiones relacionadas con el proceso de escaneado y la calidad del papel, (ii) segmentación y clasificación de símbolos, donde se detectan y etiquetan los distintos elementos de la imagen, (iii) reconstrucción de la notación musical, una fase de postprocesamiento del proceso de reconocimiento, y (iv) codificación de resultados, donde los elementos reconocidos se almacenan en un formato simbólico adecuado. Estos sistemas logran tasas de reconocimiento competitivas a costa de utilizar determinadas heurísticas, adaptadas a los casos para los que fueron diseñados. En consecuencia, la escalabilidad se convierte en una limitación importante, ya que para cada colección o tipo notacional es necesario diseñar un nuevo conjunto de heurísticas. Además, otro inconveniente de estos enfoques tradicionales es la necesidad de un etiquetado detallado, a menudo obtenido manualmente. Dado que cada símbolo se reconoce individualmente, se requieren las posiciones exactas de cada uno de ellos, junto con sus correspondientes etiquetas musicales. La integración del Aprendizaje Profundo (Deep Learning, DL) en el campo del OMR ha marcado un punto de inflexión hacia la adopción de sistemas holísticos o de extremo a extremo. Estos sistemas, fundamentados en la inteligencia artificial y las redes neuronales profundas, abordan la segmentación y la clasificación de símbolos musicales como un proceso unificado, en lugar de fraccionarlo en múltiples etapas discretas. La metodología permite que el aprendizaje de la extracción de características y la clasificación se realice de manera simultánea, eliminando la necesidad de desarrollar y ajustar procedimientos específicos para cada tarea. La clave de este enfoque radica en el uso de conjuntos de datos compuestos por imágenes de partituras y sus transcripciones correspondientes, obviando la necesidad de marcar la posición exacta de cada símbolo. Así, el avance simplifica significativamente el proceso de transcripción musical, al permitir que las características relevantes para la clasificación sean aprendidas directamente de los datos, sin intervención manual detallada en el etiquetado de elementos individuales. El paradigma de procesamiento de extremo a extremo ha sido objeto de análisis en investigaciones recientes. Estos trabajos, si bien avanzan bajo la premisa de que una fase de preprocesamiento específica ya ha llevado a cabo la segmentación de los pentagramas en las partituras, centran su atención en a recuperación de secuencias de símbolos musicales a partir de imágenes de pentagramas. En este ámbito, las Redes Neuronales Convolucionales Recurrentes (CRNN) son la solución más popular. En estas, el componente convolucional se dedica a la extracción de características significativas de las imágenes, mientras que las capas recurrentes se encargan de interpretar estas características como secuencias de símbolos musicales. Los resultados actuales de OMR han demostrado una gran precisión para transcribir partituras musicales, incluso en los casos más complejos. Estos avances permiten el planteamiento de metas más ambiciosas. Una línea de trabajo destacable es la del OMR universal. Un sistema de transcripción universal de música es aquel capaz de transcribir el contenido de cualquier documento musical. Esto significa que, independientemente de las características y la notación de dicho documento, el modelo es capaz transcribir, en una notación adecuada, y generar la versión digital del mismo. El OMR universal es un modelo ideal por diversas razones. La primera es práctica, ya que facilita el trabajo de los usuarios finales, quienes precisan actualmente de herramientas específicas para cada tipo de partitura musical. La producción de un transcriptor universal permitiría juntar estos programas en herramientas genéricas capaces de cubrir todo el espectro de necesidades de los usuarios, lo cual reduce el coste de procesamiento y mantenimiento de los documentos musicales. Desde un punto de vista científico, esta técnica desbloquearía el potencial de los modelos basados en aprendizaje automático para leer e interpretar documentos musicales, ya que lo harían desde un conocimiento genérico. El logro permite abordar tareas más complejas que necesitan de esta información, pero van más allá de ella. Algunas de estas tareas serían la detección de patrones de autor, la estimación de la dificultad de una partitura o la clasificación por época. Sin embargo, el estado de la cuestión de OMR no es capaz de abordar tal objetivo todavía, debido a una serie de limitaciones. En esta tesis, se proponen trabajos que avanzan el estado de la cuestión de OMR hacia ese objetivo. En primer lugar, se proponen contribuciones para completar los sistemas de OMR, los cuales no son capaces de exportar sus resultados en formatos compatibles con las herramientas musicológicas más comunes. Una vez obtenido un sistema de OMR completo, se proponen trabajos para abordar los problemas de Aligned Music Notation & Lyrics Transcription y polifonía, los cuales son retos relevantes que la literatura no ha abordado (por dificultad). De esta forma, mediante adaptaciones de los sistemas actuales, se avanza el estado de la cuestión en estos temas. Finalmente, se abordan los sistemas libres de segmentación para transcribir páginas musicales, liberando así a los modelos OMR de su estructura secuencial de segmentación y transcripción. En concreto, las investigaciones se enfocan hacia el Sheet Music Transformer, un modelo de transcripción basado en tecnologías de vanguardia para obtener la transcripción de una partitura directamente desde la imagen de su página. / This paper is part of the project I+D+i PID2020-118447RA-I00 (MultiScore), funded by MCIN/AEI/10.13039/501100011033. The first author is supported by grants ACIF/2021/356 and CIBEFP/2022/19 from the “Programa I+D+i de la Generalitat Valenciana”. Deep Learning Optical Music Recognition
3	Writer Identification by a Combination of Graphical Features in the Framework of Old Handwritten Music Scores Fornés Bisquerra, Alicia 03 July 2009 (has links) No description available. Optical Music Recognition Graphics Recognition Writer Identification Tecnologies 519.1
4	The Effect of Free Movement on Preschool Students' Preference for and Recognition of Classical Music Knell, Emilee Keith 13 July 2010 (has links) (PDF) This study was conducted in order to examine two questions: 1) Does free movement while listening to classical music influence a preschooler's preference for the music?; and 2) Does free movement while listening to classical music influence a preschooler's ability to answer recognition questions relative to the music? Subjects (N = 34) were 4- to 5-year-old students from two intact classrooms at the BYU Child and Family Studies Laboratory Preschool. After being involved in six lessons utilizing two different classical pieces, each identified by a prominent instrument and experienced either Actively (with free movement) or Passively (while sitting or lying down), the students were interviewed relative to their music preferences and recognition. To strengthen the results, the process was repeated (termed Wave 1 and Wave 2) with different pieces in different experience orders. Results of a Chi-Squared test of independence indicated no effect for Active or Passive exposure on piece preference in either wave. However, in Wave 1, pieces experienced Passively were significantly preferred to those experienced Actively, while the reverse was true in Wave 2. The Active exposure had no significant effect on the overall accuracy of recognition responses. Observational data is also included, which corroborates and extends statistical results. preschool students music preference music recognition free movement Music
5	Musical Form Reconstruction in Printed and Handwritten Lead Sheets via Optical Recognition of Chord Symbols Janmohamed, Nashir A 01 January 2023 (has links) (PDF) Optical music recognition (OMR) is the field of study which seeks to use computer vision to extract musical information from images. Most OMR work focuses on music symbols (such as notes, time signatures, clefs, etc.); to date, only two prior works pay attention to chord symbols (shorthand notation commonly used in jazz and popular music lead sheets to describe the harmony of the music) in musical documents. Chord symbols lay the foundation for jazz improvisation - a sequence of chord symbols is repeated during the improvisatory section, and the soloist and accompaniment (primarily, though not exclusively) use the chord symbols to inform their choice of notes and rhythms. In order to enable downstream work on computer-based improvisation, this work seeks to identify chords and extract musical structure from images of lead sheets with chord symbols. We contribute two new datasets for the chord identification task; one of handwritten symbols collected from students at UCF, and the other of printed symbols, collected from five different real book documents. We also propose a baseline chord identification and localization technique, using an OMR + grammar + deep learning approach to identify chord symbols and their location in the musical document, and describe baseline results on the printed and handwritten datasets. We also describe an implementation of musical form reconstruction from a lead sheet image, as well as an evaluation approach using string similarity metrics. optical music recognition CV ML Computer Sciences Music
6	Contributions to Document Image Analysis: Application to Music Score Images Castellanos, Francisco J. 25 November 2022 (has links) Esta tesis contribuye en el límite del conocimiento en algunos procesos relevantes dentro del flujo de trabajo típico asociado a los sistemas de reconocimiento óptico de música (OMR). El análisis de los documentos es una etapa clave y temprana dentro de dicho flujo, cuyo objetivo es proporcionar una versión simplificada de la información entrante; es decir, de las imágenes de documentos musicales. El resto de procesos involucrados en OMR pueden aprovechar esta simplificación para resolver sus correspondientes tareas de forma más sencilla y centrándose únicamente en la información que necesitan. Un ejemplo claro es el proceso dedicado a reconocer las áreas donde se sitúan los diferentes pentagramas. Tras obtener las coordenadas de los mismos, los pentagramas individuales pueden ser procesados para recuperar la secuencia simbólica musical que contienen y así construir una versión digital de su contenido. El trabajo de investigación que se ha realizado para completar la presente tesis se encuentra avalada por una serie de contribuciones publicadas en revistas de alto impacto y congresos internacionales. Concretamente, esta tesis contiene un conjunto de 4 artículos que se han publicado en revistas indexadas en el Journal Citation Reports y situadas en los primeros cuartiles en cuanto al factor de impacto, teniendo un total de 58 citas según Google Scholar. También se han incluido 3 comunicaciones realizadas en diferentes ediciones de un congreso internacional de Clase A según la clasificación proporcionada por GII-GRIN-SCIE. Se puede observar que las publicaciones tratan temas muy relacionados entre sí, enfocándose principalmente en el análisis de documentos orientado a OMR pero con pinceladas de transcripción de la secuencia musical y técnicas de adaptación al dominio. También hay publicaciones que demuestran que algunas de estas técnicas pueden ser aplicadas a otros tipos de imágenes de documentos, haciendo que las soluciones propuestas sean más interesantes por su capacidad de generalización y adaptación a otros contextos. Además del análisis de documentos, también se estudia cómo afectan estos procesos a la transcripción final de la notación musical, que a fin de cuentas, es el objetivo final de los sistemas OMR, pero que hasta el momento no se había investigado. Por último, debido a la incontable cantidad de información que requieren las redes neuronales para construir un modelo suficientemente robusto, también se estudia el uso de técnicas de adaptación al dominio, con la esperanza de que su éxito abra las puertas a la futura aplicabilidad de los sistemas OMR en entornos reales. Esto es especialmente interesante en el contexto de OMR debido a la gran cantidad de documentos sin datos de referencia que son necesarios para entrenar modelos de redes neuronales, por lo que una solución que aproveche las limitadas colecciones etiquetadas para procesar documentos de otra índole nos permitiría un uso más práctico de estas herramientas de transcripción automáticas. Tras la realización de esta tesis, se observa que la investigación en OMR no ha llegado al límite que la tecnología puede alcanzar y todavía hay varias vías por las que continuar explorando. De hecho, gracias al trabajo realizado, se han abierto incluso nuevos horizontes que se podrían estudiar para que algún día estos sistemas puedan ser utilizados para digitalizar y transcribir de forma automática la herencia musical escrita o impresa a gran escala y en un tiempo razonable. Entre estas nuevas líneas de investigación, podemos destacar las siguientes: · En esta tesis se han publicado contribuciones que utilizan una técnica de adaptación al dominio para realizar análisis de documentos con buenos resultados. La exploración de nuevas técnicas de adaptación al dominio podría ser clave para construir modelos de redes neuronales robustos y sin la necesidad de etiquetar manualmente una parte de todas las obras musicales que se pretenden digitalizar. · La aplicación de las técnicas de adaptación al dominio en otros procesos como en la transcripción de la secuencia musical podría facilitar el entrenamiento de modelos capaces de realizar esta tarea. Los algoritmos de aprendizaje supervisado requieren que personal cualificado se encargue de transcribir manualmente una parte de las colecciones, pero los costes temporal y económico asociados a este proceso suponen un amplio esfuerzo si el objetivo final es transcribir todo este patrimonio cultural. Por ello, sería interesante estudiar la aplicabilidad de estas técnicas con el fin de reducir drásticamente esta necesidad. · Durante la tesis, se ha estudiado cómo afecta el factor de escala de los documentos en el rendimiento de varios procesos de OMR. Además de la escala, otro factor importante que se debe tratar es la orientación, ya que las imágenes de los documentos no siempre estarán perfectamente alineadas y pueden sufrir algún tipo de rotación o deformación que provoque errores en la detección de la información. Por lo tanto, sería interesante estudiar cómo afectan estas deformaciones a la transcripción y encontrar soluciones viables para el contexto que aplica. · Como caso general y más básico, se ha estudiado cómo, con diferentes modelos de propósito general de detección de objetos, se podrían extraer los pentagramas para su posterior procesamiento. Estos elementos se han considerado rectangulares y sin rotación, pero hay que tener en cuenta que no siempre nos encontraremos con esta situación. Por lo tanto, otra posible vía de investigación sería estudiar otros tipos de modelos que permitan detectar elementos poligonales y no solo rectangulares, así como la posibilidad de detectar objetos con cierta inclinación sin introducir solapamiento entre elementos consecutivos como ocurre en algunas herramientas de etiquetado manual como la utilizada en esta tesis para la obtención de datos etiquetados para experimentación: MuRET. Estas líneas de investigación son, a priori, factibles pero es necesario realizar un proceso de exploración con el fin de detectar aquellas técnicas útiles para ser adaptadas al ámbito de OMR. Los resultados obtenidos durante la tesis señalan que es posible que estas líneas puedan aportar nuevas contribuciones en este campo, y por ende, avanzar un paso más a la aplicación práctica y real de estos sistemas a gran escala. Optical Music Recognition Document Analysis Deep Learning Domain Adaptation
7	New Approaches to Optical Music Recognition Alfaro-Contreras, María 22 September 2023 (has links) El Reconocimiento Óptico de Música (Optical Music Recognition, OMR) es un campo de investigación que estudia cómo leer computacionalmente la notación musical presente en documentos y almacenarla en un formato digital estructurado. Los enfoques tradicionales de OMR suelen estructurarse en torno a un proceso de varias etapas: (i) preprocesamiento de imágenes, donde se abordan cuestiones relacionadas con el proceso de escaneado y la calidad del papel, (ii) segmentación y clasificación de símbolos, donde se detectan y etiquetan los distintos elementos de la imagen, (iii) reconstrucción de la notación musical, una fase de postprocesamiento del proceso de reconocimiento, y (iv) codificación de resultados, donde los elementos reconocidos se almacenan en un formato simbólico adecuado. Estos sistemas logran tasas de reconocimiento competitivas a costa de utilizar determinadas heurísticas, adaptadas a los casos para los que fueron diseñados. En consecuencia, la escalabilidad se convierte en una limitación importante, ya que para cada colección o tipo notacional es necesario diseñar un nuevo conjunto de heurísticas. Además, otro inconveniente de estos enfoques tradicionales es la necesidad de un etiquetado detallado, a menudo obtenido manualmente. Dado que cada símbolo se reconoce individualmente, se requieren las posiciones exactas de cada uno de ellos, junto con sus correspondientes etiquetas musicales. Los enfoques tradicionales de OMR suelen estructurarse en torno a un proceso de varias etapas: (i) preprocesamiento de imágenes, donde se abordan cuestiones relacionadas con el proceso de escaneado y la calidad del papel, (ii) segmentación y clasificación de símbolos, donde se detectan y etiquetan los distintos elementos de la imagen, (iii) reconstrucción de la notación musical, una fase de postprocesamiento del proceso de reconocimiento, y (iv) codificación de resultados, donde los elementos reconocidos se almacenan en un formato simbólico adecuado. Estos sistemas logran tasas de reconocimiento competitivas a costa de utilizar determinadas heurísticas, adaptadas a los casos para los que fueron diseñados. En consecuencia, la escalabilidad se convierte en una limitación importante, ya que para cada colección o tipo notacional es necesario diseñar un nuevo conjunto de heurísticas. Además, otro inconveniente de estos enfoques tradicionales es la necesidad de un etiquetado detallado, a menudo obtenido manualmente. Dado que cada símbolo se reconoce individualmente, se requieren las posiciones exactas de cada uno de ellos, junto con sus correspondientes etiquetas musicales. La incorporación del Aprendizaje Profundo (Deep Learning, DL) en el OMR ha producido un cambio hacia el uso de sistemas holísticos o de extremo a extremo basados en redes neuronales para la etapa de segmentación y clasificación de símbolos, tratando el proceso de reconocimiento como un único paso en lugar de dividirlo en distintas subtareas. Al aprender simultáneamente los procesos de extracción de características y clasificación, estas soluciones eliminan la necesidad de diseñar procesos específicos para cada caso: las características necesarias para la clasificación se infieren directamente de los datos. Para lograrlo, solo son necesarios pares de entrenamiento formados por la imagen de entrada y su correspondiente transcripción. En otras palabras, este enfoque evita la necesidad de anotar las posiciones exactas de los símbolos, lo que simplifica aún más el proceso de transcripción. El enfoque de extremo a extremo ha sido recientemente explorado en la literatura, pero siempre bajo la suposición de que un determinado preproceso ya ha segmentado los diferentes pentagramas de una partitura. El objetivo es, por tanto, recuperar la serie de símbolos musicales que aparecen en una imagen de un pentagrama. En este contexto, las Redes Neuronales Convolucionales Recurrentes (Convolutional Recurrent Neural Networks, CRNN) representan el estado del arte: el bloque convolucional se encarga de extraer características relevantes de la imagen de entrada, mientras que las capas recurrentes interpretan estas características en términos de secuencias de símbolos musicales. Las CRNN se entrenan principalmente utilizando la función de pérdida de Clasificación Temporal Conexionista (Connectionist Temporal Classification, CTC), la cual permite el entrenamiento sin requerir información explícita sobre la ubicación de los símbolos en la imagen. Para la etapa de inferencia, generalmente se emplea una política de decodificación voraz, es decir, se recupera la secuencia de mayor probabilidad. Esta tesis presenta una serie de contribuciones, organizadas en tres grupos distintos pero interconectados, que avanzan en el desarrollo de sistemas de OMR a nivel de pentagrama más robustos y generalizables. El primer grupo de contribuciones se centra en la reducción del esfuerzo humano al utilizar sistemas de OMR. Se comparan los tiempos de transcripción con y sin la ayuda de un sistema de OMR, observando que su uso acelera el proceso, aunque requiere una cantidad suficiente de datos etiquetados, lo cual implica un esfuerzo humano. Por lo tanto, se propone utilizar técnicas de Aprendizaje Auto- Supervisado (Self-Supervised Learning, SSL) para preentrenar un clasificador de símbolos, logrando una precisión superior al 80% al utilizar solo un ejemplo por clase en el entrenamiento. Este clasificador de símbolos puede acelerar el proceso de etiquetado de datos. El segundo grupo de contribuciones mejora el rendimiento de los sistemas de OMR de dos maneras. Por un lado, se propone una codificación musical que permite reconocer música monofónica y homofónica. Por otro lado, se mejora el rendimiento de los sistemas mediante el uso de la bidimensionalidad de la representación agnóstica, introduciendo tres cambios en el enfoque estándar: (i) una nueva arquitectura que incluye ramas específicas para captura características relacionadas con la forma (duración del evento) o la altura (tono) de los símbolos musicales, (ii) el uso de una representación de secuencia dividida, que requiere que el modelo prediga los atributos de forma y altura de manera secuencial, y (iii) un algoritmo de decodificación voraz personalizado que garantiza que la representación mencionada se cumple en la secuencia predicha. El tercer y último grupo de contribuciones explora las sinergias entre OMR y su equivalente en audio, la Transcripción Automática de Música (Automatic Music Transcription, AMT). Estas contribuciones confirman la existencia de sinergias entre ambos campos y evalúan distintos enfoques de fusión tardía para la transcripción multimodal, lo que se traduce en mejoras significativas en la precisión de la transcripción. Por último, la tesis concluye comparando los enfoques de fusión temprana y fusión tardía, y afirma que la fusión tardía ofrece más flexibilidad y mejor rendimiento. / Esta tesis ha sido financiada por el Ministerio de Universidades a través del programa de ayudas para la formación de profesorado universitario (Ref. FPU19/04957). Deep Learning Optical Music Recognition Automatic Music Transcription
8	Optical Music Recognition in der Bayerischen Staatsbibliothek Diet, Jürgen 03 December 2019 (has links) Die Bayerische Staatsbibliothek hat im Sommer 2016 ein Projekt zur automatischen Notenerkennung (Optical Music Recognition, OMR) gestartet. Dieser Beitrag beschreibt zunächst die Funktionsweise und die Qualität von OMR-Programmen und geht dann auf die bisherigen Erfahrungen der Bayerischen Staatsbibliothek mit OMR ein. Anschließend werden die Anwendungsszenarien skizziert, die die Bayerische Staatsbibliothek aufsetzend auf den OMR-Daten entwickeln wird. / During summer 2016, the Bavarian State Library has started a project on optical music recognition (OMR). This paper describes the functionality and quality of OMR programs at first and then depicts the OMR-experiences of the Bavarian State Library. Finally, the use case scenarios are outlined that the Bavarian State Library will implement on top of the OMR data. Optical music recognition, melody search info:eu-repo/classification/ddc/780 ddc:780
9	Talker Discrimination, Emotion Identification, and Melody Recognition by Young Children with Bilateral Cochlear Implants Volkova, Anna 26 March 2012 (has links) Users of cochlear implants typically have difficulty differentiating talkers, identifying vocal expressions of emotion, and recognizing familiar melodies because of the degraded spectral cues provided by conventional implants. This thesis examined these abilities in a small, relatively privileged sample of young bilateral implant users. In Study 1 child implant users and a control sample of hearing children were required to judge whether various utterances were produced by a man, woman, or girl (Experiment 1) and to identify the voices of cartoon characters from familiar television programs (Experiment 2). Child implant users’ performance on talker classification was comparable to that of hearing children. Their identification of cartoon characters’ voices was less accurate than that of hearing children but well above chance levels. These findings challenge conventional wisdom about the talker identification difficulties of implant users. In Study 2 the children were required to indicate whether semantically neutral utterances (Experiment 1) or classical piano excerpts (Experiment 2) sounded “happy” or “sad”. In both cases, implant users performed less accurately than hearing children but well above chance levels. Although the findings on emotion recognition in music are in line with those of previous research, the findings on emotion in speech are at odds with claims that young implant users are insensitive to vocal affect. In Study 3 the children were required to identify the theme songs from familiar television programs on the basis of combined timing and pitch cues as well as timing or pitch cues alone. Implant users’ performance was comparable to that of hearing children except when the cues were restricted to pitch relations, which resulted in performance at chance levels. The findings suggest that the musical representations of young implanted listeners include precise information about timing and coarser information about pitch. They also demonstrate, for the first time, that children, both implant users and those with normal hearing, can identify familiar music on the basis of timing cues alone. Overall, the findings highlight the importance of timing cues for implant users, the range of individual differences, and habilitation possibilities for the recognition of talkers, emotion, and music. cochlear implants talker discrimination emotion identification music recognition 0633 0620 0623
10	Comparison of two audio fingerprinting algorithms for advertisement identification / van Nieuwenhuizen H.A. Van Nieuwenhuizen, Heinrich Abrie January 2011 (has links) Although the identification of humans by fingerprints is a well–known technique in practice, the identification of an audio sample by means of a technique called audio fingerprinting is still under development. Audio fingerprinting can be used to identify different types of audio samples of which music and advertisements are the two most frequently encountered. Different audio fingerprinting techniques to identify audio samples appear seldom in the literature and direct comparisons of the techniques are not always available In this dissertation, the two audio fingerprinting techniques of Avery Wang and Haitsma and Kalker are compared in terms of accuracy, speed, versatility and scalability, with the goal of modifying the algorithms for optimal advertisement identification applications. To start the background of audio fingerprinting is summarised and different algorithms for audio fingerprinting are reviewed. Problems, issues to be addressed and research methodology are discussed. The research question is formulated as follows : “Can audio fingerprinting be applied successfully to advertisement monitoring, and if so, which existing audio fingerprinting algorithm is most suitable as a basis for a generic algorithm and how should the original algorithm be changed for this purpose?” The research question is followed by literature regarding the background of audio fingerprinting and different audio fingerprinting algorithms. Next, the importance of audio fingerprinting in the engineering field is motivated by the technical aspects related to audio fingerprinting. The technical aspects are not always necessary or part of the algorithm, but in most cases, the algorithms are pre–processed, filtered and downsampled. Other aspects include identifying unique features and storing them, on which each algorithm’s techniques differ. More detail on Haitsma and Kalker’s, Avery Wang’s and Microsoft’s RARE algorithms are then presented. Next, the desired interface for advertisement identification Graphical User Interface (GUI) is presented. Different solution architectures for advertisement identification are discussed. A design is presented and implemented which focuses on advertisement identification and helps with the validation process of the algorithm. The implementation is followed by the experimental setup and tests. Finally, the dissertation ends with results and comparisons, which verified and validated the algorithm and thus affirmed the first part of the research question. A short summary of the contribution made in the dissertation is given, followed by conclusions and recommendations for future work. / Thesis (M.Ing. (Computer and Electronical Engineering))--North-West University, Potchefstroom Campus, 2012. Audio fingerprinting Automatic music recognition Content-based audio identification Perceptual hashing Robust Matching

Search results