Global ETD Search

Return to search

Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres

Los sistemas de corrección usan como principio la lingüística computacional. En este contexto, un computador realiza un análisis ortográfico de los caracteres reconocidos por un OCR (Optical Chapter Recognition). Un OCR es un software que extraen de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto.
El rendimiento de los sistemas de reconocimiento de caracteres es bajo cuando se trata de digitalizar documentos deteriorados debido a las manchas y otros factores que evitan que se reconozcan las palabras del texto original. Antes este problema, lo que se propone en esta tesis es la implementación de un sistema de corrección ortográfica a la salida del OCR, que permitirá mejorar su eficiencia al momento de reconocimiento del caracteres. De esta manera la digitalización de los documentos históricos podrá garantizar una calidad óptima.
El sistema de corrección de ortográfica se basa en la búsqueda de patrones dentro de un texto. Esta búsqueda trata de encontrar todas las coincidencias de un patrón dentro de un texto, teniendo en consideración que la coincidencia de patrón con el texto puede tener un número limitado de diferencias. Este problema tiene aplicaciones en recuperación de información, biología computacional y procesamiento de señales, entre otras.
Como conclusión principal se obtiene que con el modelo de corrección basado en la búsqueda de patrones se alcanza un rendimiento de 80%, además el tiempo de procesamiento requerido para analizar una palabra es de tan solo 0.1seg lo cual refleja un alto rendimiento. Con esto, podemos concluir también que la metodología desarrollada para realizar la corrección de las palabras es una buena opción para este objetivo. / Tesis

http://tesis.pucp.edu.pe/repositorio/handle/123456789/1089

Digitalización

Lingüística computacional

Procesamiento de imágenes digitales

Sistemas de reconocimiento de patrones

Identifer	oai:union.ndltd.org:PUCP/oai:tesis.pucp.edu.pe:123456789/1089
Date	02 December 2011
Creators	Salas Damián, Roberto Carlos
Publisher	Pontificia Universidad Católica del Perú
Source Sets	Pontificia Universidad Católica del Perú
Language	Spanish
Detected Language	Spanish
Type	info:eu-repo/semantics/bachelorThesis
Format	application/pdf
Source	Pontificia Universidad Católica del Perú, Repositorio de Tesis - PUCP
Rights	Atribución-NoComercial-SinDerivadas 2.5 Perú, info:eu-repo/semantics/openAccess, http://creativecommons.org/licenses/by-nc-nd/2.5/pe/

Page generated in 0.0026 seconds

Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres

Description

Links & Downloads

Tags

Additional Fields