Una de las cosas que a menudo me ha frustrado es la incapacidad de copiar fácilmente texto de imágenes y ciertos archivos PDF (por ejemplo, aquellos que pueden haberse creado a partir de documentos escaneados). Afortunadamente, con el tiempo se han desarrollado soluciones de software para abordar este problema, lo que permite un ahorro de tiempo significativo que de otra manera se hubiera gastado en copiar y volver a escribir el texto manualmente. En el consejo de hoy, voy a hablar sobre una herramienta de software gratuita llamada Capture2Text que utiliza un algoritmo de reconocimiento óptico de caracteres (OCR) que le permitirá capturar texto de imágenes y archivos PDF.
Instalación y configuración
Para comenzar, dirígete a la página de SourceForge del proyecto y descarga la última versión de Capture2Text. El software viene como un archivo zip y en ese momento no incluye un instalador dedicado. Una vez descargado, descomprima el archivo e inicie el archivo Capture2Text.exe. Esto iniciará el software y colocará un ícono en la bandeja del sistema:
Primero, lo que querrá hacer es configurar las preferencias del software, específicamente qué teclas de acceso rápido (o accesos directos) usar para iniciar y detener la captura:
En mi caso, elegí usar las teclas "Windows + q" para iniciar la captura y la tecla "Enter" para detenerla. Puede ajustar estas opciones a lo que funcione mejor para usted. Tenga en cuenta que la tecla "Windows + s" ya se usa a menudo para la captura de pantalla (por ejemplo, en programas como Microsoft One Note).
En la siguiente pestaña, se pueden configurar las opciones de OCR, incluido el idioma de entrada (actualmente se admiten siete idiomas) y si se debe utilizar el procesamiento previo de OCR para mejorar la precisión (muy recomendable). Finalmente, en la pestaña Salida, entre otras opciones, se puede elegir entre guardar el texto capturado en el portapapeles o iniciar una ventana emergente separada.
Usando el software
Una vez que el software está instalado y configurado, puede comenzar a usarlo a través de su combinación de teclas de inicio rápido de captura. Con el mouse, seleccione el área de la imagen que incluye el texto que desea capturar. Para detener la captura, simplemente presione la tecla de acceso rápido que ha elegido para detener la captura. El texto se copiará en el portapapeles, en una ventana emergente de salida o en ambos. Un ejemplo se puede ver a continuación.
De mi prueba rápida de la herramienta con imágenes, he encontrado que su precisión es decente. Obviamente, existen limitaciones para herramientas como esta y OCR en general. Por ejemplo, el texto muy modificado (muy cursiva, en cursiva o moderno) puede no funcionar tan bien y, a veces, en absoluto. Además, en algunos casos ayudará a ajustar ligeramente las dimensiones del cuadro de captura o jugar con el zoom en la imagen para obtener un resultado más preciso.
Al capturar texto de documentos PDF escaneados, la precisión es correcta, con algunas modificaciones finales generalmente necesarias en la salida capturada (dependiendo de la calidad del escaneo inicial). Además, he notado que el software puede tardar unos segundos más en procesarse, especialmente cuando se le pide que convierta grandes cantidades de texto.
Dicho todo esto, en general creo que la herramienta hace un buen trabajo, especialmente porque está disponible de forma gratuita. Le animo a que la pruebe.
Anexo 16/11/2015:
Como otra opción, para aquellos que tienen cuentas de Google, también es posible usar las capacidades de OCR de Google cargando un archivo en su Google Drive (puede encontrar más detalles aquí). Además, también hay un complemento de OCR disponible para usuarios de Google Chrome llamado Copyfish que también puede consultar.
