Началось бета-тестирование проекта , в рамках которого подготовлен основанный на Knoppix LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов. Контроль за прогрессом выполнения операций и настройка параметров дистрибутива осуществляется через web-интерфейс. Размер 654 Мб.
Дистрибутив очень прост в настройке и позволяет с минимальными усилиями (достаточно просто загрузить диск и настроить сетевое соединение) создать сервер, преобразующий PDF с изображениями отсканированных страниц в PDF с данными в текстовом представлении, для которых можно выполнять операции поиска внутри документа. После загрузки в web-интерфейсе определяются две директории - одна для входящих и одна для преобразованных документов. Вместо локальных директорий поддерживается монтирование удаленных Windows ресурсов. Пользователю достаточно скопировать PDF или изображение во входящую директорию, после чего дистрибутив проведет распознавание и поместит документ с распознанным текстом во вторую директорию.
Для распознавания в дистрибутиве используется OCR , для разбора и формирования PDF - , для навигации по сетевым SMB-разделам - . Для совмещения OCR, инструментов для работы с PDF и общей организации процесса обработки задействован собственный набор скриптов, который, наряду с кодом web-интерфейса, распространяется в рамках лицензии GPL.