DjVu (Вимовляється «Дежавю», від фр. Deja vu - дежавю - вже бачене) - технологія стиснення зображень з втратами, розроблена спеціально для зберігання відсканованих документів - книг, журналів, рукописів та ін., Де велика кількість формул, схем, малюнків і рукописних символів робить надзвичайно трудомістким їх повноцінне розпізнавання. Також є ефективним рішенням, якщо необхідно передати всі нюанси оформлення, наприклад, історичних документів де важливе значення має не тільки зміст, а колір і фактура папери- дефекти пергаменту: тріщини, сліди від складиванія- виправлення, плями, відбитки пальців-сліди, залишені іншими предметами.
DjVu став основою для декількох бібліотек наукових книг, правомірність існування деяких з них, втім, викликає сумніви з точки зору законів про авторські права. Величезна кількість книг в цьому форматі доступно у файлообмінних мережах.
Формат оптимізований для передачі по мережі таким чином, що сторінку можна переглядати ще до завершення скачування. DjVu-файл може містити текстовий (OCR) шар, що дозволяє здійснювати повнотекстовий пошук по файлу. Крім того, DjVu-файл може містити вбудоване інтерактивне зміст і активні області - посилання, що дозволяє реалізовувати зручну навігацію в DjVu-книгах.
Використовувані технології
Для стиснення кольорових зображень в DjVu застосовується спеціальна технологія, що розділяє вихідне зображення на три шари: передній план, задній план і чорно-білу (однобітових) маску. Маска зберігається з дозволом вихідного файлу-саме вона містить зображення тексту та інші чіткі деталі. Дозвіл заднього плану, в якому залишаються ілюстрації та текстура сторінки, знижується для економії місця. Передній план містить кольорову інформацію про деталі, що не потрапили в задній план-його дозвіл знижується ще сильніше. Потім задній і передній плани стискаються за допомогою вейвлет-перетворення, а маска - алгоритмом JB2.
Особливістю алгоритму JB2 є те, що він шукає на сторінці повторювані символи і зберігає їх зображення тільки один раз. У багатосторінкових документах кожні кілька поспіль сторінок користуються спільним «словником» зображень.
Для стиснення більшості книг можна обійтися тільки двома кольорами. У цьому випадку використовується всього один шар, що дозволяє досягти рекордної ступеня стиснення. У типовій книзі з чорно-білими ілюстраціями, відсканованої з роздільною здатністю 600 dpi, середній розмір сторінки становить близько 15 Кб, тобто приблизно в 100 разів менше, ніж вихідний файл. Однак, при цьому не варто забувати, що в DjVu використовується стиснення даних з втратами. Для особливо важливих документів, можливо, буде розумніше використовувати більш «надійні» формати: PNG, JPEG 2000, TIFF і т.п. Виграш обсягу в цьому випадку складе всього 4-10 разів.
В основі формату DjVu лежать кілька технологій, розроблених в ATT Labs. Це:
- алгоритм відділення тексту від фону на відсканованому ізображеніі;
- вейвлетного алгоритм стиснення фону IW44;
- алгоритм стиснення чорно-білих зображень JB2;
- універсальний алгоритм стиснення ZP;
- алгоритм розпакування «за запитом» ;
- алгоритм «маскування» зображень;
Ліцензійна інформація
ATT продали технологію компанії LizardTech, яка намагається використати її для своїх комерційних інтересів, але, завдяки відкритості формату, для створення і перегляду документів DjVu існує вільне програмне забезпечення, доступне для різних платформ.
Джерело: ru.wikipedia.org/wiki/Djvu
Посилання:
- DJVU - формат для електронних бібліотек - алгоритми і гідності, програми та використання, керівництва користувача;
- DjVu: Короткий технічний введення - розповідь про формат та програмному забезпеченні DjVuLibre;
- Дежавю або DjVu - збірник статей про технології DjVu;
- Порівняння DjVu-кодерів - оцінка ступеня компресії безкоштовних програм для створення DjVu;
- DJVU-програми - колекція DjVu-програм.
- DjVu Бібліотеки - Бібліотеки книг і програми для роботи з форматом DjVu.