Оцифровка книг

Материал из Seo Wiki - Поисковая Оптимизация и Программирование
Перейти к навигацииПерейти к поиску
Файл:Kirtas APT BookScan 1200 - 01.jpg
Сверхпроизводительный сканер APT BookScan

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети.

Методика оцифровки

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
  2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением формата DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

Книжные сканеры

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 Мпикс.). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).

Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 стр./ч, у лучших моделей — до 2500—3000 стр./ч.

Крупные проекты по оцифровке книг

В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищённые авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:

Оцифровка по желанию

Ряд крупных библиотек предоставляют особые услуги по оцифровке публикаций из своих фондов по желанию читателей. Основные критерии: публикации должны находиться в общественном достоянии и должны быть в достаточной сохранности. Таким образом, появляется источник финансирования процесса оцифровки или же устанавливаются приоритеты при массовой оцифровке. Как правило, отметка о возможности сканирования интегрирована в библиотечный каталог, оцифрованная публикация размещается в электронной библиотеке для всеобщего доступа.

Существующие проекты

  • Scan-on-demand (Сканирование по требованию) — бесплатный проект от openlibrary.org, любой желающий может выбрать книгу из списка (фонды Бостонской общественной библиотеки) который содержит большое количество литературы XIX—XX вв на русском языке. Оцифровка проводится средствами некоммерческой организации Архив Интернета. Сроки работ заявлены как 5—8 рабочих дней. На сайте openlibrary.org собрано уже более миллиона оцифрованных публикаций.[1]
  • DigiWunschbuch — проект Центра оцифровки и Университетской государственной библиотеки Гёттингена (Германия), сканирование за плату (рассчитывается постранично) заказчик получает цифровую копию на СD-ROMе, кроме того, его имя будет размещено на шмуцтитуле цифровой копии размещённой в открытом доступе.[2]
  • Recordmanage — Центр сканирования документов "Скансет". Отечественный коммерческий проект по оцифровке книг и документов по запросам пользователей. Сроки и стоимость работ зависят от объемов и загрузки центра сканирования

Примечания


de:Buchscanner en:Book scanning zh:圖書掃描

Если вам нравится SbUP.com Сайт, вы можете поддержать его - BTC: bc1qppjcl3c2cyjazy6lepmrv3fh6ke9mxs7zpfky0 , TRC20 и ещё....