Книги Osprey (военная тематика). Часть 3

Status
Not open for further replies.

derbenat

Member
Joined
Mar 3, 2004
Messages
339
Reaction score
271
Alex84 said:
Камрады. я тут решился распознанием книг заняться, подскажите настройки в ABBYY FineReader (версия №8).А то качество каринок на выходе осталяет желать много лучшего.

Приехал из очередной командировки в г. Кириллов. Участвую там в реставрации церкви Введения в Кирилло-Белозерском монастыре (XIV-XV в.в.). Правда занимаюсь инженерными системами. Но в таком деле участвую впервые, поэтому очень был поражен, как увиденным (сделал много фотографий), так и отношением к нашим памятникам (в хорошем смысле). Хоть и не в тему, но очень захотелось поделиться (или повыпендриваться?).

А теперь к делу. Прочитал, что есть желающие присоединиться к славному делу по распознаванию документов и начал писать инструкцию. Она не является абсолютом, так что дополнения приветствуются. Тем более, что здесь предлагается быстрый вариант обработки.

Весь процесс можно разбить на несколько этапов:
1. Подгонка размера страницы.
2. Само распознавание.
3. Вычитка и корректировка распознанного.

Испорльзуемые мной программы:
1. Corel Photo Paint 12 (на мой взгляд он более удобен)
2. Adobe Acrobat 7 (не Reader)
3. FineReader 8

Начнем с первого.

В первую очередь нам надо извлечь страницы документа в виде картинок. Это делается только для обработки страниц (FineReader может читать и PDF).
Извлекать надо через Advanced --> Export All Images. При этом устанавливаем разрешение для извлекаемых картинок 300 пикселей. Давим ОК и ждем окончания извлечения.
Запускаем Corel и открываем в нем извлеченные картинки пакетом (сразу все). Для каждой картинки смотрим два параметра: разрешение (акробат не всегда дает заданные 300 пикселей) и размер картинки в миллиметрах (сантиметрах), а не в пикселях. Все картинки надо переделать под размер бумаги. Я пользуюсь Letter (215,9 х 279,4 мм), так как А4 более вытянут по вертикали. Вообще то реальный размер побольше Letter и поменьше А4, но ближе к первому.
Здесь надо смотреть на наличие полей (часто их отрезают полностью). Если поля нас удовлетворяют, то оставляем полный размер бумаги. Если обрезаны полностью, то уменьшаем размер на величину полей, по 20 пикселей на каждое поле. То есть размер становится 175 (180) х 240 (250). Можно поля добавлять и в графическом редакторе, но я, чтобы не делать лишних операций, оставляю это для FineReader'а. Для обложек однозначно ставим полный размер бумаги.
Кроме того, смотрим насколько светлые картинки. При распознавании они побледнеют еще сильнее. Поэтому я их затемняю. Здесь ориентируюсь только на картинки.
В Corel'е это делается через Image --> Ajust --> Brightness/Contrast/Intensity. Можно порекомендовать ставить от -5 до -15 для Brightness (яркость) и +5 - +15 для Contrast (баланс белого и черного), но лучше затемнять по максимуму пока не начнут появляться абсолютно черные зоны на картинках, их допускать нельзя. Иногда это не совсем получается, так как сам исходник бывает испорчен по балансам.
Проделываем это все с каждой картинкой. При определенном навыке уходит около 15 минут на 64 страницы.
 

derbenat

Member
Joined
Mar 3, 2004
Messages
339
Reaction score
271
Продолжение

Следующий этап

Перед началом распознавания настраиваем FineReader.
Шлепаем по треугольничку сбоку от кнопки "Открыть" и потом давим на строчку "Опции". Там можно выбрать интерфейс настройки сканера. У меня переключения интерфейса не получалось (было неактивно) пока я не включил сканер. После этого я выбрал драйвер сканера, а интерфейс переключил на "Использовать интерфейс ABBYY FineReader". После этого нажимаем "Настройки сканера". Здесь выбираем: Источник бумаги - "Letter", Режим сканирования картинок - "Цветное изображение", Разрешение - 200 пикселей при отсутствии мелкого шрифта и хорошем качестве (не размытом) общего шрифта, иначе надо ставить не менее 300 пикселей, но при этом увеличится "вес" картинок, а отсюда и книжки в Мб, хотя это потом может ужаться при конвертировании в PDF.
Иногда FineReader дает сбой. Если мы картинки уменьшили (например до 175 х 240), надеясь что поля добавит FineReader, так как задаем больший размер страницы, то он может наплевать на наши надежды и полей не добавить. Поэтому, может быть, лучше добавлять их в графическом редакторе. Я пока с этим не определился.
После этого открываем папку с картинками и пакетом открываем их в FineReader'е.
 

derbenat

Member
Joined
Mar 3, 2004
Messages
339
Reaction score
271
Окончание

Распознавание и корректировка

Начинается основная работа. Говорить о том, как проделывается вычитка, думаю нет надобности. Поэтому только перечислю ошибки FineReader'а на которые надо обратить внимание.
1. Размер шрифта должен быть одинаковым для одинаковых разделов. Например, для основного текста Times New Roman - 11 пт, для подписей к картинкам Times New Roman - 8-9 пт, полужирный. Правда с нечетными размерами шрифта FineReader может производить "свои" операции - "ожирнять" простой текст (он становится, как бы на четверть жирным). Поэтому можно переделывать шрифт (если завысить величину полей, он таким будет изначально), основной - 10 пт, подписи к картинкам - 8 пт, но текст становится немного растянутым.
2. Номера страниц. Их, обычно надо распознавать дополнительно. Для этого в верхнем левом (или нижнем) окне вокруг номера страницы рисуете курсором (при нажатой левой кнопке мыши) квадратик, щелкаете по нему правой кнопкой и выбираете - распознать. Если FineReader не хочет распознавать, то выбираете тип объекта распознавания - текст, и повторяете операцию.
3. Иногда FineReader пропускает картинки. Тогда обведите картинку тем же квадратиком и определяете ее тип как картинку. При наличии какого-либо текста, она сразу появляется в правом верхнем окне. Если текста нет, то назначьте какой-нибудь участок текстом, распознайте его, и если там будут даже каракули, картинка появится. Потом удалите блок с текстом - картинка останется.
4. Там где имеется фигурное обтекание картинки текстом, FineReader часто подрезает участки картинки, и приходится резать линии ограничивающие зону распознавания, чтобы подвинуть их. Для этого наведите курсор на точку, в которой будете резать линию, нажмите Shift, появится крестик, тогда щелкните левой кнопкой мыши. На линии появится квадратик разрыва. После передвигания линия не забудьте распознать зону с текстом заново. Результаты переиодически можно проверять конвертируя страницу в PDF.
5. Иногда текст в верхнем правом окне выходит за пределы зоны распознавания. Это не обязательно ведет к тому, что в PDF'е строка будет высовываться. Небольшой выход допускается и FineReader засунет ее как надо (проверьте конвертацией в PDF). Если выход слишком большой, то выделите всю строку, щелкните по выделенному правой кнопкой и нажмите "свойства символа". Там измените масштаб шрифта (можно набить любое значение вручную, а не выбирать фиксированное) и щелкните по окошку с размером шрифта. После этого закройте "свойства символа". Только не уменьшайте интервал, это часто не действует.
6. Большую сложность вызывают развороты страниц. В этом случае приходится делать дубликат пакета. В первом сохраняю те страницы, которые напрямую конвертируются в PDF, а во втором оставляю страницы, которые конвертирую в MS Word, там обрабатываю, чтобы не было полей в месте соединения страниц, конвертирую в PDF, а потом добавляю в первую часть. Если их оставить в первом пакете, то потом придется эти страницы удалять, но их след вызовет увеличение конечного PDF'а. Имеются более сложные варианты, из-за недостатков Word'a, но я пока ими не занимался.
7. Проходим по всем картинкам. Шлепаем по ним правой кнопкой и в строчке "цветность картинок" выбираем "серая (для фотографий)" - для черно-белых картинок, и "цветная (для фотографий)" - для цветных. Для черно-белых картинок это делается обязательно.

В принципе вся книга готовится прямо в FineReader'е. Затраченное время определяется качеством исходника. При очень хорошем качестве, текст практически не требует вычитки. Но в FineReader'е возможна пакетная замена ошибок, для этого надо выбрать "Заменить" в разделе "Правка".

Настройки для конвертации в PDF я объяснять не буду. Все увидите сами по размерам выходного файла. Единственное - не забудьте выставить тот размер листа, который был заложен в опциях на открытие в FineReader'e.

Если чего пропустил, прошу сообщить.
 
Last edited by a moderator:

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Я всё же предпочитай шрифт 12пт, его читать поприятнее на бумаге. Но мой метод переделки вручную гробит по неделе на книгу, так что....

Вот пример того как я оформляю книжку.
http://rapidshare.de/files/9607382/example.rar.html - 6 Мб,

Исходник целиком весит 40 мб, после печатив ПДФ получается где-то 6-7 мб

Распознавал в FineReader (я переделывал Kalka River, не то что выбрал как пример). Картинки выдирал Photoshop'ом, т.к. часто их приходилось слегка поворачивать.
 

derbenat

Member
Joined
Mar 3, 2004
Messages
339
Reaction score
271
Msha said:
Я всё же предпочитай шрифт 12пт, его читать поприятнее на бумаге. Но мой метод переделки вручную гробит по неделе на книгу, так что....

Я тоже делал некоторые книги со шрифтом на 12 пт, но здесь надо поиграть с полями, чтобы определить при каких размерах полей он получается автоматически.
 
Last edited by a moderator:

derbenat

Member
Joined
Mar 3, 2004
Messages
339
Reaction score
271
Еще книги в OCR варианте

Men-at-Arms 046 - Roman Army From Caesar To Trajan

http://www.t-syst.ru/MAAS_046.rar

Men-at-Arms 083 - Napolean's Guard Cavalry

http://www.t-syst.ru/MAAS_083.rar

Men-at-Arms 188 - Polish Armies 1569-1696 (2)

http://www.t-syst.ru/MAAS_188.rar

Men-at-Arms 301 - Boer Wars (1) 1836–98

http://www.t-syst.ru/MAAS_301.rar

Warrior 043 - Matchlock Musketeer

http://www.t-syst.ru/WS_043_Matchlock Musketeer 1588-1688 ocr.rar

Warrior 049 - Landsknecht Soldier 1486–1560

http://www.t-syst.ru/WS_049.rar

Campaign 037 - Boston 1775. shot heard around world

http://www.t-syst.ru/CS_037_Boston 1775.rar

Elite 001 - Paras - British Airborne Forces 1940-1984

http://www.t-syst.ru/ES_001_Paras British Airborne Forces 1940-1984.rar

Men-at-Arms 085 - Saxons, Vikings and Normans

http://www.t-syst.ru/MAAS_085_Saxon, Viking and Norman.rar

Men-at-Arms 104 - Armies Of Vietnam War 1962-1975

http://www.t-syst.ru/MAAS_104_Armies of the Vietnam War 1962-75.rar

Men-at-Arms 136 - Italian Medieval Armies 1300-1500

http://www.t-syst.ru/MAAS_136.rar

Последние 5 книг я скачал в осле, так что за качество не ругайтесь. Особенно за Бостон.
 

Frodo Torbins

Member
Joined
Nov 14, 2004
Messages
438
Reaction score
684
Age
43
Location
Москва
300 годков (постов) еще немного и догоню Питер.

Это мой 300-сотый пост. А вроде бы недавно так все началось на форуме. Юбилей нах.

Campaign 028

New Orleans 1815
Andrew Jackson Crushes the British


P3605AL.JPG


Author: Tim Pickles

Paperback; January 27 1994; 96 pages; ISBN: 1855323605

Description: The conflict that broke out in 1812 seemed born of an almost subconscious desire for a war to complete the separation of America from England begun by the War of Independence. The war when it came was bloody and hard fought. In one last attempt to break the deadlock the British sent Major-General Sir Edward Pakenham to capture New Orleans. The troops he commanded were elite, veteran regiments. Andrew Jackson, leading the defenders, commanded a mixed force including militia, free Negro battalions, Indians and a group of local pirates. This title describes how this mixed force decisively defeated the British veterans in a battle that has become part of American legend.

Size: 49,2 Mb

Link: http://www.filepost.ru/?act=save&id=722a4ac3afb0cc7278192479744e1b1d&limit=1&file=http://localhost/Osprey%20-%20Campaign%20028%20-%20New%20Orleans%201815.zip
http://www.filepost.ru/?act=save&id=722a4ac3afb0cc7278192479744e1b1d&file=http://localhost/Osprey%20-%20Campaign%20028%20-%20New%20Orleans%201815.pdf
Извините за новую шару, но рапида - зараза обрывает, завтра может на рапиду выложу.
 

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Last edited by a moderator:

AndrewGa

Member
Joined
Aug 1, 2005
Messages
146
Reaction score
332
Location
Russia
[QUOTE
Вместо скачивания эта хренота мне в браузер загружается, да ещё и предупреждает, о том, что для одного IP одно соединение.

с трудом удалось начать закачку оперой...[/QUOTE]

Ты в менеджер закачки сразу ссылку вставь типа даунлоадмастера и все полетит со свистом.....
 

asseco-2

Member
Joined
Jun 15, 2005
Messages
235
Reaction score
43
Age
67
Location
Москва
Frodo Torbins
Толи я дурак, толи ещё что: скачал Орлеан, зип 49,1 мб, и не черта не извлекается???
 

Frodo Torbins

Member
Joined
Nov 14, 2004
Messages
438
Reaction score
684
Age
43
Location
Москва
http://rapidshare.de/files/9641351/Osprey_-_Campaign_028_-_New_Orleans_1815.pdf.html

Извините, что помучал, но и сам мучался с Рапидой - вот рабочий линк на ней.

P.S. кстати ашдузщые - класный сервис - почитайте про него. Хорошие возможности, есть шлюзы на ED2K и unlimited на рапиду.
 

derbenat

Member
Joined
Mar 3, 2004
Messages
339
Reaction score
271
Frodo Torbins said:
P.S. кстати ашдузщые - класный сервис - почитайте про него. Хорошие возможности, есть шлюзы на ED2K и unlimited на рапиду.

То ли я тоже дурак, то ли ...
Frodo! А ще це таке - ашдузщые.

ДОПЕРЛО! Прошу не беспокоиться.
 
Last edited by a moderator:

asseco-2

Member
Joined
Jun 15, 2005
Messages
235
Reaction score
43
Age
67
Location
Москва
Frodo Torbins , конспиратор ты наш, хоть знак чтоли какой условный ставь...
 
Status
Not open for further replies.
Top