Адрес для входа в РФ: exler.world
Как много нам открытий чудных...
02.05.2006 14:26
7509
Комментарии (5)
Вы знаете, что в MS Office есть распознавалка, причем вполне неплохая? Я не знал. Спасибо ne0d1n, который просветил.
Программа называется Microsoft Office Document Imaging и находится в папке "Средства Microsoft Office". (Если компонент не установлен, то Office при первом запуске программы попросит дистрибутивный диск, чтобы его установить.)
Я потестировал - вполне понравилось.
Программа называется Microsoft Office Document Imaging и находится в папке "Средства Microsoft Office". (Если компонент не установлен, то Office при первом запуске программы попросит дистрибутивный диск, чтобы его установить.)
Я потестировал - вполне понравилось.
Сканирует быстро и просто, не задавая лишних вопросов. Поддерживает режим сканирования многостраничных документов (опционально). Сам процесс сканирования достаточно наглядный.
Распознается текст очень быстро, так что после сканирования остается только выбрать пункт меню "Отправить текст в Microsoft Word", задав опционально возможность сохранения картинок. Смешанный (русский с английским) текст определяет вполне достойно.
Что классно, при распознавании текст сохраняется в достаточно простом формате (удобном для дальнейшей обработки), и программа старается сохранять только варианты начертания - например, полужирный и курсив. Картинки сохраняются в отдельной папке.
Вот, например, текст Word, полученный после сканирования простого листочка - текст.
Потестировал и на более сложной задаче - журнальный лист в несколько колонок с иллюстрацией: вот отсканированный лист, вот распознанный документ.
Раньше для решения подобной задачи я пользовался Abbyy FineReader HomeEdition (он, в отличие от FineReader Pro, стоит вполне разумных, а не совершенно заоблачных денег). Но у этой версии есть серьезные недостатки, главный из которых - жесткое сохранение формата оригинального текста (и это в Home-версии не настраивается), в результате чего его потом обрабатывать в Word крайне сложно, потому что сначала нужна убирать все эти бесконечные таблицы, настройки абзацев, шрифтов и так далее. Ну и со сканированием (а точнее - с сохранением результатов распознавания) многостраничных документов там тоже большие проблемы - все это делается весьма неудобно
В данном же случае программа, с одной стороны, простенькая, но с другой - делает все что нужно, причем быстро и удобно.
"А пацаны-то и не знают" (с)
Что классно, при распознавании текст сохраняется в достаточно простом формате (удобном для дальнейшей обработки), и программа старается сохранять только варианты начертания - например, полужирный и курсив. Картинки сохраняются в отдельной папке.
Вот, например, текст Word, полученный после сканирования простого листочка - текст.
Потестировал и на более сложной задаче - журнальный лист в несколько колонок с иллюстрацией: вот отсканированный лист, вот распознанный документ.
Раньше для решения подобной задачи я пользовался Abbyy FineReader HomeEdition (он, в отличие от FineReader Pro, стоит вполне разумных, а не совершенно заоблачных денег). Но у этой версии есть серьезные недостатки, главный из которых - жесткое сохранение формата оригинального текста (и это в Home-версии не настраивается), в результате чего его потом обрабатывать в Word крайне сложно, потому что сначала нужна убирать все эти бесконечные таблицы, настройки абзацев, шрифтов и так далее. Ну и со сканированием (а точнее - с сохранением результатов распознавания) многостраничных документов там тоже большие проблемы - все это делается весьма неудобно
В данном же случае программа, с одной стороны, простенькая, но с другой - делает все что нужно, причем быстро и удобно.
"А пацаны-то и не знают" (с)
Войдите, чтобы оставить комментарий.
В Офисе есть Документ Сканинг и Документ Имджинг (последний шире). Но при сканировании много ошибок, которые надо редактировать в Ворде. Файнридер и Омнипейдж (другие не пробовал) позволяют редакцию на уровне распознвания и дают возможные варианты замен. Да и качество распознавания много лучше.
Ага, я сам бы не узнал, если б не получил однажды документ с расширением .mdi . Оказалось, что это Microsoft Document Imaging, и для чтения нужно установить соответствующий компонент.
Понял, спасибо. Значит, мы не знали его много лет 😉
Небольшое замечание: Microsoft Office Document Imaging доступно, если я не ошибаюсь, с версии 2002 (т.е. Office XP). В 2000 его еще нет.
жесткое сохранение формата оригинального текста (и это в Home-версии не настраивается), в результате чего его потом обрабатывать в Word крайне сложно, потому что сначала нужна убирать все эти бесконечные таблицы, настройки абзацев, шрифтов и так далее.
Хм, а кто мешает сохранить из Ворда как "обычный текст" (.txt) ? При этом всё уберётся автоматом. А потом уже делать с текстом всё что нужно.
Хм, а кто мешает сохранить из Ворда как "обычный текст" (.txt) ? При этом всё уберётся автоматом. А потом уже делать с текстом всё что нужно.
Теги
Информация
Что ещё почитать