asyan.org
добавить свой файл
1

Лабораторна робота № 7 (Windows'2000)

Тема. Автоматизація обробки документів. Перетворення документів в електронну форму




Ціль. Одержання навичок автоматизації обробки документів.

  1. Основні теоретичні відомості



Комп'ютер призначений для роботи з документами, що мають електронну форму. У той же час, нам часто приходиться мати справу з паперовими виданнями і документами: журналами, книгами, листами, службовими записками і т.д. Щоб у роботі з інформацією такого роду теж можна було використовувати комп'ютер, необхідні засоби перетворення паперових документів в електронну форму.

Якщо передбачається, що документ містить в основному текстову інформацію, то можна виділити наступні основні етапи такого перетворення:

• у ході сканування за допомогою пристроїв оцифровки зображення відбувається створення електронного образа (зображення) документа;

• процес розпізнавання дозволяє перетворити електронне зображення в текстові дані (зі збереженням елементів форматування оригіналу або без них);

• для документів, виконаних іноземною мовою застосовують додаткові засоби автоматизованого перекладу на іншу мову.
    1. Сканування документів


Процес створення електронного зображення паперового документа нагадує його фотографування і вимагає застосування відповідного пристрою. Сьогодні таким пристроєм є сканер. Такі пристрої, як цифрові камери, поки не можуть забезпечити для документів стандартного формату якість зображення, яка гарантувала б їхнє надійне розпізнавання.

Основний робочий елемент сканера включає джерело світла, яке використовується для освітлення документа, і світлочутливу голівку, що сприймає відбите світло. Універсальні сканери, у відношенні до яких немає спеціальних вимог, по функціональних можливостях, якості і швидкості сканування поділяються на три основні категорії.

Ручний сканер протягається над поверхнею документа вручну. Він забезпечує мінімальну якість сканування, зокрема, непридатний для сканування документів, що містять ілюстрації.

Аркушевий сканер здатний сканувати окремі сторінки, протягаючи їх повз світлочутливий елемент. Його недоліком є неможливість сканування книг і журналів без розбирання на окремі сторінки.

У планшетному сканері рухливий світлочутливий елемент переміщається в ході сканування усередині корпуса пристрою. Документ, що сканується, розташовується напроти прозорого вікна в корпусі приладу. Цей вид сканера позбавлений недоліків, властивих типам, розглянутим вище.




Сканер є зовнішнім пристроєм і підключається до комп'ютера через спеціальне розйом. При високій розподільній здатності і великій площі скануємого документа обсяг даних для передачі виявляється дуже великим і вимагає продуктивної лінії передачі. Малопродуктивні сканери використовують ПЗ принтера. Найбільш швидкі пристрої підключаються через інтерфейс SCSI(Small Computer System Interface).

Різні моделі сканерів розуміють різні керуючі команди. Щоб уникнути різнобою, був прийнятий універсальний стандарт взаємодії сканера і додатків. Цей стандарт називається TWAIN. Додаток посилає команди драйверу TWAIN, що перетворить їх в інструкції, розпізнавані сканером. Таким чином, для додатка перестає мати значення конкретна модель сканера. Операційна система Windows 2000 підтримує інтерфейс TWAIN, а всі сучасні сканери сумісні з ним і надають необхідні драйвери нижнього рівня.

Сканування за посередництвом інтерфейсу TWAIN відбувається так. Спочатку необхідно включити сканер. Команда сканування розташовується в додатку в меню Файл (наприклад, у програмі Imaging відповідний пункт і називається — Сканировать). Після вибору цієї команди відкривається діалогове вікно драйвера TWAIN, вид якого залежить від моделі сканера (див. мал.). У цьому вікні задають параметри сканування: чорно-білий або кольоровий режим, дозвіл, корекція яскравості і контрастності. Більшість сканерів дозволяють також зробити попереднє чорнове сканування з низьким дозволом і за результатами точно задати область сканування — частина сторінки документа.

Після настроювання всіх параметрів варто клацнути на кнопці Сканировать (напис на кнопці може бути інший). Процес сканування відбувається автоматично, і зображення передається в додаток. Діалогове вікно драйвера ТWАІ автоматично не закривається, так що, наприклад, у багатовіконних графічних редакторах (таких, як Adobe PhotoShop) можна відразу провести сканування декількох зображень.

    1. Розпізнавання документів


Етап розпізнавання документа складається в перетворенні електронного зображення (фактично набору кольорових або чорно-білих крапок) у текстовий документ. Раніше для опису цього процесу звичайно використовувався термін ОС (Optical Character Recognition), що відповідає одному з використовуваних методів. При такому підході відбувається «порівняння» елемента зображення з еталонними варіантами накреслення символів, після чого вибирається найбільш підходящий символ. Цей підхід вимагає використання спеціального комплекту шрифтів, але дає на ньому найкращі результати. Сучасні алгоритми розпізнавання не прив'язані до конкретного накреслення символів, так само, як людина здатна дізнаватися букви при будь-яких накресленнях (і навіть при значних перекручуваннях).

У ході розпізнавання спочатку в зображенні виділяються великі елементи тексту: стовпчика, абзаци, окремі текстові блоки (наприклад, подрисуночные підпису), осередку таблиць. Цей етап називають сегментацією, він може виконуватися автоматично або вручну. Після цього виконується автоматичний етап розпізнавання: блоки розбиваються на рядки, рядки — на окремі символи, кожний з яких розпізнається незалежно і міститься в підсумковий текстовий документ.


    1. Робота з Програмою Fine Reader


Всі операції, необхідні в ході перетворення паперового документа в електронну форму, можуть бути виконані за допомогою програми Fine Reader.



Ця програма здатна виконувати сканування і розпізнавання текстів на різних мовах, у тому числі і змішаних двомовних текстах. З її допомогою можна виконувати пакетну обробку багатосторінкових документів, а також налаштовувати режим розпізнавання для поліпшення відповідності електронного документа паперовому оригіналу при поганій якості останнього або використанні в ньому шрифтів, далеких від стандартних.

Основні операції обробки паперового документа в програмі Fine Reader виконуються за допомогою панелі інструментів Scan&Read. З погляду цієї програми, процес обробки документа складається з п'яти етапів:

• сканування документа (кнопка Сканировать);

• сегментація документа (кнопка Сегментировать);

• розпізнавання документа (кнопка Распознать);

• редагування і перевірка результату (кнопка Проверить);

• збереження документа (кнопка Сохранить).

Сканування документа. На етапі сканування одержують зображення за допомогою сканера і зберігають його у вигляді, зручному для наступної обробки. Щоб почати сканування, треба включити сканер і клацнути на кнопці Сканировать на панелі інструментів Scan&Read. У програмі Fine Reader сканування може виконуватися як через драйвер TWAIN так і в обхід його. Перший спосіб використовують, коли потрібне точне настроювання параметрів сканування, коли документ включає кольорові ілюстрації, які необхідно зберегти, а також коли різні сторінки багатосторінкового документа сильно розрізняються по якості. Другий варіант забезпечує максимальну швидкість і зручність сканування. Вибір використовуваного варіанта здійснюється за допомогою прапорця Показувать диалог TWAIN - драйвера сканера (Сервис-Опции-Сканирование).

Процес сканування здійснюється автоматично і потребує від користувача тільки допоміжних операцій, таких, як зміна сторінки. Можливість втручання в роботу програми заблокована розміщенням на екрані спеціального діалогового вікна, що повідомляє про те, що йде сканування, і що дозволяє перервати це процес.

По завершенні сканування значки всіх оброблених сторінок відображаються у вікні Пакет. В основній частині робочої області з'являється вікно Изображение, що містить зображення поточної сторінки. Додавати сторінки в пакет можна не тільки шляхом сканування, але і шляхом відкриття файлів із зображеннями, які є на комп'ютері.
Сегментація документа. Другий етап роботи — сегментація, розбивка сторінки на блоки тексту. Природний порядок розпізнавання — по рядках, розташованим на сторінці зверху вниз і йде від лівого краю до правого. Якщо сторінка містить стовпчики, ілюстрації, підрисуночні підписи або таблиці, то порядок розпізнавання вимагає корекції.

Сторінка розбивається на блоки, усередині кожного з яких розпізнавання здійснюється в природному порядку. Блоки нумеруються, виходячи з порядку включення їх у документ. При автоматичній сегментації (кнопка Сегментировать на панелі інструментів Scan&Read) визначення границь блоків здійснюється автоматично. При цьому враховуються поля документа, просвіти між колонками, рамки.

Якщо структура сторінки дуже складна, зручніше використовувати ручну сегментацію або ручне редагування результатів автоматичної сегментації. Блоки відображаються у виді кольорових прямокутників з номером у лівому верхньому куті. Новий блок створюють протяганням миші по діагоналі прямокутника. Поточний блок позначається виділеною лінією, а його кути — прямокутними маркерами. За допомогою цих маркерів можна змінити розмір або положення блоку.

Команди редагування блоків виведені на панель Инструменты. Вони дозволяють:

• об'єднати два блоки в один (додати частину блоку);

• видалити фрагмент блоку (Видалити частина блоку);

• змінити положення блоків (Перемістити блоки);

• змінити порядок нумерації блоків (Перенумерувати блоки);

• змінити розбивка таблиці на осередки (додати вертикаль, додати горизонталь, Видалити лінії);

Різні типи блоків обробляються програмою по-різному. Щоб змінити тип блоку, треба клацнути правою кнопкою миші в його межах і призначити новий тип за допомогою меню Тип блока в контекстному меню. Програма Fine Reader підтримує наступні типи блоків:

• текстовий (Текст) — на етапі розпізнавання перетвориться в текст;

• табличний (Таблица) — являє собою набір комірок, кожна з яких перетвориться в текст окремо;

• зображення (Картинка) — включається в документ без змін як графічна ілюстрація, якщо формат збереження перетвореного документа допускає вставні об'єкти;

• зайвий (Нероспознаваемый) — ігнорується;

• зі штрих-кодом (Штрих-код) — розпізнається як штрих-код.
Розпізнавання тексту. Процес розпізнавання тексту після сегментації починається з клацання на кнопці Распознать і цілком автоматизований. У ході процесу відображається діалогове вікно Распознавание, що дозволяє перервати процес. Крім того, у цьому вікні відображаються повідомлення, що вказують на наявність проблем при розпізнаванні. Проблеми звичайно викликаються невірними настроюваннями або поганою якістю розпізнаваного зображення. Якщо ж справа в якихось шрифтових особливостях розпізнаваного документа, застосовують распознавание с обучением.

Розпізнавання з навчанням. Розпізнавання з навчанням складається у формуванні еталона, що використовується в ході розпізнавання надалі. Еталон будується так, щоб відповідати визначеному документу або групі однотипних документів. Щоб створити еталон, використовують команду Сервис - Редактор эталонов- Новый эталон. Після цього треба вказати ім'я еталона і клацнути на кнопці ОК. Режим розпізнавання з навчанням включається при настроюванні параметрів роботи програми (Сервис – Опции - Распознавание). На панелі Обучение варто вибрати потрібний еталон і установити прапорець Распознавание с обучением.

Коли в ході розпізнавання з навчанням програма Fine Reader виявляє символ, що не може інтерпретувати однозначно, на екран видається діалогове вікно Ручное обучение эталона (мал. 17.3). Програма вказує елемент зображення, що викликав сумнів, і показує, як саме він буде інтерпретований. Якщо допущено помилку, можна вказати потрібний символ у поле Символ або уточнити область розпізнавання за допомогою кнопок Сдвинуть влево та Сдвинуть вправо



Потім треба клацнути на кнопці Обучить. Необхідні дані зберігаються і використовуються при подальшому аналізі зображення. Якщо число помилок невелике, можна продовжити розпізнавання в звичайному режимі клацнувши на кнопці Продолжать без обучения.

Редагування документа. Коли розпізнавання даної сторінки завершується, отриманий текстовий документ відображається у вікні Текст. Заключні етапи роботи дозволяють відредагувати отриманий текст за допомогою засобів, що нагадують текстовий редактор WordPad (панель для форматування відкривається за допомогою команди Вид Панелі інструментів Форматирование). Провести перевірку орфографії з урахуванням труднощів розпізнавання дозволяє кнопка Проверить на панелі інструментів Scan&Read.

Збереження документа. Клацнувши на кнопці Сохранить на панелі інструментів Scan&Read запускається Мастер сохранения результатов. Він дозволяє зберегти розпізнаний текст або передати його в іншу програму (наприклад, у Microsoft Word) для наступної обробки.

    1. Обробка бланків


Бланки, або форми, являють собою особливий вид документів. Вони використовуються як анкети, бюлетені для голосування, опитувальні аркуші і складаються з постійної частини, що містить інформацію, використовувану в ході заповнення бланка, і перемінної частини, куди при заповненні бланка заносяться дані. У ході обробки бланків потрібно одержати внесені в нього дані і представити їх у виді, зручному для подальшої обробки. При цьому часто приходиться мати справу з тисячами однотипних бланків.

Для обробки бланків використовується автономний додаток Fine Reader Forms. Процес роботи з бланками трохи відрізняється від роботи зі звичайними документами. Спочатку готується шаблон, що містить всі постійні і змінні зони бланка. Етап сегментації заміняється накладенням шаблона, тобто його сполученням з постійними елементами бланка. Це дозволяє визначити місцезнаходження змінних елементів бланка і провести їхнє розпізнавання. Дані, отримані з окремого бланка, розглядаються як рядок таблиці або як окремий запис бази даних. Вміст окремого поля бланка відповідає клітинці таблиці.

Для створення шаблона потрібно електронне зображення окремого бланка, хоча б і незаповненого. Щоб створити шаблон, треба в додатку Fine Reader Forms дати команду Файл Новый, після чого вказати ім'я пакета форм і палку для збереження відсканованих бланків. Потім необхідно відсканувати або вибрати готове зображення, що буде використовуватися як основа шаблона.

Сам процес створення шаблона базується на ручній сегментації бланка. При цьому крім вікна Редактор шаблонов відкрите також діалогове вікно Параметры. Варто визначити як блоки, що охоплюють фіксовані елементи бланка, так і ті, котрі містять області, що підлягають заповненню. Блоки, що відповідають постійним елементам, використовуються як приводні мітки. Щоб виключити такий блок із процесу розпізнавання, варто клацнути на ньому правою кнопкою миші і вибрати в контекстному меню команду Тип блока Статический текст .

Параметри блоку задають на вкладці Блок діалогового вікна Параметры. Для кожного розпізнаваного блоку треба установити прапорець експортований блок, а також вказати ім'я поля бази даних. Інформація з цього блоку буде заноситися в зазначене поле. Після того як усі потрібні блоки створені і набудовані, варто клацнути на кнопці Закрыть на панелі інструментів. При цьому проводиться перевірка, чи забезпечують задані блоки однозначне накладення шаблона на бланк.

У результаті сканування заповненого бланка накладення шаблона і розпізнавання, отримані дані представляються у виді форми, що містить назви полів і дані, отримані при розпізнаванні. Збереження даних роблять у форматі, орієнтованому на наступну обробку засобами електронних таблиць або баз даних, наприклад, у виді електронної таблиці Excel (файл.xls).


  1. Практичне завдання




Вправа 7.1. Перетворення зображення в текстовий документ


1. Включіть сканер.

2. Запустіть програму Fine Reader (Пуск -Программы -АВВУУ Fine Reader- Fine Reader 4.0 Professional).

3. Відкрийте кришку сканера, покладіть документ на вікно сканера текстом униз, закрийте кришку сканера.

4. Клацніть на кнопці Сканировать на панелі інструментів Scan&Read.

5. Дочекайтеся закінчення сканування. Зверніть увагу на появу значка відсканованого документа на панелі Пакет і вікна Изображение.

6. Клацніть на кнопці Сегментировать на панелі інструментів Scan&Read. Вивчіть результат автоматичної сегментації.

7. Клацніть на кнопці Распознать. Ознайомтеся з розпізнаним текстом у вікні Текст.

8. Збережіть розпізнаний текст у виді текстового файлу.

9. Відкрийте текстовий файл у програмі Блакнот і ще раз переконайтеся в правильності розпізнавання. Закрийте програму Блакнот.

10. Дайте команду Файл -Открыть і виберіть зображення, створене в попередній вправі.

11. Виберіть це зображення у вікні Пакет і проведіть його розпізнавання відповідно до пп. 6—8 даної вправи.

Вправа 7.2. Ручна сегментація зображення


1. Включіть сканер.

2. Запустіть програму Fine Reader (Пуск -Программы -АВВУУ Fine Reader- Fine Reader 4.0 Professional).

3. Відкрийте кришку сканера, покладіть документ на вікно сканера текстом униз, закрийте кришку.

4. Клацніть на кнопці сканувати на панелі інструментів Scan&Read і дочекайтеся закінчення сканування.

5. Клацніть на кнопці Сегментировать на панелі інструментів Scan&Read.

6. Клацніть на кнопці Распознать на панелі інструментів Scan&Read .Ознайомтеся з тим, як проведене упорядкування розпізнаного тексту відповідно до автоматичної сегментації. Оцініть придатність отриманого документа.

7. Закрийте вікно Текст. Отриманий документ попередньо збережіть для порівняння.

8. Клацніть у вікні зображення правою кнопкою миші і виберіть у контекстом меню команду Удалить все блоки.

9. Сформуйте блоки вручну, виділяючи окремі елементи документа.

10. Щоб блоки, що містять ілюстрації, не розпізнавалися як текст, клацніть на кожнім з них правою кнопкою миші і виберіть у контекстному меню команду Тип блока картинка.

11. Клацніть на кнопці Перенумеровать блоки на панелі Инструменты. Задайте послідовність блоків, клацаючи на них у тім порядку, у якому їхній вміст повинний включатися в остаточний документ.

12. Клацніть на кнопці Распознать на панелі інструментів Scan&Read. Збережіть отриманий документ.

13. Порівняйте документи, отримані в результаті автоматичної і ручної сегментації.

Вправа 7.3. Створення шаблона для розпізнавання бланків


1. Включіть сканер.

2. Запустіть програму Fine Reader (Пуск -Программы -АВВУУ Fine Reader- Fine Reader 4.0 Professional).

3. Відкрийте кришку сканера, покладыть бланк на вікно сканера текстом вниз, закрийте кришку.

4. Дайте команду Файл Новый.

5. Задайте ім'я пакета і місце його розміщення, після чого клацніть на кнопці Далее.

6. Установіть перемикач Создать новый і клацніть на кнопці Далее.

7. Введіть ім'я шаблона і клацніть на кнопці Далее.

8. Установіть перемикач Отсканировать і клацніть на кнопці Далее. Дочекайтеся закінчення сканування. Клацніть на кнопці Готово.

9. Створіть блоки, що охоплюють постійні поля («розмітку») бланка. Для кожного такого блоку на вкладці Блок діалогового вікна параметри задайте тип Статический.

10. Створіть блоки, що охоплюють змінні (заповнювані) поля бланка. Для кожного такого поля установіть прапорець Экспортируемый блок і задайте ім'я поля бази даних (Поле БД).

11. Завершивши розмітку бланка, клацніть на кнопці Закрыть на панелі інструментів.

12. Після закриття редактора шаблонів знову відскануйте той же бланк, але вже для розпізнавання (кнопка Сканировать на панелі інструментів Open&Read).

13. Клацніть на кнопці Наложить шаблон на панелі інструментів Open&Read.

14. Клацніть на кнопці Распознать на панелі інструментів Open&Read.

15. Ознайомтеся з заповненою формою, отриманоїюв результаті розпізнавання. Збережіть документ у виді таблиці Excel.