Сканери. Системи розпізнавання тексту

Сканери. Системи розпізнавання тексту

Цілі:

дидактична: Розповісти студентам, як здійснюється автоматичне введення документів в ПК. Дати класифікацію пристроїв введення - сканерів, підкреслити їх особливості. Розповісти про технологію розпізнавання тексту. Зробити огляд програмного забезпечення з розпізнавання тексту.

розвиваюча: розвивати інформаційне мислення студентів.

виховна: показати, що автоматизація спрощує виконання багатьох рутинних операцій, звільняючи місце для творчості.

Вид занять (тип уроку): вивчення нового матеріалу

Організаційні форми навчання: лекція.

Методи навчання: бесіда

Засоби навчання

Вид та форми контролю знань: фронтальний опитування.

Засоби контролю

Внутріпредметние зв'язку

Міжпредметні зв'язки

Види самостійної роботи студентів

Домашнє завдання: конспект лекції.
Хід заняття

1. Організаційний момент.

2. Повідомлення теми і мети заняття.

3. Вивчення нового матеріалу

4. Підведення підсумків.

5. Домашнє завдання.
Автоматизація вводу інформації в комп'ютер

Основним методом перекладу паперових документів в електронну форму є сканування. Сканування - це технологічний процес, в результаті якого створюється графічний образ паперового документа. Існує кілька різних видів сканерів, але в їх основі лежить один і той же принцип. Документ освітлюється світлом від спеціального джерела, а відображене світло сприймається світлочутливим елементом. Мінімальний елемент зображення інтерпретується сканером як кольорова (або сіра) крапка. Таким чином, в результаті сканування документа створюється графічний файл, у якому зберігається растрове зображення вихідного документа. Растрове зображення складається, як відомо, з точок. Кількість точок визначається як розміром зображення, так і роздільною здатністю сканера.
Сканери для введення текстів та ілюстрацій

В даний час для введення текстової та графічної інформації використовують такі види сканерів.

Ручні сканери. Це найпростіший вид сканерів, що дає найменш якісне зображення. Такий сканер не має рухомих частин, і сканування проводиться шляхом переміщення сканера по документу.

Недоліком ручних сканерів є дуже вузька смуга сканування (стандартний аркуш паперу доводиться сканувати в кілька проходів), а також високі вимоги до самого процесу сканування. Так, якщо рука, що тримає сканер, злегка тремтить або рухається ривками, говорити про хорошу якість сканування не доводиться. Ручні сканери придатні для сканування текстів, але використовувати їх для сканування зображень (фотографій) важко.

Листові сканери. Сканери цього типу дозволяють за одну операцію сканувати аркуш паперу стандартного формату. Блок сканування у таких сканерів нерухомий, а папір простягається повз нього за допомогою спеціальних валиків (як в принтері).Листові сканери гарантують гарну якість сканування, але вони здатні сканувати лише окремі листи. Перекласти з їх допомогою в електронну форму сторінку книги або розворот журналу неможливо.

Планшетні сканери забезпечують найкращу якість та максимальну зручність при роботі з паперовими документами. Під кришкою планшетного сканера розташовується прозоре основу, на яку укладають документ. Блок сканування переміщується вздовж документа всередині корпусу сканера. Тривалість сканування стандартного машинописного аркуша: становить від однієї до кількох секунд.
Спеціальні типи сканерів

Барабанні сканери забезпечують найвищу дозвіл сканування, але вони призначені для сканування не паперових документів, а прозорих матеріалів, наприклад слайдів, негативів і т. п. У сканерах цього типу голівки, що зчитує встановлена нерухомо, а зображення, закріплене на циліндричній барабані, обертається з високою швидкістю і сканується порядково.

Сканери форм - спеціальні сканери для введення інформації з заповнених бланків. Це різновид листових сканерів. За допомогою подібних пристроїв вводять дані з анкет, листів опитування, виборчих бюлетенів. Від сканерів цього типу потрібна не висока роздільна здатність, а дуже високу швидкодію. Зокрема, для сканерів цього типу автоматизують подачу паперових аркушів в пристрій.

Штрих-сканери - різновид ручних сканерів. Призначені вони для зчитування штрих-кодів з маркування товарів у магазинах.Штрих-сканери дозволяють автоматизувати процес підрахунку вартості покупок. Вони особливо зручні в торгових приміщеннях, обладнаних електронним зв'язком і виробляють розрахунки з покупцями за допомогою електронних платіжних засобів (кредитних карток, смарт-карт і т. п.).
Зв'язок сканера з операційною системою
Для підключення сканера до комп'ютера використовують різні методи. Існують сканери зі спеціальною платою розширення, так званим контролером. Плату встановлюють в одне з гнізд розширень материнської плати комп'ютера, а сканер підключають до гнізда плати.

Деякі сканери підключають до вільного паралельного порту (порту принтера). У такому випадку передача даних відбувається повільніше, зате ніяких додаткових пристроїв для підключення сканера не потрібно.

Найбільш продуктивні сканери використовують інтерфейс SCSI розроблений спеціально для підключення до комп'ютера зовнішніх пристроїв. Комп'ютер в цьому випадку повинен мати спеціальний контролер, що забезпечує роботу з цим апаратним інтерфейсом.Такий контролер найчастіше виконується на платі розширення.

Оскільки апаратні інтерфейси сканерів відрізняються різноманіттям, були зроблені спеціальні заходи для стандартизації програмного інтерфейсу, що забезпечує зв'язок між сканерами і операційною системою. Цей інтерфейс заснований на спеціальному протоколі TWAIN. Якщо сканер підтримує цей протокол, то операційна система Windows 9х здатна забезпечити взаємодію між сканером і програмним додатком, призначеним для роботи з ним. Всі сучасні сканери підтримують стандарт TWAIN.
Особливості Windows 95

Операційна система Windows 95 з'явилася, коли сканери ще не вважалися необхідними компонентами настільної комп'ютерної системи, і з цієї причини штатних засобів підтримки стандарту TWAIN в Windows 95 немає. Під час встановлення сканера в системі Windows 95 необхідно використовувати драйвери, що поставляються разом з ним.
Особливості Windows 98

Операційна система Windows 98 вже поінформована про наявність такого пристрою як сканер. Стандарт TWAIN підтримується в ній за замовчуванням, а в разі приєднання до комп'ютерної системи сканера, у вікні папки Панель управління з'являється відповідний значок, що дозволяє робити настроювання.

Таким чином, у більшості програм робота зі сканером здійснюється за допомогою спеціального діалогового вікна, що забезпечує безпосередню взаємодію зі сканером. Після того як користувач дає команду на сканування документа, дані передаються в програму, що звернулися до сканера, з використанням протоколу TWAIN.

Після обробки документа сканером виходить графічне зображення документа (графічний образ). Але графічний образ ще не є текстовим документом. Людині достатньо поглянути на аркуш паперу з текстом, щоб зрозуміти, що на ньому написано. З точки зору комп'ютера, документ після сканування перетворюється в набір різнокольорових точок, а зовсім не в текстовий документ.

Проблема розпізнавання тексту в складі точкового графічного зображення є досить складною. Подібні завдання вирішують за допомогою спеціальних програмних засобів, які називаються засобами розпізнавання образів. Реальний технічний прорив в цій області стався лише в останні роки. До цього розпізнавання тексту було можливо лише шляхом порівняння знайдених конфігурацій точок із стандартним зразком (еталоном, що зберігається в пам'яті комп'ютера). Автори програм ставили критерій «схожості», який використовується при ідентифікації символів.

Подібні системи називалися OCR (Optical Character Recognition - оптичне розпізнавання символів) і спиралися на спеціально розроблені шрифти, що полегшували такий підхід. Якщо доводилося стикатися з довільним і, тим більше, складним шрифтом, програми такого роду починали давати серйозні збої.

Сучасні наукові досягнення в галузі розпізнавання образів буквально перевернули уявлення про оптичному розпізнаванні символів. Сучасні програми цілком можуть справлятися з різними (і досить химерними) шрифтами без перенастроювання. Багато розпізнають навіть рукописний текст.
Програми розпізнавання текстів

Оскільки потреба в розпізнаванні тексту відсканованих документів достатньо велика, не дивно, що є значна кількість програм, призначених для цієї мети. Так як різні наукові методи розпізнавання тексту розвивалися незалежно один від одного, багато хто з цих програм використовують абсолютно різні алгоритми.

Ці алгоритми можуть давати різні результати на різних документах. Наприклад, згадувані вище системи OCR здатні розпізнавати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, які не може перевершити ні одна із універсальних програм.

Сучасні алгоритми розпізнавання тексту не орієнтуються ні на конкретний шрифт, ні на конкретний алфавіт. Більшість програм здатне розпізнавати текст на кількох мовах. Одні й ті самі алгоритми можна використовувати для розпізнання російського, латинського, арабського і інших алфавітів і навіть змішаних текстів. Зрозуміло, програма повинна знати, про який алфавіт йдеться.

Нас, перш за все, цікавлять програми, здатні розпізнавати текст, надрукований російською мовою. Такі програми випускаються вітчизняними виробниками. Найбільш широко відомі і розповсюджені програми Fine Reader і CuneiForm.

Коментарі:

blog comments powered by Disqus