Skanowanie i rozpoznawanie materiałów



Pobieranie 29.44 Kb.
Data05.05.2016
Rozmiar29.44 Kb.

Skanowanie i rozpoznawanie materiałów


Czym jest proces skanowania; trudności automatycznego rozpoznawania tekstu; korzystanie z programu ABBYY FineReader 8; narzędzia programu, etapy skanowania; zaawansowane opcje programu; praca indywidualna z programem

I. Podstawowe pojęcia




  1. Czym jest proces skanowania materiałów?
    Przetwarzanie materiałów czarnodrukowych do postaci pliku graficznego. W wyniku skanowania otrzymujemy bitmapowy obraz strony.

  2. Co oznacza rozpoznanie tekstu?
    Rozpoznanie pisma występującego na obrazie (OCR Optical Character Recognition) w powstałym po zeskanowaniu dokumentu pliku graficznym.

  3. Dlaczego to takie trudne?
    W drukowanych dokumentach występuje bardzo szeroka gama krojów czcionek i ich wielkości, w druku możliwe są mniejsze lub większe defekty kształtu wydrukowanych liter, a kolejne defekty może stworzyć niezbyt dokładne ułożenie dokumentu na szybie skanera. Trudność sprawiają elementy ozdobne czcionek np. szeryfy oraz znaki diakrytyczne charakterystyczne dla danego języka lokalnego. Błędy rozpoznania powodują podobieństwa znaków i ligatury, np.

l ~ I ~ 1

l ~ /

rn ~ m


ch ~ dn

itp.


  1. Istotne jest dobranie właściwych parametrów skanowania: jasności, rozdzielczości, kontrastu

Zbyt duża jasność:


Zbyt mała jasność:


Dobry obraz:



II. Przygotowanie materiału do skanowania


Przed przystąpieniem do skanowania należy przygotować skanowany materiał: powycierać ew. zakreślenia ołówkiem, zorientować się jaki język (języki) jest używany w dokumencie.

III. Program ABBY FineReader 8 przygotowanie do skanowania




  1. Przed przystąpieniem do skanowania należy włączyć wbudowany w program mechanizm sterowania skanerem:

Narzędzia->Opcje->"Użyj programu Fine Reader"

  1. Jeśli dany skaner nie jest obsługiwany przez program Abbyy Fine Reader wówczas należy użyć uniwersalnego sterownika TWAIN:

Narzędzia->Opcje->"Użyj tylko sterownika TWAIN"

  1. Należy dobrać odpowiednie parametry skanowania: typ materiału (kolorowy, odcienie szarości, czarnobiały), rozdzielczość skanowania, jasność/kontrast

Narzędzia->Opcje->Ustawienia skanera

Dla typowych materiałów czarnodrukowych zalecane są parametry:



  • Tryb skanowania: "Obrazy w odcieniach szarości"

  • Rozdzielczość: "300dpi"

  • Jasność: "Automatyczny"

  1. Dla danego języka (języków) skanowanego dokumentu należy odpowiednio ustawić język rozpoznawania.

Narzędzia->Opcje->Rozpoznaj(Czytaj)->Język rozpoznawania

Po wybraniu opcji "Wybierz kilka języków" można ustawić do 9 rozpoznawanych języków. UWAGA: Im większa ilość ustawionych języków rozpoznawania tym większe prawdopodobieństwo błędów przy rozpoznawaniu znaków narodowych.



  1. Obszar roboczy programu został podzielony na 4 okna:

  1. Wiązka lista z podglądem miniatur zeskanowanych stron

  2. Obraz podgląd bitmapowego obrazu strony, po analizie układu strony widoczny jest podział na bloki

  3. Tekst podgląd zawartości bloków po ich rozpoznaniu, w oknie możliwa jest także edycja i korekta rozpoznanego tekstu

  4. Powiększenie powiększony wycinek obszaru wskazanego w oknie "Obraz" lub "Tekst"


IV. Etapy skanowania:




  1. Skanowanie materiałów

  2. Analiza układu strony podział na odpowiednie bloki: tekst, tabela, grafika

  3. Rozpoznanie zawartości bloków (tekst, tabela)

  4. Sprawdzenie pisowni

  5. Eksport do pliku tekstowego

W programie Abbyy Fine Reader kolejnym etapom przypisano ikony w głównym pasku narzędziowym. Dodatkowe opcje dostępne są po kliknieciu na strzałkę znajdującą się obok danej ikony. Odpowiada im menu "Akcja".


V. Skanowanie




  1. Skanowanie dokumentu: kliknięcie ikony "Skanuj" powoduje uruchomienie Kreatora skanowania. Ręczny tryb uruchamiany jest po rozwinięciu opcji skanowania i wyborze "Skanuj czytaj" lub przez skrót Ctrl+D



  1. Dla skanowania wielostronicowych dokumentów warto wybrać opcję automatycznego skanowania kolejnych stron w:

Narzędzia->Opcje->Skanuj->Ustawienia skanera->Skanuj wiele stron

  1. Odstęp między kolejnymi przebiegami można ustawić w:

Narzędzia->Opcje->Skanuj->Ustawienia skanera->Pauza między stronami

  1. Jeśli w obszarze skanowania mieszczą się dwie strony rozłożonej książki można automatycznie podzielić ją na odrębne strony wybierając:

Narzędzia->Opcje->Skanuj->Ustawienia skanera->Podział stron podwójnych

UWAGA: w tym przypadku istotna jest orientacja ułożonej książki należy ją sprawdzić poprzez skan testowy i sprawdzenie w jakiej kolejnosci rozpoznają się strony prawidłowej np. 21, 22 czy odwrotnej: 22, a potem 21.

  1. Ułatwieniem podczas skanowania jest włączenie wykrywania automatycznej orientacji obrazu:

Narzędzia->Opcje->Skanuj->Ustawienia skanera->Wykrywanie orientacji obrazu

  1. Dla książek o grubym grzbiecie podczas skanowania może powstawać efekt zawijania kartki wewnątrz zszycia, wówczas należy zaznaczyć opcję korekty tego efektu w:

Narzędzia->Opcje->Skanuj->Ustawienia skanera->Wyprostuj linie tekstu

UWAGA: Włączenie tej opcji znacząco wydłuża skanowanie oraz może powodować przekłamania

VI. Analiza układu strony i rozpoznanie




  1. Domyślnie program automatycznie dokonuje analizy strony i rozpoznania bloków oraz ich zawartości. Można jednak wymusić jedynie skanowanie obrazów

Akcia->Dodaj obrazy->Skanuj obraz (Skrót Ctrl+K)

i później włączyć rozpoznawanie obrazów



Akcja->Rozpoznaj->Rozpoznaj wszystkie strony

  1. W efekcie rozpoznawania program:

  1. rozpoznaje orientację strony

  2. dzieli zawartość strony na bloki o określonej zawartości (tekst, tabela, grafika)

  3. blokom przydziela logiczną kolejność

  4. rozpoznaje zawartość bloków tekst i tabela.

  1. Automatyczna analiza strony często powoduje pierwsze błędy:

  1. niewłaściwy podział na bloki

  2. niewłaściwy dobór typów bloków

  3. niewłaściwa kolejność

  1. Okno "Obraz" umożliwia dokonywanie korekt

  • chwytanie myszą za krawędzie bloków umożliwia zmianę ich wielkości

  • kliknięcie prawym przyciskiem myszy umożliwia dobór parametrów bloku:

  • zmianę typu bloku

  • analizę zawartości (rozpoznanie)

  • zmianę kolejności





  1. Okno "Obraz" dodatkowo wyposażone jest w pasek narzędzi umożliwiających korektę analizy i rozpoznania obrazu:





Analizuj układ

Rysuj obszar rozpoznawania

Narysuj blok tekstowy

Rysuj blok tabeli

Rysuj blok graficzny

Zaznacz obiekty

Dodaj do bloku

Usuń z bloku

usuń bloki

Dodaj krawędź pionową (dla tabel)

Dodaj krawędź poziomą (dla tabel)

Usuń krawędź (dla tabel)

Obetnij obraz

Gumka

Wyprostuj linie tekstu

Obróć w prawo

Obróć w lewo



  1. Każdorazowe dodanie nowego bloku typu "tekst" lub "tabela", bądź jego zmiana wymaga ponownego rozpoznania

Prawy przycisk myszy->Rozpoznaj blook

lub skrót Ctrl+Shift+B


VII. Korekta




  1. W oknie "tekst" dostępny jest podgląd rozpoznanego tekstu. Niepewne znaki wyróżnione są jasnoniebieskim tłem. Znaki błędnie rozpoznane wyróżnione są tłem ciemnoniebieskim

  2. Dodatkowo możliwe jest sprawdzenie pisowni za pomocą wbudowanego słownika

Akcja->Sprawdzeine pisowni->Sprawdź pisownię

lub poprzez skrót F7. Między następnym/wcześniejszym błędem można się przemieszczać klawiszami F4/Shift+F4


VIII. Eksport do pliku tekstowego




  1. Rozpoznany i poprawiony tekst można zapisać w jednym z wielu formatów tekstowych: DOC, RTF, Word XLS, PDF, HTML, PPT, TXT, DBF, CSV, LIT. Wcześniej należy wybrać odpowiednie parametry eksportu:

Narzędzia->Opcje->Zapisz

  1. Układ strony określa jakie parametry formatowania mają zostać zachowane. Dostępne są opcje:

  1. Układ oryginału zachowuje pełne rozmieszczenie bloków na stronie. Uwaga, wybranie tej opcji może sprawić, że zaskanowany dokument nie będzie dostępny dla programów odczytu ekranu.

  2. Kolumny, tabele , paragrafy, czcionki zachowane są tylko te wymienione cechy dokumentu

  3. Tabele, paragrafy, czcionki j.w.

  1. Ustawienia tekstu określa pozostałe cechy tekstu, głównie akapitów: Odstępy między liniami, Odstępy między stronami, Kolor tekstu itp. Uwaga: ze względu na dalszą obróbkę tekstu nie należy zaznaczać opcji "Usuń opcjonalny znak przeniesienia do nowej lini"

  2. Ustawienia obrazu jeśli chcemy zachować zawarte w rozpoznanym dokumenci obrazy należy zaznaczyć opcję: Zachowaj grafikę



  1. Najczęściej formatem docelowym zeskanowanego dokumentu będzie MS Word. Wówczas dokonujemy eksportu poprzez:

Akcja->Zapisz wyniki->Wyślij wszystkie strony do->Microsoft Word


©absta.pl 2016
wyślij wiadomość

    Strona główna