Kompiuterinis teksto atpažinimas

Straipsniai.lt 2005 02 28 Kompiuteriai, Kompiuterinės technologijos, Skaneriai, Technologijos Komentuokite

Kompiuterijoje plačiai naudojama santrumpa OCR (Optical Character Recognition) – kompiuterizuotas tekstinių dokumentų atpažinimas. Kompiuterinės programos palyginti gerai atpažįsta knyginį ir laikraštinį tekstą, ypač gerai susidoroja su kompiuterinių spausdintuvų išspausdintais lapais – visu tuo, kur naudojamos standartinės, vienodos raidės ir kiti visuotinai priimti simboliai. Atrodytų, taip pat gerai turėtų būti nuskaitomas ir mašinraštis, juk jame taip pat standartizuotas raidynas. Deja, šioje srityje kol kas rezultatai labai prasti – rašomosios mašinėlės klavišus žmonės spaudė skirtinga jėga, dažanti juostelė visu savo ilgiu turėjo skirtingą nusidėvėjimo laipsnį, ir šiuolaikinių skanerių optika dar nesitvarko su šiomis problemomis. Gaunamų klaidų procentas paprastai būna toks didžiulis, kad kompiuterinis mašinraščio atpažinimas tampa beprasmis. Tuo labiau anksti kalbėti apie automatizuotą rankraščių, rašytų unikaliu kiekvienam žmogui braižu, atpažinimą.

Net ir esant tokiems akivaizdiems apribojimams, kompiuterinis tekstų atpažinimas tebėra puikia galimybe greitai perkelti informaciją iš senų spaudinių į lengvai redaguojamą ir platinamą kompiuterinį formatą. Šiam darbui reikalingos tokios priemonės, kaip kad pakankamai jautrus skaneris (ne mažiau 300 dpi) ir kuri nors kompiuterinė, daugelį kalbų palaikanti teksto atpažinimo programa. Šiuo metu plačiausiai žinoma ir pakankamai paprasta vartoti yra ABBY Finereader, paprastai platinama kompaktiniuose diskuose kartu su įsigyjamais skaneriais. Paprastai ji sutinkama dviem variantais – Profesional ir Sprint.

Lengva atspėti, kad Profesional talpina savyje kur kas didesnes galimybes, tačiau yra mokamas, tuo tarpu Sprint platinamas veltui, todėl jis labiau ribotas, bet vis dėlto atitinka būtiniausius vartotojo poreikius.

Įjungus Sprint programą pirmiausia būtina pasirinkti, kokia kalba yra parašytas tekstas, kuris bus skanuojamas. Programa atpažįsta kelias dešimtis kalbų, apribojimas tik tas, kad viename puslapyje ji atpažins tik vieną kalbą – t.y. jei nustatėme lietuvių kalbą ir šiame puslapyje pasitaikė rusiškas, kirilicos abėcėle rašytas teksto fragmentas, jis nebus atpažintas. Vienas iš profesionalaus Finereaderio pranašumų ir yra tai, kad jis viename puslapyje gali analizuoti kelių skirtingų kalbų tekstus.

Sekantis žingsnis – paspaudus mygtuką Scan&Read atsidarys papildomų programos nustatymų langas, kuriame galima pasirinkti:

Portrait arba Landscape – popieriaus lapas skaneryje yra įdėtas stačiais arba gulsčias;

Paper format – lapo dydis, standartinis kanceliarinis popierius yra A4 dydžio, knygos lapas dažniausiai mažesnis per pusę, bet dydžio nustatymą būtų geriau keisti geriau ne čia, o kaip ir skanuojant nuotraukas, perkeliant punktyrinį rėmelį Preview režime.

Brightness – šviesos balansas, akivaizdu, kad skanuojant senus, papilkėjusius knygos lapus vertėtų vaizdą šiek tiek iš anksto pašviesinti.

Pictures scaning mode – iliustracijų tekste skanavimo režimas. Jeigu jos mums nereikalingos, galima šį parametrą ignoruoti, jeigu norime išsaugoti ir jas, teks pasirinkti tinkamiausią režimą – linijinis, nespalvotas, spalvotas.

Resolution – skanavimo skiriamoji geba. Jei skanuojamas tekstas ryškiai matomas, atspausdintas didelėmis raidėmis, gali pakakti ir už 300 dpi mažesnės rezoliucijos, jeigu prasčiau įžiūrimas – ją teks didinti iki 400 dpi ir daugiau.

Paspaudus OK, tekstas bus nuskanuotas ir pagal programos galimybes atpažintas. Jį belieka persiųsti į kurį nors tekstinį redaktorių, pvz. Microsoft Word ir jame ištaisyti programos padarytas atpažinimo klaidas.

Straipsniai.lt

2000 m. gegužės 5 d. įkurtas elektroninis (ISSN) leidinys – mokslui, švietimui, pramogoms ir gyvenimiškoms aktualijoms skirtas portalas www.straipsniai.lt, kovojantis su kasdienine rutina. Šiandien portale paskelbta virš 15000 straipsnių ir naujienų.

Tags:Kompiuteriai, Skaneriai, Technologijos

Pridėti komentarą