TEST: OmniPage 16 klar for spionoppdrag

TEST: OmniPage 16 klar for spionoppdrag

Nå kan du ta bilder av tekst med et digitalkamera og få bildene omgjort til Word-dokumenter med OmniPage 16. En drøm for spioner.

Optisk tekstgjenkjenning – optical text recognition (OCR) – forbinder de fleste av oss med noe man bedriver på et kontor, ved hjelp av en skanner. Med versjon 16 av OmniPage Professional, som vi nå har prøvd, trer scenene fra gamle, sort/hvitt spion- og krigsfilmer frem fra minnene: Helten – eller kanskje det var skurken – i full gang med å knipse bilder av hemmelige dokumenter med et lite Minox-spionkamera.

Kameraet var ikke et Hollywood-påfunn, men et høyst reelt tysk minikamera som har sine røtter helt tilbake til 1930-tallet, dyrt som en Rolex-klokke og tidvis bare tilgjengelig for det militære og etterretningsvesenet.

OmniPage 16

Pris: kr 4 487 inkl. mva.
Importør: InfoShare Solutions AS
Internett: www.infoshare.no

Etter endt spionoppdrag måtte filmen, med sine bitte små 8 x 11 mm-negativer, sendes til fremkalling, og så fikk man håpe at de fotograferte dokumentene var lesbare.

Hvis du er spion, kan du bytte ut ditt gamle filmbaserte Minox TLX-kamera ...

... med et digitalt Minox DC7022 – eller et hvilket som helst annet digitalkamera.

Senarioet kunne ha vært det samme i dag, med et par viktige endringer: Minox-kameraet kunne ha vært byttet ut med et hvilket som helst bittelite kompakt digitalkamera verdt en Casio-klokke (eller en mobiltelefon), og mørkerommet ville vært erstattet av OmniPage Professional 16, som ikke bare gjør teksten lesbar, men også presenterer den for deg som et redigerbart pdf- eller Word-dokument.

Kanskje er det stavekontrollen i Word som avslører spionasje-hemmeligheten i dokumentet, fordekt som en skrivefeil?

Nok spionfantasi. OmniPage er et ocr-program som har vært med oss siden siste del av 1980-tallet, noe det høye versjonsnummeret vitner om. Programmets eier er i dag Massachusetts-firmaet Nuance, som leverer tekst- og talegjenkjenningsløsninger. Selskapet hevder at OmniPage er verdens mest nøyaktige ocr-programvare.

Om påstanden holder vann, vet vi ikke, for vi har i denne omgang ikke sett på konkurrentene, bare prøvd OmniPage Professional 16 separat.

Mange oppgaver

OmniPage Professional 16 er mye mer enn et tekstgjenkjenningsprogram. Som i tidligere versjoner inneholder programpakken også tilleggsprogrammer og -moduler for blant annet å konvertere innskannet tekst til pdf-dokumenter – PDF Create! 4 – og for å administrere dokumenter – PaperPort 11. Pakken inneholder også et skjema-analyseverktøy, Logical Form Recognition, som kan gjøre om dokumenter og skjemaer til 30 forskjellige formater.

Denne utfordringen ble litt for tøff for OmniPage: en delvis krøllete avisside fra Computerworld fotografert med digitalkamera. Med ordinære utskrifter av tekstbehandlingsdokumenter fikk vi mye bedre resultater.

Foruten digitalkamera-muligheten omfatter nyhetene i versjon 16 enda mer nøyaktig tekstgjenkjenning med enda høyere hastighet enn før – angivelig 27 prosent økt hastighet og opptil 46 prosent høyere hastighet. Vi har ikke målt hastigheten mot forrige versjon, men kan fastslå at nøyaktigheten er god – og så vidt vi kan bedømme med god ocr-hastighet. Etter å ha brukt OmniPage jevnlig siden fra før 1990, kjenner vi programmet godt nok til å kunne si at vi har en klar følelse av at det er blitt enda mer effektivt i siste versjon.

Øvrige nyheter omfatter mulighet for å maskere, utheve og gjennomstreke tekst. I tillegg er programmet nå kompatibelt med Word, Excel og PowerPoint i Microsoft Office 2007-versjonen – hadde det ikke vært det, burde vel heller ikke den nye versjonen vært lansert ennå.

Interaktiv introduksjon

Første gang du starter programmet, møtes du av en interaktiv gjennomgang av nyhetene. Samtidig får du en kortfattet bruksanvisning for de viktigste prosessene som programmet kan brukes til, blant annet automatisk eller manuell tekstgjenkjenning og arbeidsflyt for å hente data fra skjemaer.

Bruker man OmniPage bare av og til, er det vel greit å gjøre jobben «manuelt». Men hvis du skal bruke programmet hyppig, er det tid å spare på å sette opp en gjennomtenkt arbeidsflyt først. Tiden som går med til det, sparer man fort inn igjen. Man kan velge blant en del forhåndsdefinerte arbeidsflytoppsett, som tekst til pdf eller til Word, eller lage sine egne.

LES OGSÅ: Pdf uten Adobe Acrobat

For eksempel er det mest effektivt å skanne større tekstdokumenter ved hjelp av automatisk arkmater på skanneren. Men ikke alle har det. Man kan lage seg sin egen halvautomatiske skanneløsning ved å velge automatisk skanning og definere hvor mange sekunders pause det skal være mellom hvert ark man legger inn. Og så får man bare prøve å holde tritt med programmet i å skifte til neste ark.

Tale – på svensk

Av andre avanserte funksjoner nevner vi talemodus, som kan være til nytte for synshemmede. Klikk på en linje av den innskannede teksten, og den blir lest opp. Ved hjelp av tastekombinasjoner kan man få lest opp ulike deler av teksten.

Man kan velge mellom amerikansk og britisk engelsk samt de største europeiske språkene og noen til – inkludert svenske Ingrid. Men ingen på norsk.

Men selv om programmet bare kan lese tekst på et fåtall språk, er språkforståelsen stor. I alt kan programmet tolke tekst på over 100 språk.

LES OGSÅ: Fra tale til tekst

Pdf-formatet er blitt svært utbredt, og OmniPage Professional 16 tar gjerne imot tekst fra pdf-filer og omgjør dette til redigerbar tekst. Med PDF Create! 4.0 er det kjapt å få konvertert ferdigbehandlede dokumenter til pdf-format.

Fungerer digitalkameraet?

Noe av det vi var mest spent på, var om programmet virkelig ville greie å tolke tekst som vi hadde fotografert. Med digitalkamera tok vi et vidvinkelbilde av et A4-ark på skrivebordet, i en litt skrå vinkel slik at det ble en skikkelig 3D-effekt i bildet. Vi brukte riktignok ikke noe billig kompaktkamera, men et velvoksent Canon EOS-40D speilreflekskamera med høy oppløsning og bra optikk. Med 17 mm vidvinkel (tilsvarende cirka 28 mm omregnet til 35 mm-filmformat) var det vanskelig å unngå at selve teksten ble en ganske liten del av bildeflaten – vi fikk med mye av skrivebordet også.

Likevel gikk det ganske bra. Et par navn med æ og ø gikk galt, men ellers fungerte det som det skulle. Det meste av formateringen forble inntakt, bortsett fra at noen ord øverst på arket ble kursivert. Men så var de jo også fotografert ganske mye «på skrå».

Et tilsvarende forsøk med en halvkrøllete avisside gikk derimot dårligere.

Når man bruker digitalkamerainnhenting av tekst, settes oppløsningen automatisk opp, tekstlinjer blir gjort rette og en funksjon som kalles Deskew trer i kraft for å justere perspektivet.

Vi kan bare fastslå at spionene har fått seg et nytt verktøy. Ikke bare dem, men vi andre også. Forutsatt at vi greier å finne situasjoner der man kan tenke seg å ha praktisk nytte av å fotografere i stedet for å skanne tekst, utenom det som har med spionering og eksamensjuks å gjøre.

Vi utfordret redaksjonen til høyttenkning om dette, og registrerte overraskende mange seriøse forslag: Kanskje man jobber med dokumenter i formater som ikke passer i skanneren; kanskje ser man tekst i en PowerPoint-presentasjon som ikke blir delt ut av foredragsholderen, men som man likevel vil ha med seg; kanskje finner man nyttig tekst på en plakat på en messe eller utstilling – det var visst ingen grenser for anvendelsesmuligheter.

Konklusjon

Med versjon 16 er OmniPage Professional blitt et enda bedre ocr-program, raskt og effektivt, og med nyttige nyheter, som for eksempel støtte for Ecma Open XML, som brukes i Microsoft Office 2007. Det støtter også XML Paper Specification (XPS), som betegnes som en viktig nytt format for «elektronisk papir». Dessuten har OmniPage, angivelig som det første ocr-programmet på markedet, fått maskering av følsomme data innbakt som en del av skanneprosessen ved at sensitive ord og setninger kan legges inn i en liste før skanningen. Deretter blir disse begrepene maskert.

Det kan høres vanskelig ut å komme med vesentlige nyheter i et program som har eksistert så lenge, men Nuance har greid det nok en gang. Det legger listen høyt for neste versjon.

OmniPage 16

Pris: kr 4 487 inkl. mva.
Importør: InfoShare Solutions AS
Internett: www.infoshare.no

Pluss: Nøyaktig tekstgjenkjenning, kan til og med tolke tekst fra digitalfoto.

Minus: Ikke norsk tale.

Les om:

Utvikling