efikkan Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Jeg har litt samme inntrykk som AtW av OCR-løsninger. Det må være manuell kontroll etterpå, og resultatet er ikke serlig imponerende. Håndskrift hadde vært forstålig at det kan være vanskelig, men trykte sider burde 99,99% av ordene bli korrekte. Men jeg har likevel sansen for de scannerene som der jeg kan mate inn en stabel med ark og få den ut som PDF. Lenke til kommentar
Simen1 Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere. De fleste nettsteder har systemer for å unngå at en bot logger seg inn. Enten det er tall og bokstaver som er delvis skjult, utvisket eller kamuflert eller metoder som å skille fra hverandre x antall bilder med katt fra hund eller mann fra dame. En lignende kontroll kunne vært gjort automatisk av leserne ved å presentere et bilde av et par ord med tekst fra nasjonalbibliotekets bøker og be brukeren skrive det ned for å logge inn. OCR-systemet bruker selvsagt de ordene som har lavest treffsannsynlighet. Lenke til kommentar
jorgis Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere. De fleste nettsteder har systemer for å unngå at en bot logger seg inn. Enten det er tall og bokstaver som er delvis skjult, utvisket eller kamuflert eller metoder som å skille fra hverandre x antall bilder med katt fra hund eller mann fra dame. En lignende kontroll kunne vært gjort automatisk av leserne ved å presentere et bilde av et par ord med tekst fra nasjonalbibliotekets bøker og be brukeren skrive det ned for å logge inn. OCR-systemet bruker selvsagt de ordene som har lavest treffsannsynlighet. Du mener reCAPTCHA? Been there, done that, men det blir i så fall noe som bare vil oversette enkeltord og aldri gi det helt store volumet. Jeg tror en løsning à la launchpad ville funket bedre. Lenke til kommentar
Redak Tøren Skrevet 6. juni 2008 Del Skrevet 6. juni 2008 KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere. Dem bruker nok OCR til å indeksere og gi pekere til de aktuelle bildene søkeren skal presentere. Men teksten bør vel være tilgjengelig som et alternativ? For øvrig er en godt kalibrert OCR (Regner med at dem har mange skriv i samme format) bort imot feilfri. Lenke til kommentar
Anbefalte innlegg