Bakke Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Nasjonalbiblioteket holder på å lagre all norsk musikk, film og tekst gjennom tidene på data. Målet er at alt skal bli tilgjengelig på nettet. Les mer Lenke til kommentar
Tordenflesk Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Hvor mye av dette er "public domain"? Lenke til kommentar
Simen1 Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Som en løsning på dette skal hele arkivet digitaliseres, og biblioteket har de siste 18 månedene jobbet med å legge alt over på data. Arbeidet har pågått i en årrekke. Omtrent fra 2000 så vidt jeg kan huske. Den gangen var saken oppe i media fordi en rekke gamle filmruller sto i fare for å gå tapt på grunn av alderdom. TV-serien halvsju ble trukket frem i media som ett av de verkene som trolig ville gå tapt. (Fjernsynsarkivet ligger hos Nasjonalbiblioteket og det er de som digitaliserer det) Lenke til kommentar
toblix Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Går Nasjonalbiblioteket digitalt? Kom igjen... Lenke til kommentar
jorgis Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 At de digitaliserer samlingene sine er noe vi visste, det hadde vært langt mer interessant å få vite mer om hvordan, og spesielt hvilke formater de har valgt til å lagre ulike medietyper best mulig. Dette er jo data som gjerne skal kunne lagres i hundrevis av år, så det hadde vært spennende å se om de har vært lure nok til å styre unna proprietære løsninger. Lenke til kommentar
Redak Tøren Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 (endret) Det er et fantastisk arbeid dem gjør her. Og det med en visjon som må være alle visjoners mor. så det hadde vært spennende å se om de har vært lure nok til å styre unna proprietære løsninger. Selvføgelig styrer dem unna det. Hva tror du? Ingen hadde satt igang med et så stort arbeid uten å sikre seg at det vil være lesbart for alle systemer og for fremtiden. Endret 5. juni 2008 av atomtissetasen Lenke til kommentar
jorgis Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Selvføgelig styrer dem unna det. Hva tror du? Ingen hadde satt igang med et så stort arbeid uten å sikre seg at det vil være lesbart for alle systemer og for fremtiden. Du husker vel at NRK gjorde det geniale sjakktrekk å digitalisere sin samling til det vidunderlige WMV-formatet? Greit nok at NRK oppbevarer litt mindre data enn Nasjonalbiblioteket, men det er likevel en avgjørelse som kommer til å bli veldig trøblete for dem i fremtiden. Lenke til kommentar
jonnor Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Ligger vel i binære .doc dokumenter på en Exchange tjener... Neida Her er Ibsen digitalisert: http://www.nb.no/utlevering/contentview.js...9df20d93f4d7c3a Lenke til kommentar
Fruktkake Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Bestemte de ikke at alt offentlig skulle være i OOorg? Lenke til kommentar
Simen1 Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Jo, det stemmer. Regjeringen: Åpne dokumentstandarder blir obligatoriske i staten Lenke til kommentar
endrebjo Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Jeg syntes i utgangspunktet at 50 petabyte hørtes mye ut, men hvis de digitaliserer det ved å scanne alt inn som høyoppløste bilder, så skjønner jeg bedre hvorfor de trenger så mye. Men da blir ikke tekstene søkbare. Lenke til kommentar
Simen1 Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Jeg tror det er hovedsaklig arkivet til NRK som tar plass og det er neppe lagret i WMA. Det er nok lagret i et eller annet råformat selv om det vi får se er nedkrympede WMA-filer tilpasset nettbruk. Tekster er nok lagret i PDF eller noe sånt som takler både tekst og bilder og gjør teksten søkbar. Musikk er nok lagret i et eller annet tapsløst format selv om det komprimeres ned til mp3 før vi får tak i det. Ellers så har man arkivene fra alle aviser og tidsskrifter som sikkert tar litt plass. Lenke til kommentar
ATWindsor Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Jeg syntes i utgangspunktet at 50 petabyte hørtes mye ut, men hvis de digitaliserer det ved å scanne alt inn som høyoppløste bilder, så skjønner jeg bedre hvorfor de trenger så mye. Men da blir ikke tekstene søkbare. Jeg vil kanskje gjette man gjør begge deler på endel verk? På gamle ting kan det jo være like interessant å se hvordan ting er trykket/skrevet som teksten i seg selv ville jeg tro, uten at jeg har så god peiling på slikt. AtW Lenke til kommentar
KalleKanin Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 (endret) Jeg syntes i utgangspunktet at 50 petabyte hørtes mye ut, men hvis de digitaliserer det ved å scanne alt inn som høyoppløste bilder, så skjønner jeg bedre hvorfor de trenger så mye. Men da blir ikke tekstene søkbare. Jeg vil kanskje gjette man gjør begge deler på endel verk? På gamle ting kan det jo være like interessant å se hvordan ting er trykket/skrevet som teksten i seg selv ville jeg tro, uten at jeg har så god peiling på slikt. AtW Det gjøres begge deler: "For å gjøre det mulig å søke i fulltekst kjøres alle digitaliserte bøker gjennom en OCR-prosess. I ordinær produksjon gjøres denne prosessen helautomatisk, og det gjøres ingen manuell kvalitets-kontroll eller oppretting. Teksten som fremkommer ved OCR-behandlingen, indekseres i vår søkemotor sammen med metadata. Ved søketreff i teksten gis man tilgang til den siden i boka der teksten ble funnet og kan bla videre derfra." "Det digitaliseres for tiden 2 000–3 000 bøker hver måned i Nasjonalbiblioteket. Med dette volumet er det ikke gjennomførbart å gjøre manuell etterkontroll av OCR-behandling og strukturbehandling." Se: Digitalisering av bøker i NB – metodikk og erfaringer Alle bøker man har flere eksemplarer av "slaktes". Dvs de kuttes opp og mates i en skanner omtrent som ark i en arkmater. Det er snakk om så store volumer, at det ville være umulig å skanne alt for hånd. Endret 5. juni 2008 av KalleKanin Lenke til kommentar
jorgis Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere. Lenke til kommentar
jonnor Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Jeg fikk inntrykket av at OCR kun er i bruk for å gi søkemulighet i dokumentene. Og til det er det helt sikkert tilfredstillende nok. Det jeg lurer på er hvordan Nasjonalbiblioteket forholder seg til arkivering av moderne media i digital form. Alt(?) av aviser og bøker i dag lages ved hjelp av digitale verktøy og burde dermed være tilgjenglig i et passende digitalt format. Sammarbeider Nasjonalbilioteket uttover i verdikjeden for å arkivere slikt, eller overlates det til hver enkelt? Lenke til kommentar
ATWindsor Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere. OCR som jeg har prøvd fungerer overraskende dårlig ihvertfall, selv inscannede printede sider har horribel gjennkjennelsesrate. Hvorfor det er så dårlig har jeg aldri helt skjønt, hvorfor de ikke som et mimum sjekker det opp mot ordbøker for å finne mest sannsynlige alternativ er merkelig. AtW Lenke til kommentar
Bolson Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere. OCR som jeg har prøvd fungerer overraskende dårlig ihvertfall, selv inscannede printede sider har horribel gjennkjennelsesrate. Hvorfor det er så dårlig har jeg aldri helt skjønt, hvorfor de ikke som et mimum sjekker det opp mot ordbøker for å finne mest sannsynlige alternativ er merkelig. AtW Proffesjonelle OCR løsninger som man garantert bruker her er koblet mot ordlister. Egen erfaring med slike "dyre" programmer er faktisk meget bra hitrate etter man har kjørt noen lærescann. Lenke til kommentar
efikkan Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 Nasjonalbiblioteket holder på å lagre all norsk musikk, film og tekst gjennom tidene på data. Det er da allerede "data", som betyr informasjon, men nå skal de lagres digitalt. Såpass faglig nivå må vi kunne forvente på denne nettsiden. OCR brukes ikke bare til å søke gjennom bøkene. Det er også en stor fordel hvis bøker kan komprimeres i større grad (tekst tar mindre plass enn bilder). Jeg er litt spent på hvor mange digitale eksemplar som blir lagret. Lenke til kommentar
ATWindsor Skrevet 5. juni 2008 Del Skrevet 5. juni 2008 KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere. OCR som jeg har prøvd fungerer overraskende dårlig ihvertfall, selv inscannede printede sider har horribel gjennkjennelsesrate. Hvorfor det er så dårlig har jeg aldri helt skjønt, hvorfor de ikke som et mimum sjekker det opp mot ordbøker for å finne mest sannsynlige alternativ er merkelig. AtW Proffesjonelle OCR løsninger som man garantert bruker her er koblet mot ordlister. Egen erfaring med slike "dyre" programmer er faktisk meget bra hitrate etter man har kjørt noen lærescann. Jeg skjønner ikke engang at man skal trenge en lærescan for å gjøre det greit på vanlige dokumenter. Et reelt eksempel er å skrive et dokument i word med standard font, lage en PDF av det, kjøre OCR på PDFen (ikke engang scannet, men fila fra "print to pdf), selv da er raten horribel. Jeg er kanskje kravstor, men jeg mener slikt er noe selv en billig OCR-sak burde klare lett. AtW Lenke til kommentar
Anbefalte innlegg