Gå til innhold

Anbefalte innlegg

Videoannonse
Annonse

Med både tegnsettene Windows-1252 og ISO 8859-1 har tegnet Ø ASCII-koden tallkoden 216 og tegnet Ö ASCII-koden tallkoden 214.

 

Edit: Det blir feil å si "ASCII-koden" da ASCII er definert for verdiene 0-127 (7 bit). De aller fleste tegnsett følger ASCII for tallkodene 0-127.

Endret av jonny
Lenke til kommentar

For å svare på en litt annen måte.

Hvert tegn har et unikt nummer i tegnsettet det er laget i. De fleste tegnsett tar utgangspunkt i ASCII tegnsettet, så "abc" blir fortsatt "abc" hvis du oversetter direkte fra ASCII til f.eks UTF8.

 

Tegnsett har også ingenting med språk å gjøre. Et tegnsett kan godt være laget med et språk i tankene, men tegnsettet i seg selv har ingen kjennskap til dette språket. Så et tegnsett vet ikke om du vil "se teksten på svensk" eller "se teksten på norsk".

Det finnes noen tegnsett som "extended ASCII" som inneholder tegn som æøå. Og de dekker for det meste europeiske tegn.
Som du kanskje skjønner får dette store problemer når maskiner på tvers av verdensdeler snakker sammen. F.eks hvis en nettlesere på en japansk pc skal vise en side fra russland så er det neppe russisk som dukker opp.

Det er derfor vi har UTF8. UTF8 inneholder alle tegnene for alle språkene. Skandinaviske, russiske, kinesiske, arabiske, etc..

 

Men tilbake til spørsmålet: O, Ø og Ö deler aldri samme nummer i et tegnsett.

Lenke til kommentar
  • 3 uker senere...

Bare for å være litt grei - det hadde ikke vært umulig at et eller annet par med gamle tegnsett hadde hatt æøå /  äöå på samme posisjoner avhengig av om man brukte den dansk/norske eller svensk/finske varianten; verre ting har absolutt skjedd.

 

Jeg tror ikke det faktisk har forekommet, men om jeg sier "aldri" graver sikkert en av dere frem et par 6-bits uppercase-only hullkort-baserte IBM-standarder fra 1951 implementert én gang av norsk regnesentral som en intern spøk.

Endret av Djn
Lenke til kommentar

Bare for å være litt grei - det hadde ikke vært umulig at et eller annet par med gamle tegnsett hadde hatt æøå /  äöå på samme posisjoner avhengig av om man brukte den dansk/norske eller svensk/finske varianten; verre ting har absolutt skjedd.

 

Jeg tror ikke det faktisk har forekommet, men om jeg sier "aldri" graver sikkert en av dere frem et par 6-bits uppercase-only hullkort-baserte IBM-standarder fra 1951 implementert én gang av norsk regnesentral som en intern spøk.

 

Jeg lo:-)

Lenke til kommentar

Bare for å være litt grei - det hadde ikke vært umulig at et eller annet par med gamle tegnsett hadde hatt æøå /  äöå på samme posisjoner avhengig av om man brukte den dansk/norske eller svensk/finske varianten; verre ting har absolutt skjedd.

 

Man bruker uansett ikke to forskjellige tegnsett i samme melding.

 

Lenke til kommentar

 

Bare for å være litt grei - det hadde ikke vært umulig at et eller annet par med gamle tegnsett hadde hatt æøå /  äöå på samme posisjoner avhengig av om man brukte den dansk/norske eller svensk/finske varianten; verre ting har absolutt skjedd.

 

Man bruker uansett ikke to forskjellige tegnsett i samme melding.

 

 

 

Tjah, det finnes absolutt standarder hvor man kan signalisere (inline) et bytte mellom forskjellige tegnsett- men det er typisk mellom bokstaver og tegn/tall, ikke språkvarianter*. Dessuten er det vel lite utenom telex som har brukt sånt i moderne tid. **

 

Hvis vi skal være ordentlig pirkete - som helt klart er veien å gå: Det at vi kan vise ø og ö i samme post betyr - gitt at det ikke byttes inline - at det finnes minst ett tegnsett hvor de ikke overlapper. Det betyr ikke at det nødvendigvis er sant for alle tegnsett ***. Sammenlign med tastatur-scancodes, hvor ø og ö har samme tallverdi på et normalt tastatur, og hva man får opp avhenger av tastaturlayouten det blir oversatt av. :green:

 

 

* Sånn bortsett fra f.eks. russisk Baudot som hadde en kyrillisk og en latinsk blokk, men det blir vel noe litt annet.

** Jeg arvet en 80talls-maskin som brukte en bestemt verdi for "resten av linjen skal bruke blokksymboler i stedet for vanlige tegn/tall/bokstaver", og en annen verdi for å bytte tilbake; selv da den var ny var det antageligvis litt pussig.

Det hadde kanskje også gått an å snekre sammen en email som brukte MIME til å ha forskjellige blokker i forskjellige tegnsett, men a) hvorfor og b) jeg tviler på at mange klienter hadde vist det riktig.

*** Selv om jeg altså ikke tror det finnes noen moteksempler, spesielt ikke fra moderne tid.

Endret av Djn
Lenke til kommentar

Bare for å være litt grei - det hadde ikke vært umulig at et eller annet par med gamle tegnsett hadde hatt æøå /  äöå på samme posisjoner avhengig av om man brukte den dansk/norske eller svensk/finske varianten; verre ting har absolutt skjedd.

 

Jeg tror ikke det faktisk har forekommet, men om jeg sier "aldri" graver sikkert en av dere frem et par 6-bits uppercase-only hullkort-baserte IBM-standarder fra 1951 implementert én gang av norsk regnesentral som en intern spøk.

ISO 646. Og flere andre tegnsett fra "gamle dager". Vintage computing rocks!

Lenke til kommentar

 

For å omformulere litt...

Er O med tøddler det samme som svenske Ö ?

 

 

Den delen av spørsmålet glemte vi visst å svare på. Svaret er ja.

 

Det er altså 3+3 tegn:

O + o

Ö + ö

Ø + ø

 

O med ¨ over er ikke et eget tegn.

 

Så er det sånn at ikke alle tegnsett inneholder Ö og/eller Ø. De som bare inneholder én av dem kan ha dem på samme plass, se innlegget over ditt.

 

Heldigvis har vi unicode, som alle bør bruke. Da enten UTF-8 eller UCS-2, avhengig av bruksområdet.

Lenke til kommentar

ISO 646. Og flere andre tegnsett fra "gamle dager". Vintage computing rocks!

 

 

Jeg er ikke enormt overrasket. Forsåvidt logisk at det er en 7-bits-standard; de har ikke akkurat plass til overs. :)

 

 

 

For å omformulere litt...

Er O med tøddler det samme som svenske Ö ?

 

 

Den delen av spørsmålet glemte vi visst å svare på. Svaret er ja.

 

Det er altså 3+3 tegn:

O + o

Ö + ö

Ø + ø

 

O med ¨ over er ikke et eget tegn.

 

Så er det sånn at ikke alle tegnsett inneholder Ö og/eller Ø. De som bare inneholder én av dem kan ha dem på samme plass, se innlegget over ditt.

 

Heldigvis har vi unicode, som alle bør bruke. Da enten UTF-8 eller UCS-2, avhengig av bruksområdet.

 

Ha, Unicode gjør det svaret litt mindre absolutt. :D

 

Ö kan lagres på to forskjellige måter i unicode - Precomposed og Decomposed. De betyr omtrent det det høres ut som:

Decomposed form av Ö er O¨ (004F 0308 , "Latin Capital Letter O" fulgt av "Combining Diaresis"), mens

Precomposed form av Ö er Ö (00D6, "Latin Capital Letter O with Diaresis").

 

(Men merk at Emancipate har helt rett - o med tødler er identisk med svensk ö. Dette er to måter å lagre det ene tegnet.)

 

De er ment å fungere helt identisk i alle sammenhenger (sortering, sammenligning, telling av antall tegn, utseende). Precomposed er best støttet og tar mindre plass, men det er ikke gitt at alle mulige kombinasjoner av grunntegn og tillegg faktisk finnes precomposed. Decomposed lar deg sette sammen hva som helst, om du virkelig trenger en n med aksent og ring (ń̊); historisk har ikke alle fonter og systemer klart å vise alle kombinasjoner riktig.

 

Jeg har også gått på noe grums med linux-filsystem hvor du kan klare å få to filer med samme navn (det ene decomposed og det andre precomposed) og ting går spennende galt derfra. Det er vanskelig å få til uten å lage filnavn fra kode som gjør veldig eksplisitte ting med unicode, heldigvis.

 

edit: Og jeg har med en gang et eksempel: n+aksent+ring fungerer i edit-feltet for meg, men i posten henger ringen etter i stedet for over.

Endret av Djn
  • Liker 1
Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...