Hvorfor felles tegnsett?

I forskrift om IT-standarder settes krav til bruk av standard for tegnsett, både ved utveksling av informasjon og i interne systemer. Hver enkelt virksomhet er selv ansvarlig for at disse kravene etterleves. Hvorfor er det viktig å etterleve disse kravene?

Publisert: 10. feb 2017, Sist endret: 26. mai 2019

Mange har opplevd å se tekstforandringer som «Spørre» i stedet for «spørre». Dette skjer fordi systemer bruker ulike tegnsett. Slike ulikheter skaper problemer i samhandling mellom interne systemer, mellom offentlige virksomheter og mellom offentlige virksomheter og innbyggere/ næringsliv.

I Norge er det et lovkrav om å støtte samisk språk og kulturarv. Mange offentlige virksomheter tilfredsstiller ikke dette kravet, fordi systemene deres baserer seg på et tegnsett uten støtte for samiske tegn.

Norge har den senere tid utviklet seg raskt i retning av å bli et flerkulturelt samfunn, og et samfunn i tett kontakt med mange internasjonale partnere. Det gir behov for å støtte et stadig økende antall tegn, utover de 29 bokstavene vi lærer i norsk offentlig skole.

For å unngå samhandlingsproblemer og for å tilfredsstille krav til støtte av tegn utover det norske alfabetet, er det vedtatt å innføre felles tegnsett i offentlig sektor.

Offentlig sektor gjennomgår en utvikling der stadig flere systemer integreres med hverandre. Mange integrerte systemer kompliserer overgang til nytt felles tegnsett, og ofte argumenteres det med at man må benytte et eldre begrenset tegnsett fordi det er det samhandlende systemer benytter. Det er derfor viktig å legge om til felles tegnsett så raskt som mulig, før ytterligere integrasjoner blir gjennomført.

Hva er tegnsett?

Når vi skriver bruker vi ulike tegn; bokstaver, tall og symboler til å skrive ord som uttrykker det vi ønsker å formidle. Over mange år har ulike kulturer blitt enige om hvilke tegn de skal benytte i sine respektive skriftspråk.

ISO/IEC 10646, Universal Coded Characterset (UCS), er en standard som definerer alle tegn, over hundre tusen av dem, ved å gi dem et navn og et unikt tall som identifiserer det spesifikke tegnet.

UTF-8 er en av mange alternative måter å kode hvordan tegnene definert i ISO/IEC 10646 skal representeres i IT-systemer. Hvilke enere og nuller som benyttes for å beskrive tegnet. I UTF-8 er f.eks. bokstaven Å representert ved «10011011 01100110». Unicode er den offisielle måten å representere ISO/IEC 10646. UTF-8 er en del av Unicode.

Det finnes mange alternative standarder til Unicode, som har sin måte å kode tegn på. En svært vanlig metode i Norge er ISO 8859-1, også kalt Latin-1. I ISO 8859-1 er Å representert ved «10010101». Alle de 29 norske bokstavene, med unntak av æøå, er like i UTF-8 og Latin-1. Derfor oppleves feil som regel knyttet til disse bokstavene.

Fonter har motsatt funksjon av ISO/IEC 10646 og UTF-8, her tas tallene fra kodingen og gjør dem om til grafiske tegn som vi kan lese på skjermen.

Det finnes mange varianter av liknende tegn (a, à, ä, â, á, ã, å, etc.). De skilles av diakritiske tegn, spesielle merker eller grafiske tegn som plasseres over eller under det opprinnelige tegnet. Eksempler er akutt aksent(ˊ) eller grav aksent(ˋ).

En del offentlige virksomheter benytter seg av stormaskiner. Et vanlig tegnsett i stormaskinmiljø er EBCDIC. Dette er annerledes enn de som er beskrevet over og har andre begrensninger.

Skatteetatens sentrale folkeregister er et av de systemene som kjøres på stormaskin med EBCDIC. Her har man kun tilgjengelig følgende diakritiske tegn Ä, Á, É, È, Ô, Ö og Ü. Nå jobbes det med å fornye folkeregisteret. Når et nytt folkeregister blir etablert, vil det få støtte for alle tegn. Dette må brukere av folkeregisterdata være forberedt på.

ISO 8859-1

ISO 8859-1 benytter koder som har en fast lengde på en byte (åtte bit). Det betyr at det er mulig å representere 256 forskjellige symboler. Tegnsettet inneholder de aller fleste symboler som inngår i de vesteuropeiske språkene, men inneholder ikke de seks nordsamiske symbolene Č, č, Đ, đ, Ŋ, ŋ, Š, š, Ŧ, ŧ, Ž, ž i store og små representasjoner.

For litt eldre systemer er ulike varianter av ISO 8859-1 av de mest brukte tegnsettene. Noen av fordelene med tegnsettet er at alle kodene har samme lengde (en byte) og at de er kompakte. Utfordringene med slike kompakte tegnsett er at de bare kan representere et svært begrenset antall tegn. Det finnes derfor flere varianter av tegnsettet, hvor hver variant inneholder de symbolene som brukes i ett eller et begrenset antall språk. Dette betyr at den samme koden kan representere forskjellige symboler, avhengig av hvilken variant av tegnsettet som er i bruk. Hvis man utveksler informasjon mellom to systemer som er satt opp til å bruke forskjellige varianter av tegnsettet eller ulike tegnsett, vil ikke informasjonen bli representert riktig i det mottagende systemet. I Norge er denne problematikken spesielt tydelig med de særnorske bokstavene æ, ø og å, som ofte blir tapt eller erstattet av andre symboler i overføring mellom to systemer.

 

ISO/IEC 8859-1

 

x0

x1

x2

x3

x4

x5

x6

x7

x8

x9

xA

xB

xC

xD

xE

xF

0x

ikke brukt

1x

2x

SP

!

"

#

$

%

&

'

(

)

*

+

,

-

.

/

3x

0

1

2

3

4

5

6

7

8

9

:

;

<

=

>

?

4x

@

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

5x

P

Q

R

S

T

U

V

W

X

Y

Z

[

\

]

^

_

6x

`

a

b

c

d

e

f

g

h

i

j

k

l

m

n

o

7x

p

q

r

s

t

u

v

w

x

y

z

{

|

}

~

 

8x

ikke brukt

9x

Ax

NBSP

¡

¢

£

¤

¥

¦

§

¨

©

ª

«

¬

SHY

®

¯

Bx

°

±

²

³

´

µ

·

¸

¹

º

»

¼

½

¾

¿

Cx

À

Á

Â

Ã

Ä

Å

Æ

Ç

È

É

Ê

Ë

Ì

Í

Î

Ï

Dx

Ð

Ñ

Ò

Ó

Ô

Õ

Ö

×

Ø

Ù

Ú

Û

Ü

Ý

Þ

ß

Ex

à

á

â

ã

ä

å

æ

ç

è

é

ê

ë

ì

í

î

ï

Fx

ð

ñ

ò

ó

ô

õ

ö

÷

ø

ù

ú

û

ü

ý

þ

ÿ

ISO/IEC 10646

Tegnsettet ISO/IEC 10646 er strukturert i 128 grupper, som består av 256 plan, som består av 256 rader, som igjen består av 256 celler. I teorien kan dermed ISO/IEC 10646 inneholde til sammen 2.147.483.648 unike tegn. På grunn av begrensninger i lovlige kombinasjoner er imidlertid tegnsettet begrenset til maksimalt 679.477.248 unike symboler. Dette er likevel tilstrekkelig til at tegnsettet kan inneholde alle symboler som brukes i alle språk i verden, i tillegg til en rekke andre spesialsymboler.  De drøyt 110.000 symbolene som er definert i dag dekker praktisk talt alle skriftspråk i bruk. Det foregår fortsatt arbeid med å inkludere for eksempel historiske språk.

Fordelen med å bruke et tegnsett som har en unik kode for hvert eneste symbol er at alle da kan bruke det samme tegnsettet, uansett hvilke symboler de har behov for å representere. Når man utveksler informasjon mellom to systemer som begge bruker ISO/IEC 10646, er man derfor sikker på at den samme koden representerer det samme symbolet i begge systemer. Man skal da ikke oppleve at symboler går tapt eller erstattes av andre symboler etter overføring.

En potensiell utfordring med et tegnsett som er så omfattende som ISO/IEC 10646 er at koden til hvert symbol tar mye større plass, og at mengden data som må overføres blir høyere enn i de enklere tegnsettene. ISO/IEC åpner imidlertid for at kodene kan representeres på ulike måter for å dekke ulike behov. Hvis hastighetshensyn veier tyngst, for eksempel i en database, er det en fordel at alle kodene har samme lengde. I så fall vil man kunne velge å lagre hver kode i fire byte (32 bit). Ved overføring av data ønsker man ofte å begrense datamengden. Da er det mer hensiktsmessig å velge en mer kompakt representasjon, slik som UTF-8 som bruker et variabelt antall bytes avhengig av tegn som representeres. I tillegg til disse ytterpunktene finnes det også representasjoner som balanserer ulike hensyn. Felles for alle disse representasjonene er at de kan representere alle symbolene som er definert i ISO/IEC 10646, og at representasjonene kan leses slik at det samme symbolet har den samme koden uansett representasjon. Dette betyr at så lenge man er enige om representasjonen, så kan alle symboler overføres uten tap eller forvrenging av data.

UTF-8

UTF-8 er en av de mest vanlige og kompakte representasjonene av ISO/IEC 10646. UTF-8 har variabel lengde. Avhengig av tegn som skal representeres i UTF-8 benyttes mellom 1 og 4 bytes. UTF-8 er strukturert slik at de vanligste symbolene (med utgangspunkt i det latinske alfabetet) kan representeres med koder på èn byte (8 bit). Faktisk er de 128 første symbolene i UTF-8 identiske med symbolene i ISO 8859-1. De neste 1.920 symbolene er representert med koder på to byte (16 bit). Dette inkluderer resten av det latinske alfabetet i tillegg til alle de andre vanligste europeiske alfabeter (gresk, kyrillisk, etc.), samt bl.a. hebraisk og arabisk. Praktisk talt ingen symboler som er i bruk i dag har behov for mer enn tre byte.

Antall kode-bit

Antall symboler

Antall byte

1. byte

2. byte

3. byte

4. byte

5. byte

6. byte

7

128

1

0xxxxxxx

 

 

 

 

 

11

2048

2

110xxxxx

10xxxxxx

 

 

 

 

16

65536

3

1110xxxx

10xxxxxx

10xxxxxx

 

 

 

21

2097152

4

11110xxx

10xxxxxx

10xxxxxx

10xxxxxx

 

 

26

67108864

5

111110xx

10xxxxxx

10xxxxxx

10xxxxxx

10xxxxxx

 

31

2147483648

6

1111110x

10xxxxxx

10xxxxxx

10xxxxxx

10xxxxxx

10xxxxxx

I UTF-8 er noen bits reservert til koder som forteller hvor mange bytes som er nødvendig for å representere hvert symbol som beskrevet i tabellen over. Med UTF-8 oppnår man dermed å kunne representere alle tegnene som er definert i ISO/IEC 10646, men at tekst som er basert på de vanligste språk og symboler likevel blir tilnærmet like kompakte som ved bruk av ISO 8859-1.

EBCDIC

Extended Binary Coded Decimal Interchange Code (EBCDIC) er en tegnkoding basert på 8 bit og som stort sett benyttes i IBM stormaskinmiljø. På samme måte som for ISO 8859-1 har EBCDIC støtte for kun en brøkdel av tegnene i ISO/IEC 10646, siden kun 8 bit er tilgjengelig. Det finnes derfor ulike varianter av EBCDIC, med plassering av ulike tegn på ulike koder, kalt ulike code pages. De ulike variantene har satt sammen ulike sett med tegn tilpasset ulike geografiske områder. De ulike variantene kan ikke benyttes i samhandling, da ulike tegn er kodet med samme kode i ulike områder.

For noen år tilbake gjorde skatteetaten en justering av hvilke codepages som benyttes i folkeregisteret og man fikk støtte for akutt a, som er det mest brukte samiske tegn benyttet i navn.

Krav til felles tegnsett

Regjeringen besluttet i en revisjon av Forskrift om IT-standarder i offentlig sektor våren 2011, at alle offentlige virksomheter skal benytte felles tegnsett. Forskriften gjelder alle statlige og kommunale virksomheter underlagt forvaltningsloven. Kravene er beskrevet under.

Interne systemer

Forvaltningsorganer som gjør større omlegginger gjennom nyetablering eller videreutvikling av alle IT-løsninger, skal støtte ISO/IEC 10646.

Alle tegn skal støttes, men det er valgfritt for den offetnlige virksomheten å velge representasjon av tegnene.

 

Ekstern kommunikasjon

Ved all utveksling av informasjon mellom forvaltningsorganer og fra forvaltningsorgan til innbyggere og næringsliv skal tegnsettstandarden ISO/IEC 10646 representert ved UTF8 benyttes. Inntil videre aksepteres det en begrenset støtte av tegn, til de som finnes i ISO 8859-1 supplert med ytterligere 6 nordsamiske tegn i store og små representasjoner (Č, č, Đ, đ, Ŋ, ŋ, Š, š, Ŧ, ŧ, Ž, ž).

Er det en særlig uforholdsmessig byrde å oppfylle den obligatoriske standarden, kan forvaltningsorganet unnlate helt eller delvis å oppfylle kravet. Forvaltningsorganet skal straks melde fra til Direktoratet for forvaltning om dette og begrunne hvorfor det unnlater å oppfylle kravet.

Det ble gitt en overgangsordning for kommunikasjon med eksterne systemer, der statlig sektor skal tilfredsstille kravet fra 1. januar 2012 og kommuner skal tilfredsstille kravet fra 1. januar 2013.

 

Fremtidige krav

De fleste offentlige virksomheter har i en periode basert mange av sine IT-systemer på tegnsettstandarden ISO 8859-1. Gjeldende krav ble derfor begrenset til ISO 8859-1 tegnene med de lovpålagte samiske tegnene som ikke inngår i ISO 8859-1 i tillegg. Dette ble gjort for å forenkle overgangen. Denne begrensningen er ment som midlertidig. Planen er å utvide kravet til å gjelde alle tegn i ISO/IEC 10646.

Difi har sett at offentlig ansatte kan ha utfordringer med manuell håndtering av tegn de ikke har lært på skolen. Det vurderes derfor om det skal gis retningslinjer for hvilke tegn som skal brukes i praktiske forvaltningsoppgaver. En slik begrensning vil derimot ikke påvirke de tekniske kravene til systemene, som skal kunne håndtere endringer over tid. Det fremtidige tekniske kravet vil derfor være alle tegn definert i ISO/IEC 10646 både for interne systemer og for utveksling av informasjon.

Hvem gjelder kravene for?

Kravene gjelder for alle offentlige virksomheter underlagt forvaltningsloven.

Når gjelder kravene fra?

Det obligatoriske kravet om å støtte ISO/IEC 10646 i alle interne systemer ble gjort gjeldene umiddelbart i 2011. Dette gjelder alle nye systemer eller ved større endringer.

Det obligatoriske kravet om å støtte ISO/IEC 10646 representert ved UTF-8 i informasjonsutveksling gjelder all kommunikasjon med andre offentlige virksomheter, innbyggere og næringsliv, fra 1.1.2012 for statlige virksomheter og 1.1.2013 for kommunale virksomheter.

Når er ulike tegnsett en utfordring

Ulike tegnsett er en utfordring knyttet til samhandling mellom systemer. Særlig når utvekslingen skjer i form av formater eller protokoller som ikke har definert hvilket tegnsett som benyttes. Feilene ses gjerne i sammenheng med æøå og tegn utover det norske alfabet, da de 128 første tegnene er like i Latin-1(8859-1) og UTF-8, som er de vanligste tegnsettene i bruk.

Ved bruk av databaser skjer konvertering som regel automatisk iht. til det behovet applikasjonen som benytter databasen trenger. Dette gjør at informasjonen enkelt kan oversettes. Når applikasjoner som benytter samme database benytter ulike tegnsett, vil en applikasjon som benytter et tegnsett med støtte for færre tegn enn den andre applikasjonen vaske bort de tegnene den ikke støtter selv.

Noen ganger støtter begge systemene som utveksler informasjon felles tegnsett og systemansvarlig kan tenke at dette går bra. I flere tilfeller har man derimot sett at integrasjonsløsningen ikke nødvendigvis støtter fullt tegnsett, og det oppstår feil.

URL-er er skrevet i US-ASCII, mange tar ikke høyde for dette når de skal importere informasjon fra URL-er og de får dermed feil i informasjonen som innhentes.

Tolkning av kravene

Hvilke virksomheter er berørt av kravene i forskriften?

Alle offentlige virksomheter underlagt forvaltningsloven er berørt.

Forskriften gjelder i utgangspunktet for alle IT-systemer i offentlig sektor, men er mest relevant for systemer som inneholder personnavn, organisasjonsnavn, stedsnavn og adresser, samt systemer som håndterer inngående og utgående brev til utlandet. Det er som regel i disse sammenhenger at andre tegn utover det norske alfabetet benyttes.

Hvordan skal berørte virksomheter forholde seg til forskriften?

Forskriften krever at alle IT-systemer som benyttes i offentlig sektor skal implementere full støtte for tegnsettet ISO/IEC 10646, og skal kunne utveksle informasjon representert i UTF-8.

Selv om forskriften begrenser kravet til utveksling til kun å gjelde tegnene fra tegnsettet ISO Latin (ISO 8859-1) supplert med de 6 nordsamiske tegnene i store og små representasjoner (Č, č, Đ, đ, Ŋ, ŋ, Š, š, Ŧ, ŧ, Ž, ž ), vil det i de fleste sammenhenger være mer ressurskrevende å lage spesialordninger for de nordsamiske tegnene enn å håndtere det komplette tegnsettet i ISO/IEC 10646.

Det er viktig at alle berørte virksomheter, ved nyanskaffelser eller større omlegging av allerede eksisterende systemer, følger kravet om å implementere full støtte for ISO/IEC 10646 internt og følger ISO/IEC 10646, representert ved UTF-8 i utveksling av informasjon.

Erfaring fra ulike offentlige virksomheter tilsier at de fleste ønsker å representere ISO/IEC 10646 ved hjelp av UTF-8 også i interne systemer.

Tegnsett internt i fagsystemer

Når en offentlig virksomhet foretar større omlegginger eller når det implementeres et nytt fagsystem, så skal man samtidig implementere støtte for tegnsettstandarden ISO/IEC 10646. Dette ivaretas av virksomheten ved å stille krav til dette som en del av kravspesifikasjonen.

Det kan være vanskelig å vurdere hva som ligger i ”større omlegginger” eller ”nyetablering”.  En naturlig tolkning kan være at arbeidet med å implementere støtte for tegnsettet ikke utgjør en betydelig del av kostnaden for det totale prosjektet. Hensikten bak bestemmelsen er å sikre at offentlige virksomheter gradvis skal gå over til felles tegnsettstandard.

Dette betyr at det ikke er nødvendig å gjennomføre endring av tegnsett i eksisterende fagsystemer uten at det samtidig gjennomføres en større oppgradering av systemet. Her ligger det en økonomisk fornuftig, men langsiktig tenking som innebærer at man ikke vil oppnå en overgang til full støtte for ISO/IEC 10646 før om noen år. Det er imidlertid krav om at alle nye systemer som anskaffes skal ha støtte for ISO/IEC 10646.

Tegnsett ved utveksling av informasjon

Ved utveksling av informasjon mellom offentlige virksomheter og i dialog med innbyggere/ næringsliv, skal man benytte ISO/IEC 10646 representert ved UTF-8. Dette innebærer at også eksisterende utveksling som i dag benytter andre tegnsett, skal oppdateres til å benytte UTF-8.

Utveksling av informasjon internt i virksomheten er ikke omfattet av forskriftskravet. Det er derimot en utvikling mot å gjøre stadig flere interne grensesnitt tilgjengelig for eksterne samarbeidsparter. Det bør derfor vurderes om ikke bruk av ISO/IEC 10646 representert ved UTF-8 også kan være fornuftig valg mellom interne systemer.

For å lette overgangen er det ikke stilt krav om full støtte for ISO/IEC 10646 representert ved UTF-8: ”Dette gjelder ikke hele ISO/IEC 10646 representert med UTF-8, men det begrensede tegnsettet som også er representert i ISO 8859-1, samt ytterligere 6 nordsamiske tegn i store og små representasjoner”. Dette er angitt som et minimumskrav, og gir ingen fullgod løsning før de interne fagsystemene støtter ISO/IEC 10646. I de fleste tilfeller vil det dessuten være mer ressurskrevende å implementere spesialløsninger som bare håndterer den begrensede løsningen som er beskrevet over, enn å implementere full støtte for ISO/IEC 10646 representert ved UTF-8. Dialogen Difi har hatt med offentlige virksomheter viser også at de gjerne velger å benytte ISO/IEC 10646 representert ved UTF-8 også internt i virksomheten.

Minimumskravet inkluderer 6 nordsamiske tegn i store og små representasjoner, da det er lovpålagt å støtte samisk språk og kulturarv i offentlig sektor. Difi har registrert at mange per dato bryter dette lovkravet, noe vi håper forsvinner gjennom pålegget om at alle nye systemer skal støtte hele ISO 10646. For å sikre de som per dato bryter lovkravet, har vi laget en erstatningstabell som hvert fall skal sikre at alle bryter loven på lik måte, slik at det ikke blir ulikheter på tvers av virksomhetene (se erstatningstabellen nederst på denne siden).

Det er flere forhold som har vært avgjørende for å sette kravet slik det fremstår i dag:

  • En felles tegnsettstandard for utveksling vil forenkle samhandling. Når avgiver eller mottaker endrer fagsystem vil ikke dette innebære endringer i det tegnsettformat som utveksles.
  • Det er den som ikke støtter ISO/IEC 10646 internt i sine systemer som vil ha ansvaret for å sørge for at informasjon blir teknisk korrekt presentert for omverden som UTF-8, dog begrenset til de tegn en kan håndtere internt i sine systemer.
  • For å få entydighet i forvaltningen er det også foreslått hvilke erstatningstegn som skal brukes for de spesielle samiske tegnene som ikke er definert i ISO 8859-1, når de forekommer i kommunikasjonen. Dette fremgår av tabellen nederst på siden.

Følgende diagram illustrerer forskjellige scenarier for hvordan utveksling er tenkt gjennomført:

Figur 1: Forskjellige utvekslingsmåter

Til venstre i figur 1 er avgiver av informasjon – til høyre er mottaker. Diagrammet kommer også til anvendelse hvor det skjer gjensidig utveksling av informasjon.

Ved å ta utgangspunkt i figur 1 overfor kan man tenke seg forskjellige scenarier:

A: Hvor fagsystemene hos avgiver og mottaker har full støtte for ISO/IEC 10646

 

Figur 2: Utveksling - full støtte for ISO/IEC 10646 hos både avgiver og mottaker

I dette tilfellet har man full samhandling mellom avgiver og mottaker i tråd med tegnsettstandarden. Det er ikke behov for tiltak.

 

B: Hvor avgiver ikke har full støtte for ISO/IEC 10646 og mottaker har full støtte for ISO/IEC 10646

 

Figur 3: Utveksling - Avgiver støtter ikke ISO/IEC 10646, mottaker støtter ISO/IEC 10646

I dette tilfellet må avgiver sette inn en konverter før avgivelse til mottaker. Kravet er det begrensede tegnsettet som også er representert i ISO8859-1, samt ytterligere 6 nordsamiske tegn i store og små representasjoner.

Konsekvens av dette forslaget:

Avgivers fagsystem støtter ikke alle samiske tegn. Ved konvertering vil tegnene være erstatninger – se tabell nederst på siden for erstatning. Mottaker vil kun motta det erstattede tegnet.

C: Hvor avgiver har full støtte for ISO/IEC 10646 og mottaker ikke har full støtte for ISO/IEC 10646

 

Figur 4: Avgiver støtter ISO/IEC 10646, mottaker støtter ikke ISO/IEC 10646

I dette tilfellet må mottaker foreta en konvertering til tegnsett i tråd med fagsystemets. Her må det skje en forenkling av tegnene, jf tabell nederst på siden, med erstatning av samiske tegn. Inntil mottaker får oppgradert sitt fagsystem, vil samiske tegn ugjendrivelig erstattes (slik at informasjonen går tapt).

D: Hvor både avgiver og mottaker mangler full støtte for ISO/IEC 10646

 

Figur 5: Avgiver og mottaker støtter ikke ISO/IEC 10646

For de tilfeller hvor verken avgiver eller mottaker har ISO/IEC 10646 representert i sine fagsystemer skal det skje en konvertering til UTF-8 ved utveksling med annen virksomhet. Mottaker må da foreta nødvendig konvertering for å få korrekt kodesett i sitt fagsystem. I de tilfeller hvor samiske tegn ikke er representert hos avgiver, vil de heller ikke bli representert hos mottaker. I dag holdes utviklingen igjen ved at mange offentlige virksomheter setter opp nye systemer med gammelt tegnsett med begrenset støtte for tegn. Ved å kreve tilpasning i begge ender på eksisterende løsninger ønsker vi å få til en raskere overgang, og en overgangsordning der de som holder igjen utviklingen må ta kostnaden.

Alternativ D skal benyttes istedenfor alternativ E i figur 1 ovenfor.

Webskjema

Webskjema benyttes på nettsider, men i denne sammenheng er det sentrale at man samhandler med bakenforliggende fagsystemer, og behandles som utveksling (utveksling mellom den som legger inn informasjonen og den som mottar informasjonen). Selv om bruk av tegnsett på nettsider er anbefalt, behandles dette som utveksling.

Transkriberingsregler

Dersom man velger å implementere den midlertidige løsningen med transkribering av samiske tegn, er det viktig å benytte felles transkriberingsregler for de 6 samiske tegnene slik at alle benytter samme standard. Erstatningstabellen under er obligatorisk å bruke (om tegnene ikke støttes i egne fagsystemer) inntil en fullstendig UTF-8 løsning er på plass.

Erstatningstabell for samiske tegn

Ved transkribering fra UTF-8, hvor samiske tegn er korrekt representert fra kilden, skal følgende tabell benyttes når det ikke er støtte for tegnene i egne fagsystemer.

 

Samisk tegn

Kode

Erstatningstegn

Č

U+010C

C

č

U+010D

c

Đ

U+0110

D

đ

U+0111

d

Ŋ

U+014A

N

ŋ

U+014B

n

Š

U+0160

S

š

U+0161

s

Ŧ

U+0166

T

ŧ

U+0167

t

Ž

U+017D

Z

ž

U+017E

z

Praktisk innføring av felles tegnsett i virksomheten 

Alle offentlige virksomheter må kartlegge om de tilfredsstiller forskriftskravene. Det innebærer å sjekke hvilket tegnsett virksomhetens systemer baserer seg på og hvilket tegnsett som benyttes i kommunikasjon mellom interne systemer, med andre virksomheter, næringsliv og innbyggere. Gjennom en slik kartlegging vil man kunne identifisere hvor det er behov for å gjennomføre tiltak, og prioritere de ulike tiltakene opp mot hverandre.

Det å ha en grunnleggende oversikt over alle system er viktig i overgang til felles tegnsett. På denne måten kan man forutse utfordringer i grensesnitt mot tilknyttede systemer når et system legges over.

Overgangen til nytt tegnsett vil i hovedsak skje i forbindelse med nyanskaffelser eller større oppgraderinger. Da handler det som regel om å sette krav i anskaffelser.

Når det gjelder kommunikasjon med eksterne virksomheter, næringsliv og innbyggere er det snakk om å tilpasse dagens løsninger til felles tegnsett i informasjonsutvekslingen. I disse tilfellene må det gjøres mindre tilpasninger, som for eksempel en konverteringsløsning i tjenestebussen. Ved innføring av nye løsninger vil det i mange sammenhenger være behov for integrasjon mot eksisterende system, da må det også vurderes hvordan man får til en overgangsordning mot eksisterende system på eldre tegnsett.

Anskaffelser og kravspesifikasjon

Elektronisk samhandling internt i en offentlig virksomhet, mellom offentlige virksomheter eller med innbyggere og næringsliv, forutsetter IT-løsninger som kan "snakke sammen". Bruk av åpne standarder sikrer dette. Dette gjelder felles tegnsett standard, men også andre anbefalte og obligatoriske IT-standarder i offentlige sektor.

Difi har tilgjengeliggjort en liste over anbefalte og obligatoriske IT standarder i offentlig sektor, en såkalt referansekatalog. Listen finner du på standard.difi.no. De obligatoriske kravene i listen er fastsatt i forskrifter og må følges med mindre man faller inn under en unntaksordning. De anbefalte kravene skal følges med mindre virksomheten har en god grunn til å la være.

Offentlige virksomheter skal i en anskaffelse sette relevante obligatoriske krav, og vurdere sterkt om anbefalte krav også skal stilles.

Både anbefalte og obligatoriske krav i Referansekatalogen bør settes som obligatoriske krav i en anskaffelse, med mindre man har en god grunn til å la være. Det jobbes med å tilrettelegge et sett med krav som kan klippes rett inn i kravspesifikasjonen, men inntil videre må disse kravene utarbeides på bakgrunn av de retningslinjene som gis i referansekatalogen til enhver tid.

Mange leverandører kjenner til Referansekatalogens krav til bruk av IT-standarder i offentlig sektor. Leverandørene tar også hensyn til dette i utarbeidelse av utviklingsplanene sine. Leverandørene er derimot tydelig på at de utsetter innføring av standardene med mindre det blir satt konkrete krav i offentlige virksomheters kravspesifikasjoner. Det er derfor viktig at alle offentlige virksomheter gjør dette, slik at offentlig sektor fremstår med felles krav overfor leverandørene. Det er viktig at offentlige virksomheter står sammen om dette og krever at slike rammevilkår følges uten ytterligere kostnader.

Når virksomheten skal anskaffe noe, så er det vanlig å regulere dette gjennom Statens standardavtaler (SSA-er). I flere av disse er det satt opp følgende tekst i kapittel 9.1: «Kunden skal vurdere hvorvidt det er krav til standarder etter Referansekatalogen for IT-standarder i offentlig sektor som må ivaretas i leveransen.» Det er derfor viktig at vi i offentlige virksomheter går gjennom referansekatalogen og plukker ut relevante krav for anskaffelsen.

Dette gjøres ved å gå på standard.difi.no, se gjennom de ulike kravene, spesifisere hvilke krav som er relevante for anskaffelsen og legge dem inn i vedlegget til avtalen.

Mange IT-løsninger i offentlig sektor anskaffes for lengre tid av gangen. Slike systemer er det gjerne knyttet en vedlikeholdsavtale til. Det er viktig å sette krav til bruk av forvaltningsstandarder også i vedlikeholdsavtalene. Det kan gjerne settes krav til «De til enhver tid gjeldende forvaltningsstandardene, spesifisert i Referansekatalogen over anbefalte og obligatoriske IT-standarder i offentlig sektor.»

 

Kjekt å vite

Tilgjengelige testtjenester

Servicene inkluderer:

  • hentBasisdata
  • hentBasisdataMini
  • hentBedrifterVirksomheter
  • hentKontaktdata
  • hentSaerligeOpplysninger
  • sokEnhet

Det er ikke noe samiske data tilgjengelig, men data er i UTF-8 format, siden de Norske tegn Æ, Ø, Å tar 2 bytes istedenfor 1.

  • Matrikkelen – Diverse, bl.a.
    • InnsynsAPI versjon 3 for aksess til data i matrikkelen
    • OppdateringsAPI versjon 3 for oppdatering av matrikkelen fra andre (autoriserte) klienter enn den matrikkelprosjektet utvikler
    • EndringsloggAPI versjon 3 for uthenting av endringsdata til eksterne register som trenger å vedlikeholde kopi av data i matrikkelen
    • RegisterOppdateringAPI versjon 1 for oppdatering av data i matrikkelen som vedlikeholdes av eksterne register
    • GeointegrasjonsAPI versjon 1.1 for uthenting av data ihht standarden for Geointegrasjon
  • Folkeregisteret – Difi har vært i dialog med Skatteetaten, men det har tatt tid å komme i dialog med Evry, Dette følges opp videre.

Hvilke interne systemer må jeg huske å sjekke?

For å forenkle tegnsetthåndteringen både internt og eksternt, er det en fordel om alle leddene benytter samme tegnsett, UTF-8. Det betyr at alle de følgende punktene må vurderes ut fra hvorvidt de trenger tilpasninger/konvertering/migrering:

  • Database, tabeller og kolonner
  • Databaseserver
  • Mellomvareapplikasjoner
  • Applikasjonsserver
  • Epostserver
  • Webserver
  • Klienter
  • Programvare (inkl. websidene)
  • Rapportgeneratorer
  • 3. parts integrasjonspunkter

Tilleggsinformasjon som må tas hensyn til:

  • Plass som trengs i databasen for å holde samme informasjon på UTF-8, spesielt hvis det er forventet økning i antall samiske som kommer til å bli brukt/lagt inn i systemene.
     
  • Plass som trengs i programvaren hvor man har definert tekster som et antall sifre, spesielt hvis det er forventet økning i antall samiske som kommer til å bli brukt/lagd inn i systemene.
     
  • Særskilt deklarering av UTF-8 i databasen (ikke bare sette opp ‘default’, selv om ‘default’ kan være UTF-8)

Skrifttyper som støtter samiske tegn

Ikke alle skrifttyper støtter samiske tegn, selv om tegnsettet er satt til UTF-8. Manglende samiske tegn i for eksempel utskrifter kan skyldes at man forsøker å skrive ut med en skrifttype som ikke støtter samiske tegn.

Tastaturløsninger for samiske tegn

De fleste nyere operativsystemer kommer med innebygget støtte for samisk tastatur. Bruker må imidlertid oftest aktivere dette tillegget selv gjennom en konfigurasjonsendring, for Windows, Mac OSX eller Linux

I tillegg finnes samisk rettskrivingsordbok på http://divvun.no.

Relevante nettsteder

Flere nettsider inneholder nyttig informasjon om tegnsett og samiske tegn i særdeleshet:

- Sametinget (https://www.sametinget.no/)

- Universitet i Tromsø v/Trond Trosterud

- Morten Brekks (Brønnøysundregistrene) foredrag om emnet 

- Brønnøysunds webside for informasjon om webtjenester for Enhetsregisteret

- Matrikkelens webside for testsystemet og testtjenester

- Difis egne nettsider, blant annet om samisk informasjon på statlige nettsteder, en statuskartlegging

- Difis egne standard nettsider, bl.a. om konsekvensutredning UTF-8, tilbakemeldinger og høringsnotat

- Beste praksis for konvertering av MS SQL Server databaser, eller 'SQL_Bestpract_CollationChange'

Deldette

Kontakt