Samiska tecken

Det gick inte så bra nej. Det finns lite jobb för Utsidan eller vem det nu är. Jag antar att de använder något färdigt mjukvarupaket. Om man tittar på källkoden till sidan ser man vad problemet är. Tecknet ŋ ska kodas med ŋ men en "översmart" kodning byter ut det inledande & mot html-entiteten för &, d.v.s. & Därmed går det fel i läsaren och vi får läsa ŋ i.st.f. ŋ.
 
Senast ändrad:

clindh

Forumvärd
Utsidan använder teckenuppsättningen ISO-8859-1, en 8-bits uppsättning som inte innehåller alla de tecken som behövs för samiskt ord/uttal. För detta skulle vi behöv köra UTF-8, som innehålle rmånga fler tecken.

Att det ändå funkar delvis beror på viss flexibilitet i webbläsarna, som tolkar vissa kombinationer av bytes som UTF-8 och visar dem ändå.

Så sorry, oavsett vad ni kommer fram till i diskussionen här så kan Utsidan fn inte visa dessa diakritiska tecken korrekt överallt.
 
Toffs: Jag gillar också norskt ö, men vad enskilda personer tycker är ju inte relevant. Jag tycker att samiska bokstäver är krångligare men det är inte heller relevant. Vad det handlar om är ju att språket, som så mycket annat, har ett regelverk, fastställt av experter som kan det mesta om språkets struktur och utveckling. Men den som tycker det är bättre att inte följa reglerna behöver ju inte göra det.

bananmannen och haraldn: Det finns ju en etablerad definition på vad som är språk och vad som är dialekt. Enligt den är skånska en dialekt av svenska, men självklart är frågan inte okomplicerad för det. Jag förstår er poäng, men vi skippar den diskussionen nu va. "Svenskt uttal och svensk stavning tack ", där är vi helt överens, bananmannen! I löpande text.

haraldn: Jag har ingen aning om Språkrådet skriver om detta på sin hemsida, men om du inte hittade det så gör de säkert inte det. Däremot så kan jag de rekommenderade reglerna om hur utländska platser och ortsnamn skrivs i svensk text, jag gör det nämligen ganska ofta i jobbet.
Men skriv till Språkrådet och fråga. Det har jag gjort flera gånger och har alltid fått snabba svar. Själv har jag inte tid just nu, för jag åker till fjällen i morgon kl 8 (en vecka, jippii!) och måste börja packa nu, men det skulle vara intressant att höra vad de säger om saken.

Transkribering är inte en okomplicerad fråga. Det finns ju inte svensk sådan från andra språk med annat alfabet heller, utan bara transkribering till latinska bokstäver, vilket i praktiken betyder till engelskt uttal. Från samiska skulla man kunna tänka sig att det borde vara lite lättare eftersom det samiska skriftspråket ju har utvecklats med svenska som utgångspunkt.

Att stavningsprincipen inte alltid följs beror ju inte på att regeln inte finns, utan på att många inte kan den eller inte följer den ändå. Det är vanligt att skriva 'han' när det ska vara 'honom' också, och med allehanda felstavningar.

LRC: Det handlar både om ortnamn och platsnamn/terrängnamn, precis som det gör med såväl städer som med berg, älvar mm i många andra länder.
 
Utsidan använder teckenuppsättningen ISO-8859-1, en 8-bits uppsättning som inte innehåller alla de tecken som behövs för samiskt ord/uttal. För detta skulle vi behöv köra UTF-8, som innehålle rmånga fler tecken.

Att det ändå funkar delvis beror på viss flexibilitet i webbläsarna, som tolkar vissa kombinationer av bytes som UTF-8 och visar dem ändå.

Så sorry, oavsett vad ni kommer fram till i diskussionen här så kan Utsidan fn inte visa dessa diakritiska tecken korrekt överallt.
Jag tycker inte det ser ut att vara det som är problemet. Det går att visa tecken som inte ingår i ISO-8859-1 genom att använda Unicode t.ex. ŋ = ŋ Det görs också här, det är bara det att det görs fel ibland. I vissa fält kodas ŋ som ŋ och då blir det fel i läsaren. Gå till den här bilden:
http://www.utsidan.se/albums/viewpic.htm?ID=23325&set=lp
ta fram källkoden för sidan och jämför bildrubriken (rätt) med beskrivningen (fel) så får du se.
 
Exakt. Om bara &#xxx; accepterades "as-is" på alla ställen där man kan skriva in text skulle problemet vara ur världen -- ingen nuvarande funktionalitet skulle gå förlorad eller förändras, men det skulle bli möjligt att inkludera icke-ISO-8859-1-tecken där det är motiverat. Därmed skulle alla som vill använda sig av fjällkartans namn kunna göra det, de som vill använda gammal stavning/transkribera kan fortsätta att göra det och ingen behöver ens gå i närheten av UTF-8. Alla nöjda och glada? :)

Nu vet inte jag exakt hur Utsidan fungerar "under huven", men som PHP-programmerare själv har jag mycket svårt att tro att en sådan förändring skulle vara speciellt svår att genomföra. Bevisligen finns det ju minst två olika processer som behandlar indata på minst två olika sätt -- kan man inte bara välja den ena?
 
Det är nog inte ens vid inmatningen det går fel, utan när php-skriptet sätter ihop sidan som ska visas. Kommentarerna som visas fel när man tittar på bilden visades rätt när jag tittade enbart på kommentarerna via länken som jag har under mitt namn.
 

clindh

Forumvärd
Ah jag ser hur Harald gjort - du har angivit character entities i rubriken.

Att det funkar nu i rubriken för bilden och på några andra ställen här beror på att jag slarvat och inte mappar om data från databasen till HTML character entities. Det gör att även &#... släpps rakt igenom - vilket inte borde göras.

Kommentarerna mappas om - precis som forumet - just för att man inte skall kunna hålla på och stöka till det genom att skriva HTML där. Så kommentarsvisningen gör rätt, rubriken gör fel.

Entity-kodningar typ &#331 är ju inte till för att matas in av människor - det är ett "transportformat". Och inte speciellt användarvänliga koder direkt. databasen vill man ju ha rätt bytekoder för respektive tecken. Om tex även alla ÅÄÖ tex lagrades på samma sätt skulle man ju inte kunna söka på dessa tecken osv.

Rätt sätt att mata in specialtecken är att använda tangenbordet för att få fram dessa tecken. Och det skulle funka fint - om vi nu stödde UTF-8....
 
Senast ändrad:
Nej, jag har inte använt character entities. Jag har matat in specialtecknen från tangentbordet, d.v.s. i inmatningsfältet har specialtecknen stått. Det måste vara skriptet som tar hand om min inmatning som förvandlar till character entities.

F.ö.förstår jag inte vad du menar med att forumet mappas om. Här går det hur bra som helst att få fram ŋ, både från tangentbordet (ŋ) och om jag skriver det som character entity (ŋ). I det senare fallet verkar det som om skriptet förvandlar till specialtecken, för efter det att jag har förhandsgranskat står specialteckenet i inmatningsfältet.
 
Senast ändrad:

clindh

Forumvärd
Märkligt, sa Bull....

Jag vet inte riktigt var den mappningen händer isåfall - jag har inte kodat något sådan konvertering av in-data iallafall, det vore fel. Får forska lite...
 
bananmannen och haraldn: "Svenskt uttal och svensk stavning tack ", där är vi helt överens, bananmannen! I löpande text.

Jippi!

Transkribering är inte en okomplicerad fråga.

Nix. Trankribering från kyrilliska till latin är en mindre mardröm. Det finns väl någotsånär accepterade nationella regler, men ett visst ryskt ord stavas helt olika på svenska eller tex engelska. Man får huvudvärk för mindre. Det skulle vara fint om det utvecklades internationella regler för transkribering mellan alla olika alfabet, så man slapp problemet. Läsa kyrilliskan direkt är det lättaste alternativet...
 
KebneKajsa m.fl.:
Via diverse vidarekopplingar från Språkrådets hemsida kom jag så småningom fram till Kulturminneslagen (1988:950) som i 1 kap. 4 § säger följande via ett tillägg (2000:265):

Namn som godkänts för offentlig kartproduktion skall även i andra sammanhang användas i sin godkända form.

Mer finns att läsa på denna sida hos Riksantikvarieämbetet, där det även hänvisas till två dokument som "reder ut vad god ortnamnssed är". Ett av dessa finns länkat från sidan och i detta dokument finner man följande på sidan 20 under avsnittet om de olika formerna av namnet Kebnekaise:

Den sista formuleringen i kulturminneslagens hänsynsparagraf stadgar alltså att svenska, samiska och finska namn ska användas sida vid sida när så är möjligt. God ortnamnssed i sådana sammanhang innebär för det första att man gör sitt bästa för att hörsamma detta och för det andra att man i valet mellan olika varianter av t.ex. samiska ska följa den variant som används eller har beslutats användas på den aktuella allmänna kartan.

Med andra ord, i de fall där den aktuella allmänna kartan endast återger samisk stavning av ett namn skall denna form användas. Nu kan det i och för sig diskuteras huruvida även privatpersoner som skriver till exempel reseberättelser nödvändigtvis omfattas av denna lag eller om den får anses begränsad till myndigheter och offentliga institutioner, men vi lär knappast hitta någon mer auktoritär eller objektiv rekommendation som kan lösa den aktuella konflikten, om det nu verkligen är en konflikt.

clindh:
Vad exakt menar du med "stöka till det genom att skriva HTML där"? Att ta hand om < och > är självklart, men vad finns det för syfte med att även blockera entities?

Särskilt med tanke på ovanstående citat känner jag mig nödgad att upprepa mitt förslag om att på ett eller annat sätt tillåta specieltecken -- eller om ett heltäckande genomsläppande känns fel så åtminstone de specialtecken som behövs för samisk ortografi.

Det hela handlar bara om att korrekt kunna återge de namn som står på de officiella svenska kartorna. Inget annat.
 

clindh

Forumvärd
KebneKajsa m.fl.:
clindh:
Vad exakt menar du med "stöka till det genom att skriva HTML där"? Att ta hand om < och > är självklart, men vad finns det för syfte med att även blockera entities?
Jag vill inte lagra HTML (dvs inte heller character entities) i databasen; skall det lagras specialtecken skall de lagras som rätt teckenkod i den teckenuppsättning vi kör. För att man skall veta vad som är vad, och för att göra sökningar på sådana tecken möjliga etc.

Skulle jag tillåta att &#331 mfl lagras måste det till specialregler när texten skall mappas om till character entities när vi gör så ibland - för "å" skall ju bli å men skall då ej mappas om osv. Det där är fel väg att gå - man målar in sig i ett hörn.

Rätt lösning är UTF-8 men det har vi som sagt inte stöd för än.
 

Sova ute en natt i månaden

Anna och Anna har hittat det bästa ”lifehacket” någonsin – och upptäckt många naturreservat i sömnen.