Encodings, Entities, Unicode Zeichencodierungen für Sonderzeichen

Encodings and Entities

Andere Länder andere Sitten ... andere Schriftzeichen...
Beispielsweise im europäischen Raum sind lateinischen Schriftzeichen sehr verbreitet.
Jedoch hat selbst hier jedes Land auch wieder eigene Sonderzeichen.


Die Deutschen haben die Umlaute Ä,Ö,Ü und das ß
die Franzosen, die Spanier etc. haben ebenso ihre speziellen Schrift-Sonderzeichen.
Damit Webseiten, besonders die Browser,
damit umgehen können, und man im Web einen allgemeinen Standart hat,
werden zunächst die HTML Dokumente nicht als ANSI Datei gespeichert,
sondern im UTF-8 Dateiformat.

Mit UTF-8 kann man im Grunde jedes beliebiges Unicode Schriftzeichen auf der Welt in einer Textdatei speichern.
Macht man das gleiche mit einer ANSI Datei,
konvertiert das Dateiformat die Sonderzeichen in unlesbare Blöcke, Fragezeichen oder sonstige komische Zeichen.
Die man leider auch nicht mehr rück-konvertieren kann.

Nun gibt es aber Situationen,
in denen man zum Beispiel nicht in UTF-8 Dateiformat speichern kann.
Hierzu müssen Zeichen encoded werden, und mit HTML-Entities gespeichert werden.

Eine ähnliche Problematik mit dem speichern von Sonderzeichen ergibt sich bei Datenbanken.
Auch die Tabellen in Datenbanken müssen für bestimmte Zeichensätze ausgelegt sein,
damit man den Text mit Sonderzeichen dort speichern und wieder sauber raus bekommt.

Was genau sind Entities?

In Datenbanken,
oder besser in relationalen Datenbanken gibt es, ebenso Entities (Beziehungen)
welche die Beziehung unter den Tabellen oder Objekte,
in der Datenmodellierung bezeichnet. (entity-relationship model (ER model))

Ich möchte aber die HTML-Entities kurz erklären
und bezeichnen die nun besser als: HTML Character Entities

Im Grunde sind es Zeichencodierungen für Sonderzeichen, welche mit ASCII-Zeichen dargestellt werden.
Das Wort Entities wird genutzt,
da die Zeichencodierungen in direkter Verbinung mit dem Sonderzeichen steht. (1:N Beziehung)

welche Arten von Zeichen-Entities gibt es?
Es gibt natürlich noch ein paar mehr Zeichen-Entities,
aber zumindest diese 4 Varianten von HTML-Entities
sollte man in der Webentwicklung kennen:

  • HTML-Entities (SGMNL = Standard Generalized Markup Language)
  • Unicode dezimal (XML Character Reference)
  • Unicode hexadezimal (XML Character Reference)
  • UCN (Universal Character Name)
hier alles über Unicode HTML-Entities
als Beispiel nehme ich mal unser Sonderzeichen: ä

HTML-Entities: ä = ä
Unicode dezimal: ä
Unicode hexadez. ä
UCN: ä = \u00e4

Was genau ist Encoding und Decoding?

Im Grunde ist Decoding die Umwandlung von Sonderzeichen in eines seiner Entities.
und Encoding die Wandlung zurück in Unicode also vom Entitie in das (lesbare) Sonderzeichen.

URL Encoding nur mit dem ASCII character-set
in HTML-Dokument gibt es quasi 2 Möglichkeiten die Inhalten und Paramter zum Server zu übermitteln.


  • das eine ist als Form-Paramter (unsichtbar)
  • und andere wäre als URL-Parameter (sichtbar)

Alle Zeichen müssen beim URL-Encoding in ein ASCII character-set convertiert sein.
Denn die Browserleiste unterstützt nun mal keine Sonderzeichen.

ASCII Encoding Reference

  • ASCII = ISO 15924? = Latienische Schriftzeichen
  • ASCII = American Standard Code for Information Interchange

Kyrillische Zeichen in ANSI Datei speichern

eigentlich müsste man die kyrillischen Schriftzeichen in eine UTF-8 codierte text, php, html etc. Datei speichern.
Denn nur im UTF-8 File Format,
blieben die andernen (nicht lateinischen) Zeichen erhalten

In der Programmierung gibt es leider Situationen, wo ich doch meine .html,.php etc.
mit ANSII Dateiformat speichern muss
aber dann die kyrillschen Zeichen nun nicht mehr direkt speichern kann.
also muss ich hier wieder in ein Entitie konvertieren.

die beste Konvertierung von kyrillischen Zeichen in einer ANSI Datei

  • Windows-1251 in KOI-8 konvertieren

Comments

No comments yet.

Add Comment

* Required information
(never displayed)
 
Bold Italic Underline Strike Superscript Subscript Code PHP Quote Line Bullet Numeric Link Email Image Video
 
Smile Sad Huh Laugh Mad Tongue Crying Grin Wink Scared Cool Sleep Blush Unsure Shocked
 
1000
Enter the third word of this sentence.
 
Enter answer:
Captcha
Refresh
 
Enter code:
 
Notify me of new comments via email.
 
Remember my form inputs on this computer.
 
I have read and understand the privacy policy. *
 
I have read and agree to the terms and conditions. *
 
 
Powered by Commentics