GitHub setzt alles auf eine Karte: Die Entwicklerplattform migriert komplett zu Microsoft Azure und stellt daf�r sogar die Feature-Ent�wicklung zur�ck. Grund sind Kapazit�tsprobleme und das rasante Wachstum von KI-Tools wie Copilot.
Lemmy gibt in seinem HTML<metacharset=utf-8> an. Die Beschreibung selbst enthält schon die “unbekanntes Zeichen“-Zeichen:
<div class="card-text small text-muted md-div">GitHub setzt alles auf eine Karte: Die Entwicklerplattform migriert komplett zu Microsoft Azure und stellt daf�r sogar die Feature-Ent�wicklung zur�ck. Grund sind Kapazit�tsprobleme und das rasante Wachstum von KI-Tools wie Copilot.</div>
Sie wurde also, denke ich, schon als solche da reinkopiert.
WinFuture ist eine XHTML-Seite und gibt an: text/html; charset=iso-8859-1
Das Problem verstehe ich trotzdem nicht, denn z.B. das „ä” hat sowohl in ISO-8859-1 als auch in Unicode den Code 0xE4.
@jokro
Wüsste nicht, was lemmy dafür kann. Vielleicht der Browser. Vielleicht wollte op auch nur die Tücken einer Migration anschaulich machen. @bleistift2
Wenn man sich denn Quelltext dieses Posts im Lemmy-UI ansieht (z.B. durch Crossposten), sieht man, dass da keine Beschreibung ist. Die wurde also nicht vom OP angegeben (wie ich zuerst dachte), sondern wird beim Erstellen des Posts von Lemmy aus der Ziel-URL gescraped.
<meta property="og:description" content="GitHub setzt alles auf eine Karte: Die Entwicklerplattform migriert komplett zu Microsoft Azure und stellt dafür sogar die Feature-Entwicklung zurück. Grund sind Kapazitätsprobleme und das rasante Wachstum von KI-Tools wie Copilot.">
Dabei nimmt der Scraper wohl einfach an, dass er UTF-8 vorfindet, was sich in diesem Fall als falsch herausstellt. Wenn er dann das eine Byte für „ä“ in ISO-8859-1 findet, weiß er nichts damit anzufangen, weil 0xE4 kein gültiges Unicode-Byte ist (0xE4 muss mit 2 Bytes codiert werden; danke @[email protected]).
In der Spec vom Open Graph protocol sehe ich nicht, dass die Strings das “meta charset” beachten sollen, vielmehr ist da von Unicode die Rede. Vermutlich haben sie nicht damit gerechnet, dass jemand noch etwas anderes als UTF-8 benutzt.
ich meinte dass lemmy eventuell das deklarierte encoding ignoriert und es immer als UTF 8 interpretiert. Ist aber nur spekalution, ich hab den Quellcode nicht angeguckt.
Danke, mir war vorher gar nicht klar, wo Ihr das seht - ich dachte, auf der winfuture-Website. In Summit (und vermutlich anderen Apps) gibt es diesen Ausschnitt/Zusammenfassung nicht.
Wo hast du denn im Jahr 2025 ein Programm gefunden, das kein Unicode kann?
Das ist bei winfuture immer
Ich glaube das html ist nicht UTF-8 enkodiert sondern anders. Eventuell liegt der Fehler also mindestens genau so bei Lemmy
Lemmy gibt in seinem HTML
<meta charset=utf-8>an. Die Beschreibung selbst enthält schon die “unbekanntes Zeichen“-Zeichen:Sie wurde also, denke ich, schon als solche da reinkopiert.
WinFuture ist eine XHTML-Seite und gibt an:
text/html; charset=iso-8859-1Das Problem verstehe ich trotzdem nicht, denn z.B. das „ä” hat sowohl in ISO-8859-1 als auch in Unicode den Code 0xE4.
In UTF-8 besteht das ä aus zwei Bytes.
Danke.
@bleistift2
Also vielleicht ein #Lemmy bug.
Winfuture sollten vielleicht winpast heißen mit dem Zeichensatz
@jokro
@jokro
Wüsste nicht, was lemmy dafür kann. Vielleicht der Browser. Vielleicht wollte op auch nur die Tücken einer Migration anschaulich machen.
@bleistift2
Wenn man sich denn Quelltext dieses Posts im Lemmy-UI ansieht (z.B. durch Crossposten), sieht man, dass da keine Beschreibung ist. Die wurde also nicht vom OP angegeben (wie ich zuerst dachte), sondern wird beim Erstellen des Posts von Lemmy aus der Ziel-URL gescraped.
Dabei nimmt der Scraper wohl einfach an, dass er UTF-8 vorfindet, was sich in diesem Fall als falsch herausstellt. Wenn er dann das eine Byte für „ä“ in ISO-8859-1 findet, weiß er nichts damit anzufangen, weil
0xE4kein gültiges Unicode-Byte ist (0xE4muss mit 2 Bytes codiert werden; danke @[email protected]).https://de.wikipedia.org/wiki/UTF-8#Kodierung
Auf dem Lemmy-Server landet also ein Symbol, das UTF-8-Blödsinn symbolisiert (�). Das wird dann schließlich den Client gegeben.
In der Spec vom Open Graph protocol sehe ich nicht, dass die Strings das “meta charset” beachten sollen, vielmehr ist da von Unicode die Rede. Vermutlich haben sie nicht damit gerechnet, dass jemand noch etwas anderes als UTF-8 benutzt.
ich meinte dass lemmy eventuell das deklarierte encoding ignoriert und es immer als UTF 8 interpretiert. Ist aber nur spekalution, ich hab den Quellcode nicht angeguckt.
deleted by creator
@elmicha
Firefox/Android…
Danke, mir war vorher gar nicht klar, wo Ihr das seht - ich dachte, auf der winfuture-Website. In Summit (und vermutlich anderen Apps) gibt es diesen Ausschnitt/Zusammenfassung nicht.