• bleistift2@sopuli.xyz
      link
      fedilink
      Deutsch
      arrow-up
      5
      ·
      edit-2
      1 month ago

      Wenn man sich denn Quelltext dieses Posts im Lemmy-UI ansieht (z.B. durch Crossposten), sieht man, dass da keine Beschreibung ist. Die wurde also nicht vom OP angegeben (wie ich zuerst dachte), sondern wird beim Erstellen des Posts von Lemmy aus der Ziel-URL gescraped.

      <meta property="og:description" content="GitHub setzt alles auf eine Karte: Die Entwicklerplattform migriert komplett zu Microsoft Azure und stellt dafür sogar die Feature-Ent­wicklung zurück. Grund sind Kapazitätsprobleme und das rasante Wachstum von KI-Tools wie Copilot.">
      

      Dabei nimmt der Scraper wohl einfach an, dass er UTF-8 vorfindet, was sich in diesem Fall als falsch herausstellt. Wenn er dann das eine Byte für „ä“ in ISO-8859-1 findet, weiß er nichts damit anzufangen, weil 0xE4 kein gültiges Unicode-Byte ist (0xE4 muss mit 2 Bytes codiert werden; danke @[email protected]).

      https://de.wikipedia.org/wiki/UTF-8#Kodierung

      Auf dem Lemmy-Server landet also ein Symbol, das UTF-8-Blödsinn symbolisiert (�). Das wird dann schließlich den Client gegeben.

      • elmicha@feddit.org
        link
        fedilink
        Deutsch
        arrow-up
        2
        ·
        1 month ago

        In der Spec vom Open Graph protocol sehe ich nicht, dass die Strings das “meta charset” beachten sollen, vielmehr ist da von Unicode die Rede. Vermutlich haben sie nicht damit gerechnet, dass jemand noch etwas anderes als UTF-8 benutzt.

    • jokro@feddit.org
      link
      fedilink
      arrow-up
      2
      ·
      1 month ago

      ich meinte dass lemmy eventuell das deklarierte encoding ignoriert und es immer als UTF 8 interpretiert. Ist aber nur spekalution, ich hab den Quellcode nicht angeguckt.