• bleistift2@sopuli.xyz
    link
    fedilink
    Deutsch
    arrow-up
    16
    ·
    1 month ago

    daf�r sogar die Feature-Ent�wicklung zur�ck. Grund sind Kapazit�tsprobleme

    Wo hast du denn im Jahr 2025 ein Programm gefunden, das kein Unicode kann?

    • jokro@feddit.org
      link
      fedilink
      arrow-up
      5
      ·
      edit-2
      1 month ago

      Das ist bei winfuture immer

      Ich glaube das html ist nicht UTF-8 enkodiert sondern anders. Eventuell liegt der Fehler also mindestens genau so bei Lemmy

      • bleistift2@sopuli.xyz
        link
        fedilink
        Deutsch
        arrow-up
        6
        ·
        1 month ago

        Lemmy gibt in seinem HTML<meta charset=utf-8> an. Die Beschreibung selbst enthält schon die “unbekanntes Zeichen“-Zeichen:

        <div class="card-text small text-muted md-div">GitHub setzt alles auf eine Karte: Die Entwicklerplattform migriert komplett zu Microsoft Azure und stellt daf�r sogar die Feature-Ent�wicklung zur�ck. Grund sind Kapazit�tsprobleme und das rasante Wachstum von KI-Tools wie Copilot.</div>
        

        Sie wurde also, denke ich, schon als solche da reinkopiert.

        WinFuture ist eine XHTML-Seite und gibt an: text/html; charset=iso-8859-1

        Das Problem verstehe ich trotzdem nicht, denn z.B. das „ä” hat sowohl in ISO-8859-1 als auch in Unicode den Code 0xE4.

        • bleistift2@sopuli.xyz
          link
          fedilink
          Deutsch
          arrow-up
          5
          ·
          edit-2
          1 month ago

          Wenn man sich denn Quelltext dieses Posts im Lemmy-UI ansieht (z.B. durch Crossposten), sieht man, dass da keine Beschreibung ist. Die wurde also nicht vom OP angegeben (wie ich zuerst dachte), sondern wird beim Erstellen des Posts von Lemmy aus der Ziel-URL gescraped.

          <meta property="og:description" content="GitHub setzt alles auf eine Karte: Die Entwicklerplattform migriert komplett zu Microsoft Azure und stellt dafür sogar die Feature-Ent­wicklung zurück. Grund sind Kapazitätsprobleme und das rasante Wachstum von KI-Tools wie Copilot.">
          

          Dabei nimmt der Scraper wohl einfach an, dass er UTF-8 vorfindet, was sich in diesem Fall als falsch herausstellt. Wenn er dann das eine Byte für „ä“ in ISO-8859-1 findet, weiß er nichts damit anzufangen, weil 0xE4 kein gültiges Unicode-Byte ist (0xE4 muss mit 2 Bytes codiert werden; danke @[email protected]).

          https://de.wikipedia.org/wiki/UTF-8#Kodierung

          Auf dem Lemmy-Server landet also ein Symbol, das UTF-8-Blödsinn symbolisiert (�). Das wird dann schließlich den Client gegeben.

          • elmicha@feddit.org
            link
            fedilink
            Deutsch
            arrow-up
            2
            ·
            1 month ago

            In der Spec vom Open Graph protocol sehe ich nicht, dass die Strings das “meta charset” beachten sollen, vielmehr ist da von Unicode die Rede. Vermutlich haben sie nicht damit gerechnet, dass jemand noch etwas anderes als UTF-8 benutzt.

        • jokro@feddit.org
          link
          fedilink
          arrow-up
          2
          ·
          1 month ago

          ich meinte dass lemmy eventuell das deklarierte encoding ignoriert und es immer als UTF 8 interpretiert. Ist aber nur spekalution, ich hab den Quellcode nicht angeguckt.