So öffnen Sie .JSONL-Dateien unter Windows
Um .JSONL-Dateien unter Windows zu öffnen, öffnen Sie die Datei in einem Nur-Text-Editor (z. B. Notepad), um die Zeilen zu überprüfen. Jede Zeile sollte ein eigenständiger JSON-Wert sein.
Schritt-für-Schritt-Anleitung
- Öffnen Sie die Datei in einem Nur-Text-Editor (z. B. Notepad), um die Zeilen zu überprüfen. Jede Zeile sollte ein eigenständiger JSON-Wert sein.
- Laden Sie es zur Analyse in Python/Pandas mit pandas.read_json(path,lines=True), um jede Zeile als Datensatz zu behandeln.
Häufige Probleme
„Es wird nicht als JSON geparst“ (ein einzelnes JSON-Dokument erwartet)
Eine .jsonl-Datei ist normalerweise kein einzelnes JSON-Array oder -Objekt; Es handelt sich um viele durch Zeilenumbrüche getrennte JSON-Werte. Tools, die ein JSON-Dokument für die gesamte Datei erwarten, schlagen möglicherweise mit Fehlern nach der ersten Zeile fehl.
- Verwenden Sie einen Reader, der zeilengetrenntes JSON unterstützt (z. B. pandas.read_json(...,lines=True)).
- Wenn ein Tool ein einzelnes JSON-Array erfordert, konvertieren Sie es, indem Sie Datensätze in ein Array einschließen und Kommas zwischen den Zeilen einfügen (nur wenn jede Zeile gültiges JSON ist).
Einige Zeilen können nicht analysiert werden (fehlerhafte JSON-Datensätze).
Jede Zeile muss ein gültiger JSON-Text gemäß RFC 8259 sein. Eine einzelne unterbrochene Zeile (abgeschnittene Ausgabe, Anführungszeichen ohne Escapezeichen, nachgestellter Müll) kann dazu führen, dass Teilimporte fehlschlagen.
- Überprüfen Sie die fehlerhafte(n) Zeile(n) in einem Texteditor; Überprüfen Sie, ob jede Zeile ein vollständiger JSON-Code ist (häufig ein einzelnes Objekt).
- Generieren Sie die Datei aus dem Quellsystem neu, wenn sie abgeschnitten wurde, oder entfernen/reparieren Sie nur die fehlerhaften Zeilen, bevor Sie sie erneut importieren.
Probleme mit der Zeichenkodierung (verstümmelter Text oder Dekodierungsfehler)
JSON ist als Unicode-Text definiert und wird üblicherweise als UTF-8 codiert. Wenn die Datei in einer anderen Kodierung erstellt wurde oder ungültige Bytesequenzen enthält, kommt es bei einigen Lesegeräten zu Fehlern oder der Anzeige von Mojibake.
- Versuchen Sie, die Datei mit UTF-8-Kodierung in Ihrem Editor oder Importtool erneut zu öffnen.
- Wenn Sie die Generierung steuern, stellen Sie sicher, dass der Produzent UTF-8 schreibt und dass jeder Datensatz gültiger JSON-Text bleibt.
Sieht aus wie JSON-Zeilen, ist aber in Wirklichkeit JSON-Textsequenzen (RFC 7464).
Einige Streaming-JSONs verwenden RFC 7464-Framing (Datensatztrennzeichen + JSON-Text) und sind mit application/json-seq verknüpft, nicht mit durch Zeilenumbrüche getrenntem JSON. Ein JSON Lines-Reader kann das zusätzliche Rahmenzeichen möglicherweise nicht verarbeiten.
- Suchen Sie vor jedem JSON-Text nach einem führenden ASCII-Datensatztrennzeichen (0x1E). das gibt RFC 7464 JSON-Textsequenzen an.
- Wenn es sich um RFC 7464 handelt, verwenden Sie Tools, die JSON-Textsequenzen unterstützen, oder entfernen Sie den RS-Rahmen, bevor Sie ihn als zeilengetrennten JSON behandeln.
Sicherheitshinweis
Eine .jsonl-Datei besteht aus reinem Text und enthält selbst keinen ausführbaren Code. Die Verarbeitung kann jedoch dennoch gefährlich sein, wenn nachgeschaltete Systeme ihre Felder als Code behandeln (z. B. durch das Einfügen nicht vertrauenswürdiger Zeichenfolgen in SQL, Shell-Befehle oder Vorlagen).