DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Andrej Karpathy

Bauen @EurekaLabsAI. Zuvor Director of AI @ Tesla, Gründungsteam @ OpenAI, CS231n/PhD @ Stanford. Ich trainiere gerne große tiefe neuronale Netze.

Ich mag das neue DeepSeek-OCR-Papier ganz gerne. Es ist ein gutes OCR-Modell (vielleicht ein bisschen schlechter als Dots), und ja, Datensammlung usw., aber das spielt keine Rolle. Der interessantere Teil für mich (insbesondere als jemand, der im Herzen Computer Vision ist und sich vorübergehend als jemand aus der natürlichen Sprachverarbeitung ausgibt) ist, ob Pixel bessere Eingaben für LLMs sind als Text. Ob Text-Tokens verschwenderisch und einfach schrecklich sind, als Eingabe. Vielleicht macht es mehr Sinn, dass alle Eingaben für LLMs nur Bilder sein sollten. Selbst wenn Sie zufällig eine reine Texteingabe haben, möchten Sie sie vielleicht rendern und dann einspeisen: - mehr Informationskompression (siehe Papier) => kürzere Kontextfenster, mehr Effizienz - signifikant mehr allgemeiner Informationsstrom => nicht nur Text, sondern z.B. fetter Text, farbiger Text, beliebige Bilder. - Eingaben können jetzt mit bidirektionaler Aufmerksamkeit einfach und standardmäßig verarbeitet werden, nicht autoregressiver Aufmerksamkeit - viel leistungsfähiger. - Löschen Sie den Tokenizer (bei der Eingabe)!! Ich habe bereits darüber geschimpft, wie sehr ich den Tokenizer nicht mag. Tokenizer sind hässlich, separat, kein End-to-End-Schritt. Er "importiert" all das Hässliche von Unicode, Byte-Codierungen, er erbt viel historisches Gepäck, Sicherheits-/Jailbreak-Risiko (z.B. Fortsetzungsbytes). Er macht zwei Zeichen, die für das Auge identisch aussehen, intern im Netzwerk zu zwei völlig unterschiedlichen Tokens. Ein lächelndes Emoji sieht aus wie ein seltsamer Token, nicht wie ein... tatsächliches lächelndes Gesicht, Pixel und alles, und all das Transferlernen, das damit einhergeht. Der Tokenizer muss weg. OCR ist nur eine von vielen nützlichen Vision -> Text-Aufgaben. Und Text -> Text-Aufgaben können so gestaltet werden, dass sie Vision -> Text-Aufgaben sind. Nicht umgekehrt. So viele Benutzer-Nachrichten sind Bilder, aber der Decoder (die Antwort des Assistenten) bleibt Text. Es ist viel weniger offensichtlich, wie man realistisch Pixel ausgibt... oder ob man das möchte. Jetzt muss ich auch dem Drang widerstehen, eine bildbasierte Eingabeversion von nanochat zu entwickeln...

Top

Ranking

Favoriten