Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Brincando com o treinamento de um pequeno modelo de difusão de texto a nível de caracteres com 11M de parâmetros!
É um trabalho em andamento, mas o código é atualmente uma implementação do nanochat gpt fortemente modificada (para mudar de decodificação autorregressiva para difusão) e treinada no conjunto de dados Tiny Shakespeare.
A implementação ingênua de um cronograma de mascaramento tem uma probabilidade de mascaramento uniforme para cada token em cada iteração. Abordagens mais recentes mascaram em blocos de esquerda para direita, o que melhora a qualidade da saída e permite alguma reutilização do KVCache.
Percebi que você pode realmente aplicar mascaramento de qualquer maneira arbitrária durante o processo de geração. Abaixo, você pode ver que apliquei mascaramento com base nas regras do Jogo da Vida de Conway.
Eu me pergunto se existem estratégias de mascaramento incomuns como esta que oferecem benefícios. De qualquer forma, esta é uma maneira muito interessante e hipnotizante de corromper e deformar texto.
Top
Classificação
Favoritos

