Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Brincando com o treinamento de um minúsculo modelo de difusão de texto em nível de caractere de parâmetro 11M!
É um WIP, mas o código é atualmente uma implementação nanochat gpt fortemente modificada (para mudar de decodificação autorregressiva para difusão) e treinado no conjunto de dados Tiny Shakespeare.
A implementação ingênua de um cronograma de mascaramento é ter uma probabilidade de mascaramento uniforme para cada token para cada iteração. Abordagens mais recentes mascaram blocos da esquerda para a direita, o que melhora a qualidade da saída e permite alguma reutilização do KVCache.
Percebi que você pode realmente aplicar o mascaramento de qualquer maneira arbitrária durante o processo de geração. Abaixo você pode ver que apliquei o mascaramento com base nas regras do Jogo da Vida de Conway.
Eu me pergunto se existem estratégias de mascaramento incomuns como essa que oferecem benefícios. Independentemente disso, esta é uma maneira muito interessante e fascinante de corromper e deformar texto.
Melhores
Classificação
Favoritos

