Tienda de dapps | Hub de Web3 para eventos y juegos | OKX Wallet

¿Qué puedo hacer con Discover?

background background

discoveryBanners

Temas en tendencia

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-1.59 %

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Dwarkesh Patel

Dwarkesh Patel

Dwarkesh Patelhace 9 horas

RT @RichardHanania: Hasta 225.000 dólares para ser escritor de un pódcast es un salario realmente alto. Dwarkesh está dispuesto a pagar por la calidad. Animo a t...

689

Dwarkesh Patel

Dwarkesh Patelhace 23 horas

Este es el tipo de cosas geniales que hacemos con nuestros patrocinadores y que nos ayudas a hacer una lluvia de ideas.

221.67K

Dwarkesh Patel

Dwarkesh Patel26 nov, 06:41

"Una de las cosas más confusas de los modelos ahora mismo: cómo reconciliar el hecho de que les va tan bien en las evaluaciones. Y miras las evaluaciones y piensas: 'Son evaluaciones bastante duras.' Pero el impacto económico parece estar dramáticamente por detrás. Hay una posible explicación. Cuando la gente hacía pre-entrenamiento, la pregunta de qué datos usar entrenamiento se respondía, porque esa respuesta lo era todo. Así que no tienes que pensar si van a ser estos o aquellos datos. Cuando la gente hace entrenamiento de RL, dicen: 'Vale, queremos tener este tipo de entrenamiento de RL para esto y aquel tipo de entrenamiento de RL para aquello.' Dices: 'Oye, me encantaría que nuestro modelo funcionara muy bien cuando lo lancemos. Quiero que las evaluaciones queden geniales. ¿Qué entrenamiento en vida real podría ayudar en esta tarea?' Si combinas esto con la generalización de que los modelos son realmente insuficientes, eso podría explicar mucho de lo que estamos viendo, esta desconexión entre el rendimiento de evaluación y el rendimiento real en el mundo real"

Dwarkesh Patel

Dwarkesh Patel26 nov, 01:29

El episodio @ilyasut 0:00:00 – Explicando la irregularidad del modelo 0:09:39 - Emociones y funciones de valor 0:18:49 – ¿Qué estamos escalando? 0:25:13 – Por qué los humanos generalizan mejor que los modelos 0:35:45 – Superinteligencia de tiro directo 0:46:47 – El modelo de SSI aprenderá del despliegue 0:55:07 – Alineación 1:18:13 – "Somos claramente una empresa de la era de la investigación" 1:29:23 – Auto-juego y multiagente 1:32:42 – Sabor de investigación Busca Dwarkesh Podcast en YouTube, Apple Podcasts o Spotify. ¡Disfrutar!

429.34K

Populares

Ranking

Favoritas

©2017 - 2025 WEB3.OKX.COM

Español (Latinoamérica)简体中文繁體中文 English Tiếng Việt Русский Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Más información sobre OKX Web3

Descargar Academia Conócenos Ofertas laborales Contáctanos Términos del servicio Política de privacidad X (antes Twitter)

Producto

Tablero de la billetera Swap Mercado Earn Descubre Construye Explorador Seguridad

Soporte

Centro de atención al cliente Verificación oficial Anuncios Calendario de comisiones DEX Conéctate con OKX Billetera para Bitcoin Billetera para Ethereum Billetera para Solana