¿Qué es Deepseek?: Un revolucionario instrumento de inteligencia artificial en 8 preguntas

Deepseek, el último de una serie de modelos desarrollados con pocas fichas y bajos costos, desafía el campo de los gigantes como OpenAi, Google y Meta.
El gran modelo lingüístico (LLM) de El laboratorio de inteligencia artificial chino El sorprendió Valle de Silicon Convertirse en uno de los mayores competidores de ChatGPT, de la American Operai Company. Su debilitamiento sacudió los mercados estadounidenses.
Los últimos modelos Depseek lanzados este mes son Extremadamente rápido y barato. Deepseek-R1, el último de los modelos desarrollados con menos chips, desafía el campo de gigantes como OpenAi, Google y Meta.
Aquí profundo en ocho preguntas:
1. ¿De dónde viene Depseek?
La compañía, con sede en Hangzhou (China), fue Fundado en julio de 2023 Por Liang Wenfeng, ingeniero informático e electrónico se graduó de la Universidad de Zhejiang. Formó parte del programa de incubación con altos vuelos, un fondo que Liang fundó en 2015. Liang, como otros nombres notables del sector, aspira a alcanzar el nivel de «inteligencia artificial general» que puede alcanzar o exceder a las personas en diferentes tareas .
Al trabajar de forma independiente, el modelo de financiación Deepseek le permite llevar a cabo proyectos ambiciosos sin la presión de los inversores externos y dar prioridad a la investigación y el desarrollo a largo plazo. El equipo de Depseek está formado por graduados de talentos de las mejores universidades chinas y alienta La cultura de la innovación. El proceso de empleo de la Compañía proporciona prioridad a las habilidades técnicas de la experiencia laboral. En resumen, se considera que tiene una nueva perspectiva en el proceso de desarrollo de modelos de inteligencia artificial.
La trayectoria de Deepseek comenzó en noviembre Desde 2023 con el lanzamiento de Deepseek Coder, un modelo de código abierto diseñado para tareas de codificación. Fue seguido por Deepseek LLM, cuyo objetivo era competir con otros grandes modelos lingüísticos. Deepseek-V2, lanzado en mayo de 2024, obtuvo seguidores debido a su alto rendimiento y bajos costos. También forzó a otros grandes gigantes tecnológicos chinos, como Bytedonce, Tencent, Baidu y Alibaba, a reducir los precios de los modelos de IA.
2. ¿Cuál es la capacidad de los modelos Deepseek?
Deepseek-V2 fue reemplazado posteriormente por Depseek-Coder-V2, un modelo más avanzado, con 236,000 millones de parámetros. Diseñado para solicitudes de codificación compleja, el modelo tiene una ventana de alto contexto de hasta 128,000 chips. Una ventana de contexto de 128,000 tokens es la longitud de texto de entrada máxima que El modelo puede procesar simultáneamente.
Una ventana de contexto más amplia permite el modelo Comprender, resumir o analizar textos más largos. Esta es una gran ventaja, por ejemplo, cuando se trabaja con documentos largos, libros o diálogos complejos. A Token es una unidad de un texto. A menudo, esta unidad puede ser una palabra, una partícula (como «artificial» e «inteligencia») o incluso un personaje. Por ejemplo: «¡La inteligencia artificial es genial!» ¡Puedes consistir en cuatro chips: artificial «,» inteligencia «,» grande «,»! «
Los últimos modelos de la compañía, Deepseek-V3 y Deepseek-R1, han consolidado aún más su posición. Deepseek-V3, un modelo de 671,000 parámetros, requiere mucho menos recursos que sus contrapartes, al tiempo que obtiene resultados impresionantes en varias pruebas comparativas con otras marcas. Deepseek-r1 lanzado en enero de 2025, centrarse en tareas complejas como razonamiento, codificación y Matemáticas. Con sus capacidades en esta área, desafía a O1, uno de los últimos modelos ChatGPT.
Aunque profundo logró un éxito significativo en poco tiempo«Forbes» escribió que la compañía se centra principalmente en la investigación y no tiene planes de marketing detallados en el futuro cercano.
3. ¿Es gratis para el usuario?
Una de las principales razones por las cuales Deepseek logró llamar la atención es que es Gratis para usuarios De hecho, las finales, es el primer sistema avanzado de inteligencia artificial de su tipo disponible para usuarios gratuitos. Otros sistemas poderosos, como Openai O1 y Claude Sonet requieren una suscripción de pago. Incluso algunas suscripciones imponen impuestos a los usuarios.
Google Géminis También está disponible gratisPero las versiones gratuitas se limitan a modelos más antiguos. Depseek no tiene limitaciones Por ahora.
4. ¿Cómo usarlo?
Los usuarios pueden acceder a la interfaz Depseek de chat desarrollada para el usuario final en el chat. Simplemente ingrese comandos en la pantalla de chat y presione el botón «Buscar» para buscar en Internet.
Existe la opción de «pensar» para obtener información más detallada Sobre cualquier tema. Aunque esta opción proporciona respuestas más detalladas a las solicitudes de los usuarios, también puede buscar varios sitios en el motor de búsqueda. Sin embargo, a diferencia de ChatgptEso Olvídate solo sobre la base de ciertas fuentesEsta función también puede revelar información falsa en algunos lugares pequeños. Por lo tanto, los usuarios deben confirmar la información que obtienen en este hocico de chat.
Los usuarios que usaron esta IA comentaron sobre ellos limitación Cuando tienes que ver con ciertos problemas políticos e históricos en China.
5. ¿Es seguro?
Otra pregunta importante sobre el uso de Deepseek es si es seguro. Deepseek, como otros servicios, requiere Datos de usuarioprobable Se almacenan en servidores de China.
Como con cualquier LLM, es importante que los usuarios no den datos de chatbot. Porque Depseek también es Código abiertoLos investigadores independientes pueden examinar el código del modelo e intentar determinar si es seguro. Se espera que se publique información más detallada sobre temas de seguridad en los próximos días.
6. ¿Qué significa código abierto?
Los modelos, incluido Deepseek-R1, se han publicado especialmente como código abierto. Esto significa que Cualquiera puede acceder al código del instrumento y úselo para personalizar LLM. Los datos de entrenamiento están protegidos.
Por otro lado, Openai ha lanzado el modelo O1 cerrado y ya lo vende solo a usuarios, incluso usuarios, con paquetes de 20 a $ 200 por mes.
7. ¿Cómo lograste producir ese modelo a pesar de las restricciones estadounidenses?
La compañía también se estableció Colaboraciones estratégicas Para mejorar sus habilidades tecnológicas y su aplicación de mercado. Una de las colaboraciones notables fue con la compañía estadounidense CIPS AMD. Según «Forbes», Depseek usó GPU (unidades de procesamiento gráfico) AMD Instinct y ROCM Software en las fases clave del desarrollo del modelo, especialmente para Deepseek-V3.
MIT Technology Review informó que Liang ha adquirido importante Extensiones de chips nvidia A100Un tipo cuya exportación a China está actualmente prohibida, mucho antes de las sanciones impuestas por los Estados Unidos en China. Los medios chinos «36kr» calculan que la compañía tiene más de 10,000 unidades en stock. Algunos dicen que esta cifra asciende a 50,000. Después de darse cuenta de la importancia de estas acciones para el entrenamiento de IA, Liang fundó Deepseek y comenzó a usarlas con chips de bajo consumo para mejorar sus modelos.
Pero lo importante aquí es que Liang encontró la forma de Construir modelos competentes con pocos recursos. Las restricciones de exportación estadounidenses para los tokens han obligado a los desarrolladores de Speedseek a crear algoritmos de energía más inteligentes y eficientes para compensar su falta de poder de cálculo. Se cree que ChatGPT necesita 10,000 GPU NVIDIA para procesar los datos de capacitación. Los ingenieros de Deepseek afirman que han logrado resultados similares con solo 2,000 GPU.
8. ¿Cuáles son las técnicas innovadoras de Depseek?
El éxito de Deepseek se puede atribuir a varias innovaciones importantes.
Aprendizaje de consolidación: A diferencia de los métodos tradicionales, que dependen en gran medida del buen ajuste supervisado, Deepseek usa RL puro, según el tecnólogo Janakiram MSV. En la mejora supervisada, el modelo generalmente entrena en un conjunto de big data antes de mejorar. El uso de RL puro significa que un sistema está capacitado utilizando solo métodos de aprendizaje de consolidación. Esto significa que el modelo aprende solo a través de mecanismos de recompensa y castigo, sin datos extraídos por personas o métodos de aprendizaje supervisados. Este enfoque es particularmente efectivo para mejorar las capacidades de razonamiento Depseek-R1.
Arquitectura de MOE: La combinación de arquitectura de expertos, o la mezcla de expertos, es un sistema innovador de diferentes expertos en modelos de inteligencia artificial. Aquí, se seleccionan más expertos como los más adecuados para usuarios y solo funciona. De esta manera, el rendimiento de los modelos grandes aumenta y el costo de procesamiento se reduce. Puede pensar en esto como un equipo de expertos, cada uno especializado en un área diferente. En comparación con una tarea, solo se utilizan expertos relevantes, lo que garantiza el uso eficiente de los recursos y la experiencia.
Atención latente multicabesal: Este método permite que un modelo aprenda las relaciones entre representaciones latentes y boletos utilizando diferentes fines. Sirve para procesar información más flexible, más fuerte y detallada. Se puede considerar como varios «cabezas de atención» que pueden centrarse en diferentes partes de los datos de entrada, lo que permite que el modelo comprenda información más detallada.
Destilación: Deepseek utiliza técnicas de destilación para transferir el conocimiento y las capacidades de modelos más grandes y más pequeños. Esto es similar al momento en que un maestro transfiere conocimiento a un estudiante. Permite al estudiante realizar tareas de competencia similares, pero con menos experiencia o recursos. El proceso de destilación de Deepseek permite que los modelos más pequeños hereden el razonamiento avanzado y las capacidades de procesamiento del lenguaje de sus contrapartes más grandes, lo que los hace más versátiles y accesibles.
En resumen, cuando se usa arquitecturas efectivas como RL y Moe, Deepseek Reduce significativamente los recursos de cálculo necesarios Para capacitación y puede completarlo con costos más bajos. Por ejemplo, Depseek-V3 entrenado por una fracción del costo de las líneas de acabado.
Alexandr Wang, CEO de Scaleai, que proporciona datos de capacitación a modelos de grandes empresas, como Operai y Google, describió el producto Deepseek como «Un modelo revolucionario» En un discurso celebrado el jueves en el Foro Económico Mundial (FEM) de Davos (Suiza).