El desarrollo reciente de la industria de la IA ha sido rápido, y algunas personas lo ven como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado significativamente la eficiencia en diversas industrias; se estima que GPT ha aumentado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen los grandes modelos se considera un nuevo paradigma de diseño de software; en el pasado, el diseño de software se basaba en código preciso, ahora se trata más de integrar un marco de modelo generalizado en el software, lo que permite que el software tenga un mejor rendimiento y un soporte modal más amplio. La tecnología de aprendizaje profundo ha traído una nueva ola de prosperidad a la industria de la IA, y esta tendencia también se ha extendido a la industria de las criptomonedas.
Este informe abordará en detalle el desarrollo de la industria de la IA, la clasificación de tecnologías y el impacto de la tecnología de aprendizaje profundo en el sector. Luego, se realizará un análisis en profundidad del estado actual y las tendencias del desarrollo en la cadena de suministro de la industria, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos de borde. Finalmente, exploraremos esencialmente la relación entre las criptomonedas y la industria de la IA, organizando el panorama de la cadena de suministro de la IA relacionada con las criptomonedas.
Historia del desarrollo de la industria de la IA
La industria de la inteligencia artificial comenzó en la década de 1950. Para realizar la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado múltiples corrientes para lograr la inteligencia artificial en diferentes épocas y contextos disciplinares.
Las tecnologías modernas de inteligencia artificial utilizan principalmente el término "aprendizaje automático", cuya idea es permitir que las máquinas mejoren el rendimiento del sistema a través de la iteración repetida en tareas basadas en datos. Los pasos principales son introducir datos en un algoritmo, entrenar un modelo con los datos, probar e implementar el modelo y utilizar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres principales corrientes, que son el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.
Actualmente, el conexionismo representado por redes neuronales ocupa una posición dominante ( también conocido como aprendizaje profundo ), la razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y el número de neuronas ( parámetros ) es lo suficientemente alto, hay suficientes oportunidades para ajustar tareas complejas de tipo general. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de múltiples datos, esa neurona alcanzará su estado óptimo ( parámetros ), esta es también la razón de la palabra "profundidad" - un número suficiente de capas y neuronas.
Por ejemplo, se puede entender de manera simple como construir una función, donde cuando la entrada es X=2, Y=3; y cuando X=3, Y=5. Si se desea que esta función se aplique a todos los X, es necesario seguir agregando el grado de esta función y sus parámetros. Por ejemplo, se puede construir una función que satisfaga estas condiciones como Y = 2X -1, pero si hay un dato donde X=2, Y=11, será necesario reconstruir una función que se ajuste a estos tres puntos de datos. Al utilizar una GPU para el cracking a la fuerza bruta, se encontró que Y = X2 -3X +5 es bastante adecuado, pero no es necesario que coincida completamente con los datos, solo se debe mantener el equilibrio y que la salida sea aproximadamente similar. Aquí, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para adaptar los nuevos datos. De esta forma, podremos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales ha tenido múltiples iteraciones y evoluciones, como las primeras redes neuronales, redes neuronales de retroalimentación, RNN, CNN y GAN, que finalmente evolucionaron hacia los grandes modelos modernos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, añadiendo un convertidor ( Transformer ), que se utiliza para codificar datos de todos los modos (, como audio, video, imágenes, etc. ) en valores numéricos correspondientes para representarlos. Luego, estos se introducen en la red neuronal, lo que permite que la red neuronal ajuste cualquier tipo de datos, logrando así la multimodalidad.
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En la misma época, nacieron los sistemas expertos, uno de los cuales fue el sistema experto DENRAL, desarrollado por algunas instituciones. Este sistema posee un conocimiento químico muy sólido y utiliza inferencias a partir de preguntas para generar respuestas similares a las de un experto en química. Este sistema experto en química puede considerarse una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, los científicos propusieron las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, lo que marcó el nacimiento del conductismo.
En 1997, Deep Blue de una empresa tecnológica venció al campeón de ajedrez Garry Kasparov (Kasparov) con un marcador de 3.5:2.5, y esta victoria se considera un hito en la inteligencia artificial, marcando el auge de la segunda ola de desarrollo de la tecnología de IA.
La tercera ola de la tecnología de AI ocurrió en 2006. Los tres gigantes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion; estos algoritmos moldearon conjuntamente esta tercera ola tecnológica, que también es la época dorada del conexionismo.
Muchos eventos icónicos también han surgido gradualmente acompañados de la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, el sistema de una empresa de tecnología venció a humanos y ganó el campeonato en el programa de preguntas y respuestas "Dangerous Edge" (Jeopardy).
En 2014, Goodfellow propuso la Red Generativa Antagónica (, Generative Adversarial Network ), que aprende a generar fotos que parecen reales a través de un juego de competencia entre dos redes neuronales. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de flores, que es uno de los libros de introducción más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que generó una gran repercusión en el ámbito académico y en la industria.
En 2015, se creó una empresa de inteligencia artificial, y varias personalidades conocidas anunciaron una inversión conjunta de 1.000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, se enfrentó al campeón mundial de Go y jugador profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, una empresa desarrolló un robot humanoide llamado Sofía, que se considera el primer robot en la historia en obtener la ciudadanía de pleno derecho, con una rica gama de expresiones faciales y la capacidad de comprender el lenguaje humano.
En 2017, una empresa con abundantes talentos y reservas de tecnología en el campo de la inteligencia artificial publicó el artículo "Attention is all you need" que propuso el algoritmo Transformer, comenzando la aparición de grandes modelos de lenguaje.
En 2018, una empresa lanzó el GPT(Generative Pre-trained Transformer) construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes en ese momento.
En 2018, un equipo de una empresa lanzó AlphaGo basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, una empresa lanzó GPT-2, que cuenta con 1.5 mil millones de parámetros.
En 2020, una empresa desarrolló GPT-3, que tiene 1750 millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para su entrenamiento y puede alcanzar un rendimiento de vanguardia en múltiples tareas de NLP( como responder preguntas, traducción y redacción de artículos).
En 2021, una empresa lanzó GPT-4, un modelo que cuenta con 1.76 billones de parámetros, diez veces más que GPT-3.
En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha alcanzado los cien millones de usuarios en la historia.
En 2024, una empresa lanzará GPT-4 omni.
Cadena de industria de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Con GPT a la cabeza, estos modelos han creado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este sector. También hemos observado una explosión en la demanda de datos y potencia de cálculo en el mercado. Por lo tanto, en esta parte del informe, principalmente exploramos la cadena industrial de los algoritmos de aprendizaje profundo. En la industria de la IA dominada por algoritmos de aprendizaje profundo, ¿cómo se componen sus sectores upstream y downstream, y cuál es la situación actual de estos sectores, así como la relación de oferta y demanda y el desarrollo futuro?
Primero, necesitamos aclarar que, al realizar el entrenamiento de grandes modelos LLMs con GPT basado en la tecnología Transformer (, se divide en tres pasos.
Antes de la capacitación, debido a que se basa en Transformer, el convertidor necesita convertir la entrada de texto en valores numéricos, este proceso se denomina "Tokenización"; después, estos valores se denominan Token. Según una regla empírica general, una palabra o carácter en inglés puede considerarse aproximadamente como un Token, mientras que cada carácter chino puede considerarse aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. Al proporcionar suficientes pares de datos a la capa de entrada, similar a los ejemplos de la primera parte del informe )X,Y(, se busca encontrar los mejores parámetros para cada neurona del modelo. En este momento, se necesita una gran cantidad de datos, y este proceso también es el que más potencia de cálculo consume, ya que implica iterar repetidamente a través de las neuronas probando varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento con el fin de iterar los parámetros.
El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos de menor volumen, pero de muy alta calidad, para el entrenamiento. Este cambio hará que la salida del modelo tenga una calidad superior, ya que el preentrenamiento requiere grandes cantidades de datos, pero muchos de estos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo mediante datos de alta calidad.
El tercer paso, el aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, que llamamos "modelo de recompensa", cuyo propósito es muy simple: clasificar los resultados de salida. Por lo tanto, la implementación de este modelo será relativamente sencilla, ya que el escenario de negocio es bastante vertical. Luego, utilizaremos este modelo para determinar si la salida de nuestro modelo grande es de alta calidad, de modo que podamos usar un modelo de recompensa para iterar automáticamente los parámetros del modelo grande. ) Sin embargo, a veces también es necesario que la intervención humana evalúe la calidad de la salida del modelo (.
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento tiene una alta demanda de cantidad de datos, y la potencia de cálculo de GPU requerida es la más alta. Por otro lado, el ajuste fino requiere datos de mayor calidad para mejorar los parámetros, y el aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensa para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuantas más parámetros haya, mayor será el límite de su capacidad de generalización. Por ejemplo, en el caso que tomamos como ejemplo de función, Y = aX + b, en realidad hay dos neuronas X y X0, por lo tanto, cómo varían los parámetros, los datos que se pueden ajustar son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, entonces se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la cual los grandes modelos producen milagros, y también es por eso que se les llama comúnmente grandes modelos; su esencia es una gran cantidad de neuronas y parámetros, así como una gran cantidad de datos, y al mismo tiempo, se necesita una gran cantidad de potencia de cálculo.
Por lo tanto, el rendimiento de los modelos grandes se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cómputo. Estos tres factores influyen conjuntamente en la calidad de los resultados y la capacidad de generalización de los modelos grandes. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n) calculada en función de la cantidad de tokens(, entonces podemos calcular la cantidad de cómputo necesaria mediante una regla general, lo que nos permite estimar la capacidad de cómputo que necesitamos comprar y el tiempo de entrenamiento.
La capacidad de cómputo generalmente se mide en Flops, que representa una operación de punto flotante. Una operación de punto flotante es un término general para la suma, resta, multiplicación y división de números no enteros, como 2.5+3.557, donde el punto flotante indica la capacidad de incluir decimales. FP16 representa la precisión que soporta decimales, mientras que FP32 es una precisión más comúnmente utilizada. Según la regla empírica basada en la práctica, el preentrenamiento )Pre-traning( se realiza generalmente múltiples veces ) en un gran modelo, lo que requiere aproximadamente 6np Flops, siendo 6 un constante en la industria. La inferencia (Inference es el proceso en el que ingresamos un dato y esperamos la salida del gran modelo ), dividido en dos partes: entrada de n tokens y salida.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
15 me gusta
Recompensa
15
5
Republicar
Compartir
Comentar
0/400
CryptoSourGrape
· 08-16 11:46
Si hubiera hecho All in AI antes, tal vez ahora estaría tumbado y conduciendo un LAMB... Ahora solo puedo seguir esforzándome todos los días.
Ver originalesResponder0
MEVHunterZhang
· 08-16 08:42
Otra vez AI toma a la gente por tonta
Ver originalesResponder0
SeasonedInvestor
· 08-16 08:42
20% es un alcista, ¿verdad?
Ver originalesResponder0
AirdropSkeptic
· 08-16 08:41
Sube hasta la cima, espera a que tomen a la gente por tonta.
Ver originalesResponder0
CryptoPhoenix
· 08-16 08:41
El bull run no está lejos, el renacimiento de la IA le da esperanza al crypto... el Mercado bajista forja la mentalidad, la fe nunca muere.
La IA y el sector de Activos Cripto se fusionan en profundidad, los grandes modelos lideran una nueva ola tecnológica.
IA x Cripto: De cero a la cima
El desarrollo reciente de la industria de la IA ha sido rápido, y algunas personas lo ven como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado significativamente la eficiencia en diversas industrias; se estima que GPT ha aumentado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen los grandes modelos se considera un nuevo paradigma de diseño de software; en el pasado, el diseño de software se basaba en código preciso, ahora se trata más de integrar un marco de modelo generalizado en el software, lo que permite que el software tenga un mejor rendimiento y un soporte modal más amplio. La tecnología de aprendizaje profundo ha traído una nueva ola de prosperidad a la industria de la IA, y esta tendencia también se ha extendido a la industria de las criptomonedas.
Este informe abordará en detalle el desarrollo de la industria de la IA, la clasificación de tecnologías y el impacto de la tecnología de aprendizaje profundo en el sector. Luego, se realizará un análisis en profundidad del estado actual y las tendencias del desarrollo en la cadena de suministro de la industria, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos de borde. Finalmente, exploraremos esencialmente la relación entre las criptomonedas y la industria de la IA, organizando el panorama de la cadena de suministro de la IA relacionada con las criptomonedas.
Historia del desarrollo de la industria de la IA
La industria de la inteligencia artificial comenzó en la década de 1950. Para realizar la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado múltiples corrientes para lograr la inteligencia artificial en diferentes épocas y contextos disciplinares.
Las tecnologías modernas de inteligencia artificial utilizan principalmente el término "aprendizaje automático", cuya idea es permitir que las máquinas mejoren el rendimiento del sistema a través de la iteración repetida en tareas basadas en datos. Los pasos principales son introducir datos en un algoritmo, entrenar un modelo con los datos, probar e implementar el modelo y utilizar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres principales corrientes, que son el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.
Actualmente, el conexionismo representado por redes neuronales ocupa una posición dominante ( también conocido como aprendizaje profundo ), la razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y el número de neuronas ( parámetros ) es lo suficientemente alto, hay suficientes oportunidades para ajustar tareas complejas de tipo general. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de múltiples datos, esa neurona alcanzará su estado óptimo ( parámetros ), esta es también la razón de la palabra "profundidad" - un número suficiente de capas y neuronas.
Por ejemplo, se puede entender de manera simple como construir una función, donde cuando la entrada es X=2, Y=3; y cuando X=3, Y=5. Si se desea que esta función se aplique a todos los X, es necesario seguir agregando el grado de esta función y sus parámetros. Por ejemplo, se puede construir una función que satisfaga estas condiciones como Y = 2X -1, pero si hay un dato donde X=2, Y=11, será necesario reconstruir una función que se ajuste a estos tres puntos de datos. Al utilizar una GPU para el cracking a la fuerza bruta, se encontró que Y = X2 -3X +5 es bastante adecuado, pero no es necesario que coincida completamente con los datos, solo se debe mantener el equilibrio y que la salida sea aproximadamente similar. Aquí, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para adaptar los nuevos datos. De esta forma, podremos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales ha tenido múltiples iteraciones y evoluciones, como las primeras redes neuronales, redes neuronales de retroalimentación, RNN, CNN y GAN, que finalmente evolucionaron hacia los grandes modelos modernos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, añadiendo un convertidor ( Transformer ), que se utiliza para codificar datos de todos los modos (, como audio, video, imágenes, etc. ) en valores numéricos correspondientes para representarlos. Luego, estos se introducen en la red neuronal, lo que permite que la red neuronal ajuste cualquier tipo de datos, logrando así la multimodalidad.
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En la misma época, nacieron los sistemas expertos, uno de los cuales fue el sistema experto DENRAL, desarrollado por algunas instituciones. Este sistema posee un conocimiento químico muy sólido y utiliza inferencias a partir de preguntas para generar respuestas similares a las de un experto en química. Este sistema experto en química puede considerarse una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, los científicos propusieron las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, lo que marcó el nacimiento del conductismo.
En 1997, Deep Blue de una empresa tecnológica venció al campeón de ajedrez Garry Kasparov (Kasparov) con un marcador de 3.5:2.5, y esta victoria se considera un hito en la inteligencia artificial, marcando el auge de la segunda ola de desarrollo de la tecnología de IA.
La tercera ola de la tecnología de AI ocurrió en 2006. Los tres gigantes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion; estos algoritmos moldearon conjuntamente esta tercera ola tecnológica, que también es la época dorada del conexionismo.
Muchos eventos icónicos también han surgido gradualmente acompañados de la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, el sistema de una empresa de tecnología venció a humanos y ganó el campeonato en el programa de preguntas y respuestas "Dangerous Edge" (Jeopardy).
En 2014, Goodfellow propuso la Red Generativa Antagónica (, Generative Adversarial Network ), que aprende a generar fotos que parecen reales a través de un juego de competencia entre dos redes neuronales. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de flores, que es uno de los libros de introducción más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que generó una gran repercusión en el ámbito académico y en la industria.
En 2015, se creó una empresa de inteligencia artificial, y varias personalidades conocidas anunciaron una inversión conjunta de 1.000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, se enfrentó al campeón mundial de Go y jugador profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, una empresa desarrolló un robot humanoide llamado Sofía, que se considera el primer robot en la historia en obtener la ciudadanía de pleno derecho, con una rica gama de expresiones faciales y la capacidad de comprender el lenguaje humano.
En 2017, una empresa con abundantes talentos y reservas de tecnología en el campo de la inteligencia artificial publicó el artículo "Attention is all you need" que propuso el algoritmo Transformer, comenzando la aparición de grandes modelos de lenguaje.
En 2018, una empresa lanzó el GPT(Generative Pre-trained Transformer) construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes en ese momento.
En 2018, un equipo de una empresa lanzó AlphaGo basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, una empresa lanzó GPT-2, que cuenta con 1.5 mil millones de parámetros.
En 2020, una empresa desarrolló GPT-3, que tiene 1750 millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para su entrenamiento y puede alcanzar un rendimiento de vanguardia en múltiples tareas de NLP( como responder preguntas, traducción y redacción de artículos).
En 2021, una empresa lanzó GPT-4, un modelo que cuenta con 1.76 billones de parámetros, diez veces más que GPT-3.
En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha alcanzado los cien millones de usuarios en la historia.
En 2024, una empresa lanzará GPT-4 omni.
Cadena de industria de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Con GPT a la cabeza, estos modelos han creado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este sector. También hemos observado una explosión en la demanda de datos y potencia de cálculo en el mercado. Por lo tanto, en esta parte del informe, principalmente exploramos la cadena industrial de los algoritmos de aprendizaje profundo. En la industria de la IA dominada por algoritmos de aprendizaje profundo, ¿cómo se componen sus sectores upstream y downstream, y cuál es la situación actual de estos sectores, así como la relación de oferta y demanda y el desarrollo futuro?
Primero, necesitamos aclarar que, al realizar el entrenamiento de grandes modelos LLMs con GPT basado en la tecnología Transformer (, se divide en tres pasos.
Antes de la capacitación, debido a que se basa en Transformer, el convertidor necesita convertir la entrada de texto en valores numéricos, este proceso se denomina "Tokenización"; después, estos valores se denominan Token. Según una regla empírica general, una palabra o carácter en inglés puede considerarse aproximadamente como un Token, mientras que cada carácter chino puede considerarse aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. Al proporcionar suficientes pares de datos a la capa de entrada, similar a los ejemplos de la primera parte del informe )X,Y(, se busca encontrar los mejores parámetros para cada neurona del modelo. En este momento, se necesita una gran cantidad de datos, y este proceso también es el que más potencia de cálculo consume, ya que implica iterar repetidamente a través de las neuronas probando varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento con el fin de iterar los parámetros.
El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos de menor volumen, pero de muy alta calidad, para el entrenamiento. Este cambio hará que la salida del modelo tenga una calidad superior, ya que el preentrenamiento requiere grandes cantidades de datos, pero muchos de estos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo mediante datos de alta calidad.
El tercer paso, el aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, que llamamos "modelo de recompensa", cuyo propósito es muy simple: clasificar los resultados de salida. Por lo tanto, la implementación de este modelo será relativamente sencilla, ya que el escenario de negocio es bastante vertical. Luego, utilizaremos este modelo para determinar si la salida de nuestro modelo grande es de alta calidad, de modo que podamos usar un modelo de recompensa para iterar automáticamente los parámetros del modelo grande. ) Sin embargo, a veces también es necesario que la intervención humana evalúe la calidad de la salida del modelo (.
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento tiene una alta demanda de cantidad de datos, y la potencia de cálculo de GPU requerida es la más alta. Por otro lado, el ajuste fino requiere datos de mayor calidad para mejorar los parámetros, y el aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensa para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuantas más parámetros haya, mayor será el límite de su capacidad de generalización. Por ejemplo, en el caso que tomamos como ejemplo de función, Y = aX + b, en realidad hay dos neuronas X y X0, por lo tanto, cómo varían los parámetros, los datos que se pueden ajustar son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, entonces se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la cual los grandes modelos producen milagros, y también es por eso que se les llama comúnmente grandes modelos; su esencia es una gran cantidad de neuronas y parámetros, así como una gran cantidad de datos, y al mismo tiempo, se necesita una gran cantidad de potencia de cálculo.
Por lo tanto, el rendimiento de los modelos grandes se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cómputo. Estos tres factores influyen conjuntamente en la calidad de los resultados y la capacidad de generalización de los modelos grandes. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n) calculada en función de la cantidad de tokens(, entonces podemos calcular la cantidad de cómputo necesaria mediante una regla general, lo que nos permite estimar la capacidad de cómputo que necesitamos comprar y el tiempo de entrenamiento.
La capacidad de cómputo generalmente se mide en Flops, que representa una operación de punto flotante. Una operación de punto flotante es un término general para la suma, resta, multiplicación y división de números no enteros, como 2.5+3.557, donde el punto flotante indica la capacidad de incluir decimales. FP16 representa la precisión que soporta decimales, mientras que FP32 es una precisión más comúnmente utilizada. Según la regla empírica basada en la práctica, el preentrenamiento )Pre-traning( se realiza generalmente múltiples veces ) en un gran modelo, lo que requiere aproximadamente 6np Flops, siendo 6 un constante en la industria. La inferencia (Inference es el proceso en el que ingresamos un dato y esperamos la salida del gran modelo ), dividido en dos partes: entrada de n tokens y salida.