ИИ и Глубина Криптоактивы отрасли, большие модели ведут технологическую волну

ИИ x Крипто: от нуля до вершины

Недавнее развитие AI-индустрии стремительно растет и воспринимается некоторыми как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность в различных отраслях, по оценкам, GPT повысил рабочую эффективность в США примерно на 20%. При этом способность обобщения, которую приносят большие модели, считается новой парадигмой проектирования программного обеспечения: если раньше проектирование программного обеспечения заключалось в точном кодировании, то сейчас все больше внимания уделяется внедрению обобщенных моделей в программное обеспечение, что обеспечивает лучшее исполнение и более широкий спектр поддерживаемых модальностей. Технологии глубокого обучения действительно принесли новый виток процветания в AI-индустрию, и этот энтузиазм также распространился на криптовалютную индустрию.

В этом отчете будет подробно рассмотрена история развития AI-индустрии, классификация технологий, а также влияние технологий глубокого обучения на отрасль. Затем мы глубоко проанализируем текущее состояние и тенденции развития в цепочке поставок, включая GPU, облачные вычисления, источники данных и устройства на границе сети. Наконец, мы основательно обсудим взаимосвязь между криптовалютой и AI-индустрией, а также проанализируем структуру AI-цепочки поставок, связанной с криптовалютой.

! Новичок в науке丨AI x Crypto: от нуля до пика

История развития AI-индустрии

AI-индустрия началась в 50-х годах 20 века. Для реализации видения искусственного интеллекта академические и промышленные круги в разные эпохи и с различным научным опытом разработали множество направлений для достижения искусственного интеллекта.

Современные технологии искусственного интеллекта в основном используют термин "машинное обучение", который подразумевает, что машины полагаются на данные для многократного итерационного выполнения задач с целью улучшения производительности системы. Основные этапы включают ввод данных в алгоритм, обучение модели на данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных предсказательных задач.

В настоящее время существует три основных направления в машинном обучении: соединительный подход, символический подход и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение.

! Новичок в популярной науке丨AI x Crypto: от нуля до пика

В настоящее время соединительный подход, представленный нейронными сетями, занимает ведущие позиции (, также известный как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой, один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов (, а также параметры ) становятся достаточно большими, появляется достаточно возможностей для подгонки сложных общих задач. Путем ввода данных параметры нейронов можно постоянно настраивать, и после многократного прохождения данных этот нейрон достигнет оптимального состояния (, что также стало причиной появления термина "глубокий" - достаточное количество слоев и нейронов.

Например, это можно просто понять как построение функции, где при X=2, Y=3; при X=3, Y=5. Если вы хотите, чтобы эта функция работала для всех X, необходимо постоянно добавлять степень этой функции и её параметры. Например, можно построить функцию, удовлетворяющую этому условию, как Y = 2X - 1, но если есть данные X=2, Y=11, необходимо перестроить функцию, подходящую для этих трёх данных, используя GPU для брутфорса, чтобы найти, что Y = X² - 3X + 5 более подходяще, но не обязательно полностью совпадать с данными, достаточно придерживаться баланса и выдавать примерно схожий результат. Здесь X², X и X₀ представляют разные нейроны, а 1, -3, 5 — это их параметры.

В это время, если мы введем большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итеративно настраивать параметры, чтобы подстроиться под новые данные. Таким образом, мы сможем подстроиться под все данные.

На основе технологий глубокого обучения, основанных на нейронных сетях, произошло множество технологических итераций и эволюций, начиная с самых ранних нейронных сетей, затем полносвязных нейронных сетей, RNN, CNN, GAN и, наконец, эволюции к современным большим моделям, таким как используемая в GPT технология Transformer. Технология Transformer — это лишь одно из направлений эволюции нейронных сетей, которое добавляет преобразователь ) Transformer ( для кодирования всех модальностей ), таких как аудио, видео, изображения и т. д., в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети адаптироваться к любым типам данных, то есть реализовывать мультизадачность.

Развитие ИИ прошло через три волны технологий. Первая волна пришлась на 60-е годы XX века, через десятилетие после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решили проблемы общего обработки естественного языка и взаимодействия человек-компьютер. В то же время возникли экспертные системы, такие как DENRAL, разработанные некоторыми учреждениями. Эта система обладает очень глубокими знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта экспертная система по химии может рассматриваться как сочетание химической базы знаний и системы вывода.

После экспертных систем в 1990-х годах ученые предложили байесовские сети, которые также называются сетями убеждений. В то же время Брукс предложил робототехнику, основанную на поведении, что ознаменовало рождение бихевиоризма.

В 1997 году глубокий синий "Blue" из технологической компании победил чемпиона мира по шахматам Каспарова со счетом 3.5:2.5, эта победа считается вехой в искусственном интеллекте, технологии ИИ пережили второй пик своего развития.

Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Ян Лекун, Джеффри Хинтон и Ёшуа Бенжио предложили концепцию глубокого обучения, алгоритма, основанного на искусственных нейронных сетях, для обучения представлениям данных. После этого алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти алгоритмы совместно сформировали эту третью технологическую волну, и это также является золотым веком связизма.

Многие знаковые события также постепенно возникают в ходе исследования и развития технологий глубокого обучения, включая:

  • В 2011 году система одной технологической компании одержала победу над человеком и выиграла чемпионат в викторине «Опасная граница» (Jeopardy).

  • В 2014 году Гудфеллоу предложил GAN( генерирующую состязательную сеть, Generative Adversarial Network), которая обучается путем противоборства двух нейронных сетей и способна создавать реалистичные фотографии. В то же время Гудфеллоу также написал книгу «Deep Learning», известную как "цветная книга", которая является одной из важных вводных книг в области глубокого обучения.

  • В 2015 году Хинтон и др. предложили алгоритм глубокого обучения в журнале «Природа», что сразу же вызвало огромный резонанс в академических кругах и промышленности.

  • В 2015 году была основана компания в области искусственного интеллекта, несколько известных личностей объявили о совместном вложении 1 миллиарда долларов.

  • В 2016 году, основанный на технологиях глубокого обучения AlphaGo провел матч по го против чемпиона мира и профессионального мастера 9 дана Ли Седоля, выиграв с общим счётом 4:1.

  • В 2017 году компания разработала гуманоидного робота по имени София, который стал первым роботом в истории, получившим статус полноценного гражданина, обладающим богатым набором лицевых выражений и способностью понимать человеческий язык.

  • В 2017 году одна компания, обладающая богатым потенциалом кадров и технологий в области искусственного интеллекта, опубликовала статью «Attention is all you need», в которой была предложена алгоритм Transformer, и начали появляться крупномасштабные языковые модели.

  • В 2018 году одна компания выпустила GPT(Generative Pre-trained Transformer), построенный на алгоритме Transformer, который на тот момент был одной из крупнейших языковых моделей.

  • В 2018 году команда одной компании выпустила AlphaGo на основе глубокого обучения, способный предсказывать структуру белков, что считается огромным шагом вперед в области искусственного интеллекта.

  • В 2019 году одна компания выпустила GPT-2, эта модель обладает 1,5 миллиарда параметров.

  • В 2020 году компания разработала GPT-3, который имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель использовала 570 ГБ текста для обучения и может достигать передовых результатов в различных задачах обработки естественного языка, таких как ответ на вопросы, перевод, написание статей.

  • В 2021 году одна компания выпустила GPT-4, эта модель обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.

  • В январе 2023 года был запущен приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.

  • В 2024 году одна компания выпустит GPT-4 omni.

! Newcomer Science丨AI x Crypto: от нуля до пика

Цепочка создания ценности в области глубокого обучения

Текущие языковые модели основаны на методах глубокого обучения на основе нейронных сетей. Модели большого масштаба, такие как GPT, вызвали волну интереса к искусственному интеллекту, и множество игроков пришли в эту область. Мы также обнаружили, что спрос на данные и вычислительные мощности резко возрос, поэтому в этой части отчета мы в основном исследуем промышленную цепочку алгоритмов глубокого обучения. В AI-отрасли, доминируемой алгоритмами глубокого обучения, каковы составные части ее верхней и нижней частей, а также каково текущее состояние, соотношение спроса и предложения и будущее развитие этих частей.

Прежде всего, нам нужно прояснить, что при обучении больших моделей LLMs(, в частности GPT на основе технологии Transformer), процесс делится на три этапа.

Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовой формат, этот процесс называется "Tokenization" (токенизация), после чего эти числовые значения называются токенами. По общему правилу, одно английское слово или символ можно грубо считать одним токеном, а каждый иероглиф можно грубо считать двумя токенами. Это также является основной единицей измерения, используемой для оценки GPT.

Первый шаг, предварительное обучение. Путем предоставления входному слою достаточного количества пар данных, аналогично приведенному в первой части отчета примеру (X,Y), мы ищем оптимальные параметры для каждого нейрона в данной модели. На этом этапе требуется большое количество данных, и этот процесс также является наиболее ресурсозатратным, поскольку необходимо многократно итерировать нейроны, пробуя различные параметры. После завершения обучения одной партии данных обычно используется та же партия данных для вторичного обучения с целью итерации параметров.

Второй шаг, дообучение. Дообучение — это использование небольшого, но очень качественного объема данных для обучения, такие изменения позволят повысить качество вывода модели, поскольку предварительное обучение требует большого объема данных, но многие данные могут содержать ошибки или быть низкого качества. Этап дообучения может повысить качество модели за счет качественных данных.

Третий шаг - обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью награды". Цель этой модели очень проста: сортировать результаты вывода, поэтому реализация этой модели будет относительно простой, так как бизнес-сценарий довольно специализирован. Затем мы используем эту модель для определения, является ли вывод нашей большой модели качественным, таким образом, мы можем использовать модель награды для автоматической итерации параметров большой модели. ( Однако иногда требуется человеческое участие для оценки качества вывода модели ).

Короче говоря, в процессе обучения крупных моделей требования к объему данных для предварительного обучения очень высоки, также требуется максимальная вычислительная мощность GPU, в то время как для дообучения нужны более качественные данные для улучшения параметров, а обучение с подкреплением может многократно итеративно изменять параметры с помощью модели вознаграждения для получения более качественных результатов.

В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, в приведенном примере функции Y = aX + b, на самом деле есть два нейрона X и X0, поэтому, как бы ни изменялись параметры, данные, которые можно подогнать, крайне ограничены, поскольку в своей сути это все равно прямая линия. Если нейронов больше, то можно итеративно изменять больше параметров, что позволяет подгонять больше данных. Это и есть причина, по которой большие модели творят чудеса, и именно поэтому они получили простое название "большие модели" — в своей основе это огромное количество нейронов и параметров, а также огромное количество данных, при этом требуется огромная вычислительная мощность.

Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, вычислительная мощность, которые вместе влияют на качество результатов и обобщающую способность больших моделей. Предположим, что количество параметров равно p, объем данных равен n(, рассчитанному по количеству токенов), тогда мы можем оценить необходимую вычислительную мощность, используя общие эмпирические правила, что позволит нам примерно предсказать, сколько вычислительной мощности нам нужно будет приобрести и время тренировки.

Мощность обычно измеряется в Flops, что представляет собой одну операцию с плавающей запятой. Операции с плавающей запятой - это общее название для сложения, вычитания, умножения и деления нецелых чисел, таких как 2.5 + 3.557. Плавающая запятая означает, что числа могут содержать десятичные дроби, а FP16 обозначает поддержку дробной точности, FP32 - это более распространенная точность. Согласно практическим эмпирическим правилам, предварительная тренировка ( Pre-traning ) один раз ( обычно будет проходить несколько раз ) с большим моделем, что примерно требует 6np Flops, 6 называется отраслевым постоянным. А вывод ( Inference - это процесс, в котором мы вводим данные и ожидаем вывода от большой модели ), разделенный на две части: ввод n токенов и вывод.

GPT7.8%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Репост
  • Поделиться
комментарий
0/400
CryptoSourGrapevip
· 08-16 11:46
Если бы я раньше вложился в All in AI, возможно, сейчас бы уже лежал на диване с LAMB... А сейчас могу только каждый день вкладываться.
Посмотреть ОригиналОтветить0
MEVHunterZhangvip
· 08-16 08:42
Снова AI будет играть для лохов
Посмотреть ОригиналОтветить0
SeasonedInvestorvip
· 08-16 08:42
20% это бык吧
Посмотреть ОригиналОтветить0
AirdropSkepticvip
· 08-16 08:41
Зашли на максимум, ждите, что будут играть для лохов.
Посмотреть ОригиналОтветить0
CryptoPhoenixvip
· 08-16 08:41
Бычий рынок не за горами, возрождение ИИ дает надежду криптовалюте... Медвежий рынок формирует менталитет, вера никогда не угаснет
Посмотреть ОригиналОтветить0
  • Закрепить