DataFi епоха: новий двигун розвитку ШІ та революція даних у блокчейні

Наступні десять років розвитку ШІ: Революція в інфраструктурі даних

Штучний інтелект(AI) в галузі протягом тривалого часу зосереджувався на підвищенні масштабів моделей та обчислювальних можливостей, але з появою параметрів моделей, що перевищують трильйони, та обчислювальної потужності на рівні сотень мільярдів операцій за секунду, поступово виявляється ігнороване основне обмеження - дані. Поточні структурні суперечності в розвитку ШІ виявляють нову картину "Era DataFi" - в цю епоху дані вже не є побічним продуктом технологій, а є ключовим виробничим фактором, що може бути виміряний, обміняний та прирощений, подібно до електрики та обчислювальної потужності.

Структурні суперечності в індустрії штучного інтелекту: від змагання за обчислювальну потужність до голоду даних

Розвиток ШІ тривалий час підтримується двома ключовими факторами: "модель-обчислювальна потужність". З моменту революції в глибокому навчанні параметри моделей зросли з мільйонів до трильйонів, а попит на обчислювальну потужність зріс експоненційно. За статистикою, вартість навчання сучасної великої мовної моделі перевищила 100 мільйонів доларів США, з яких 90% витрачається на оренду GPU-кластерів. Однак, поки галузь зосереджується на "більших моделях" і "швидших чіпах", криза на стороні постачання даних тихенько наближається.

Сгенеровані людством "органічні дані" досягли стелі зростання. Наприклад, у випадку текстових даних, загальний обсяг високоякісних текстів, які можна знайти в Інтернеті, становить приблизно 10^12 слів, тоді як для навчання моделі з 100 мільярдами параметрів потрібно приблизно 10^13 слів даних. Це означає, що існуючий пул даних може підтримувати навчання лише 10 моделей одного масштабу. Ще більш серйозною є проблема, що частка повторюваних даних і низькоякісного вмісту перевищує 60%, що ще більше стискає постачання ефективних даних. Коли моделі починають "поглинати" дані, які вони самі генерують, "забруднення даних" стало тривожним фактором для індустрії, оскільки це призводить до зниження продуктивності моделей.

Ця суперечність має своїм корінням те, що індустрія штучного інтелекту протягом тривалого часу розглядала дані як "безкоштовний ресурс", а не як "стратегічний актив", за яким потрібно ретельно доглядати. Моделі та обчислювальні потужності вже сформували зрілу ринкову систему, але виробництво, очищення, верифікація та торгівля даними все ще знаходяться в "дикунських часах". Наступні десять років для штучного інтелекту будуть десятиліттям "інфраструктури даних", а ончейн-дані криптографічних мереж є ключем до розв'язання цієї проблеми.

Дані в ланцюгу: "База даних людської поведінки", найбільш необхідна для ШІ

На фоні голоду в даних, онлайнові дані крипто-мережі демонструють безумовну цінність. На відміну від традиційних даних Інтернету, онлайнові дані природно мають "правдивість стимулів" – кожна транзакція, кожна взаємодія з контрактом, кожна дія гаманця безпосередньо пов'язана з реальним капіталом і не підлягає змінам. Онлайнові дані можна визначити як "найконцентрованіші дані про людські дії, узгоджені з інтересами, в Інтернеті", що конкретно проявляється в трьох вимірах:

справжній світ "сигнали наміру"

Записані в блокчейні дані фіксують прийняття рішень, що здійснюються з реальними грошима. Наприклад, дії гаманця, такі як обмін активів на певному DEX, заставлення та позика на платформі кредитування, реєстрація домену, безпосередньо відображають оцінку користувачем вартості проекту, його ризикові вподобання та стратегію розподілу капіталу. Ці дані, які "підтверджуються капіталом", є надзвичайно цінними для навчання здібностей AI до прийняття рішень (, таких як фінансове прогнозування, аналіз ринку ). У порівнянні, традиційні інтернет-дані переповнені "шумом", і ці дані не тільки не здатні навчити надійні AI моделі, а навпаки, можуть ввести модель в оману.

Досліджуваний "ланцюг дій"

Прозорість блокчейну дозволяє повністю відслідковувати поведінку користувачів. Історія транзакцій певної адреси гаманця, протоколи, з якими вона взаємодіяла, зміни у володінні активами формують єдиний "ланцюг поведінки". Наприклад, аналізуючи операції певної адреси в DeFi-протоколах з 2020 року до сьогодні, ШІ може точно визначити, чи є вона "довгостроковим утримувачем", "арбітражним трейдером" чи "постачальником ліквідності", і на цій основі створити профіль користувача. Ці структуровані дані про поведінку є найрідкіснішими "зразками людського мислення" для сучасних моделей ШІ.

відкритої екосистеми "безліцензійний доступ"

На відміну від закритості даних традиційних підприємств, дані в блокчейні відкриті та не вимагають дозволу. Будь-який розробник може отримати оригінальні дані через блокчейн-браузер або API даних, що забезпечує "безбар'єрне" джерело даних для навчання AI моделей. Однак ця відкритість також приносить виклики: дані в блокчейні існують у формі "журналу подій", є неструктурованими "сигналами" і потребують очищення, стандартизації та зв'язування, щоб їх можна було використовувати в AI моделях. Наразі "структуроване перетворення" даних в блокчейні становить менше 5%, і велика кількість цінних сигналів втрачається серед десятків мільярдів фрагментованих подій.

Hyperdata Network: "операційна система" для даних на блокчейні

Щоб вирішити проблему фрагментації даних в ланцюзі, було запропоновано нову "ланцюгову інтелектуальну операційну систему" - це мережа даних, спеціально розроблена для ШІ. Її основною метою є перетворення розподілених сигналів в ланцюзі на структуровані, перевіряємi, в реальному часі комбіновані дані, готові до використання в ШІ.

Рукопис: Відкриті стандарти даних, щоб AI "розумів" світ на ланцюзі

Одна з найбільших проблем з даними в блокчейні – це "безлад у форматах" – різні блокчейни мають різні формати журналів подій, а структура даних різних версій одного протоколу може також змінюватися. Manuscript, як відкритий стандарт схем даних, уніфікує визначення та опис даних у блокчейні. Наприклад, він стандартизує "поведінку користувачів щодо стейкінгу" у структуровані дані, що містять такі поля, як staker_address, protocol_id, amount, timestamp, reward_token, забезпечуючи, що AI-моделі не потребують адаптації до різних форматів даних з різних блокчейнів або протоколів, а можуть безпосередньо "зрозуміти" бізнес-логіку, що стоїть за даними.

Ця стандартизована цінність полягає в зниженні витрат на розробку штучного інтелекту. Припустимо, команда хоче навчити "модель прогнозування поведінки користувачів DeFi"; традиційний спосіб вимагав би підключення до API декількох блокчейнів і написання різних скриптів для розбору; тоді як на базі Manuscript, всі дані з блокчейну вже попередньо оброблені за єдиним стандартом, розробники можуть безпосередньо викликати структуровані дані, такі як "записи про стейкінг користувачів" і "записи про надання ліквідності", що значно скорочує цикл навчання моделі.

Основна вимога AI моделей до даних — це "довіра". Якщо навчальні дані були підроблені або забруднені, вихід моделі буде абсолютно безвартісним. Hyperdata Network забезпечує достовірність даних через механізм AVS(Active Validator Set) на основі Ethereum. AVS є розширенням шару консенсусу Ethereum, що складається з великої кількості валідаторів, які заклали ETH, і ці вузли відповідають за перевірку цілісності та точності даних в ланцюгу. Коли Hyperdata Network обробляє подію в ланцюгу, вузли AVS перехресно перевіряють хеші даних, інформацію про підписи та стан ланцюга, щоб забезпечити повну відповідність структурованих даних оригінальним даним в ланцюзі.

Цей механізм верифікації "гарантії криптоекономіки" вирішує проблему довіри, властиву традиційній централізованій верифікації даних. Наприклад, якщо якась компанія з розробки ШІ використовує дані з блокчейну, надані централізованою установою, їй потрібно довіряти, що ця установа не підробила дані; натомість, використовуючи Hyperdata Network, справжність даних підтверджується децентралізованою мережею верифікаторів, і будь-які дії з підробки викликають механізм покарання смарт-контракту.

Chainbase DA: високопродуктивний шар доступності даних

Моделі ШІ, особливо інтерактивні програми ШІ (, такі як торгові роботи, інтелектуальні служби підтримки ), потребують низької затримки та високої пропускної здатності даних. Chainbase DA ( Data Availability ) шар спеціально розроблений для цієї потреби, оптимізуючи алгоритми стиснення даних та протоколи передачі, що дозволяє реалізувати обробку десятків тисяч подій в мережі в реальному часі за секунду. Наприклад, коли на певному DEX відбувається велика угода, Chainbase DA може за 1 секунду завершити витягування, стандартизацію та верифікацію даних і надіслати структурований "сигнал великої угоди" підписаним моделям ШІ, дозволяючи їм своєчасно коригувати торгові стратегії.

Висока пропускна спроможність забезпечується модульною архітектурою - Chainbase DA відокремлює зберігання даних від обробки, зберігання даних забезпечується мережею розподілених вузлів, а обробка здійснюється за допомогою позамежного Rollup, що дозволяє уникнути вузьких місць у продуктивності самої блокчейн-мережі. Такий дизайн дозволяє Hyperdata Network підтримувати вимоги до реальних даних великих масштабів для AI-додатків, таких як надання одночасних онлайн послуг з даними на блокчейні для великої кількості торгових агентів.

Ера DataFi: коли дані стають торгівельним "капіталом"

Кінцевою метою Hyperdata Network є сприяння переходу AI-індустрії в епоху DataFi - дані більше не є пасивним "навчальним матеріалом", а є активним "капіталом", який можна оцінювати, торгувати, збільшувати його вартість. Як електрика оцінюється в кіловатах, а обчислювальна потужність в FLOPS, дані також повинні оцінюватися, ранжуватися, мати свою вартість. Реалізація цього бачення залежить від перетворення даних Hyperdata Network на чотири основні властивості:

Структуроване: від "сирого сигналу" до "використовуваного активу"

Нероблені дані в ланцюгу, як "сира нафта", потрібно перетворити, щоб стати "бензином". Hyperdata Network перетворює їх у структуровані дані за стандартом Manuscript, наприклад, розбиваючи "адресу гаманця A в момент T внесла X токенів до протоколу B" на багатовимірні дані, які містять профіль користувача, властивості протоколу, тип активів та мітку часу. Це структурування дозволяє AI-моделям безпосередньо викликати дані, так само просто, як виклик API.

Комбіновані: "Лего" для даних

У Web3 "комбінованість" сприяла вибуху DeFi. Hyperdata Network впроваджує цю концепцію в галузі даних: структуровані дані можна вільно комбінувати, як кубики LEGO. Наприклад, розробники можуть поєднувати "записи про заставу користувачів" з "даними про коливання цін" та "обсягом соціальних згадувань", щоб навчити "модель прогнозування ринкових настроїв DeFi". Ця комбінованість значно розширює межі застосування даних, дозволяючи інноваціям AI не обмежуватися єдиним джерелом даних.

Можливість перевірки: "кредитна підтримка" даних

Структуровані дані, що проходять перевірку за допомогою AVS, генерують унікальний "відбиток даних" (, а також хеш-значення ), яке зберігається в блокчейні. Будь-який AI-додаток або розробник, що використовує ці дані, може підтвердити достовірність даних шляхом перевірки хеш-значення. Ця "перевірюваність" надає даним кредитні властивості - наприклад, набір даних, позначений як "високоякісний торговий сигнал", може бути перевірений за історичною точністю через хеш-дані в блокчейні, що дозволяє користувачам не довіряти постачальнику набору даних, а просто перевіряти відбиток даних для оцінки якості даних.

Можливість реалізації: "монетизація даних"

У епоху DataFi постачальники даних можуть монетизувати структуровані дані безпосередньо через Hyperdata Network. Наприклад, команда, яка аналізує дані на блокчейні, розробила "сигнал попередження про вразливості смарт-контрактів", який можна упакувати в API-сервіс з оплатою за кількість викликів; звичайні користувачі також можуть уповноважити обмін своїми анонімними даними на блокчейні для отримання винагороди у вигляді токенів даних. У цій екосистемі вартість даних визначається ринковим попитом і пропозицією - сигнали угод з високою точністю можуть мати вищу ціну, тоді як базові дані про поведінку користувачів можуть оплачуватися за кожен випадок.

Висновок: Дані революція, наступні десять років AI

Коли ми говоримо про майбутнє ШІ, ми часто зосереджуємося на "інтелектуальному рівні" моделей, ігноруючи "дані" як основу для цього інтелекту. Hyperdata Network виявляє одну ключову істину: еволюція ШІ насправді є еволюцією інфраструктури даних. Від "обмеженості" даних, що генеруються людьми, до "виявлення вартості" даних на ланцюгу, від "безладу" фрагментованих сигналів до "порядку" структурованих даних, від "безкоштовного ресурсу" даних до "капітальних активів" DataFi, ця мережа перетворює основну логіку індустрії ШІ.

У цю епоху DataFi дані стануть мостом, що з'єднує ШІ з реальним світом – торгові агенти через дані в блокчейні відстежують ринкові настрої, автономні dApp оптимізують свої послуги на основі даних поведінки користувачів, а звичайні користувачі отримують постійний дохід через обмін даними. Як електричні мережі спричинили промислову революцію, так обчислювальні мережі спричинили революцію Інтернету, Hyperdata Network спричиняє "революцію даних" в ШІ.

Наступне покоління AI-native додатків потребує не лише моделей або гаманців, а й даних, які не вимагають довіри, є програмованими та мають високий сигнал. Коли дані нарешті отримають належну цінність, AI зможе справді звільнити силу, що змінює світ.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
CoffeeNFTsvip
· 6год тому
Модель наїлася даних.
Переглянути оригіналвідповісти на0
SatoshiLegendvip
· 12год тому
Ера DataFi настає, теологія зрештою усвідомить, що дані є вірою, а повернення до витоків є істиною.
Переглянути оригіналвідповісти на0
FallingLeafvip
· 12год тому
Обчислювальна потужність спалює гроші, так?
Переглянути оригіналвідповісти на0
ChainPoetvip
· 12год тому
Обчислювальна потужність занадто висока, здається, що скоро буде гра.
Переглянути оригіналвідповісти на0
MEVHunterXvip
· 12год тому
Модель палить гроші, це теж просто витратити їх даремно.
Переглянути оригіналвідповісти на0
  • Закріпити