Perkembangan industri AI baru-baru ini dianggap oleh sebagian orang sebagai revolusi industri keempat. Kemunculan model besar secara signifikan meningkatkan efisiensi di berbagai sektor, dan Boston Consulting memperkirakan bahwa GPT telah meningkatkan efisiensi kerja di Amerika Serikat sekitar 20%. Pada saat yang sama, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak baru; desain perangkat lunak di masa lalu adalah kode yang tepat, sedangkan desain perangkat lunak sekarang adalah kerangka model besar yang lebih umum yang disisipkan ke dalam perangkat lunak, dan perangkat lunak ini dapat memiliki kinerja yang lebih baik dan mendukung input dan output mode yang lebih luas. Teknologi pembelajaran mendalam memang telah membawa kemakmuran keempat bagi industri AI, dan gelombang ini juga telah menyebar ke industri Crypto.
Laporan ini akan membahas secara rinci sejarah pengembangan industri AI, klasifikasi teknologi, serta dampak penemuan teknologi pembelajaran mendalam terhadap industri. Kemudian, akan dilakukan analisis mendalam mengenai rantai pasokan hulu dan hilir dalam pembelajaran mendalam, termasuk GPU, komputasi awan, sumber data, dan perangkat tepi, serta kondisi dan tren perkembangannya. Selanjutnya, kami secara substansial membahas hubungan antara Crypto dan industri AI, serta merangkum pola rantai industri AI yang terkait dengan Crypto.
Sejarah perkembangan industri AI
Industri AI dimulai pada tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, akademisi dan industri telah mengembangkan banyak aliran untuk mencapai kecerdasan buatan di bawah latar belakang disiplin ilmu yang berbeda di berbagai era.
Istilah utama yang digunakan dalam teknologi kecerdasan buatan modern adalah "pembelajaran mesin", yang merupakan konsep di mana mesin bergantung pada data untuk iterasi berulang dalam tugas-tugas guna meningkatkan kinerja sistem. Langkah-langkah utamanya adalah mengirimkan data ke dalam algoritma, menggunakan data ini untuk melatih model, menguji dan menerapkan model, serta menggunakan model tersebut untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf manusia, pemikiran, dan perilaku.
Saat ini, koneksionisme yang diwakili oleh jaringan saraf sedang mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasannya adalah arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Ketika jumlah lapisan dan neuron ( parameter ) menjadi cukup banyak, maka ada cukup peluang untuk mencocokkan tugas umum yang kompleks. Dengan memasukkan data, parameter neuron dapat terus disesuaikan, sehingga setelah melalui banyak data, neuron tersebut akan mencapai kondisi terbaik ( parameter ), inilah yang kita sebut sebagai "usaha keras menghasilkan keajaiban", dan ini juga yang menjadi asal kata "dalam" --- cukup banyak lapisan dan neuron.
Sebagai contoh, dapat dipahami dengan sederhana bahwa kita membangun sebuah fungsi, di mana kita memasukkan X=2 maka Y=3; X=3 maka Y=5. Jika ingin fungsi ini berlaku untuk semua X, maka kita perlu terus menambahkan derajat fungsi dan parameternya. Misalnya, saat ini saya dapat membangun fungsi yang memenuhi kondisi ini menjadi Y = 2X -1, tetapi jika ada data dengan X=2, Y=11, maka perlu membangun kembali fungsi yang sesuai untuk ketiga titik data ini. Menggunakan GPU untuk brute force, ditemukan Y = X2 -3X +5, yang cukup cocok, tetapi tidak perlu sepenuhnya sesuai dengan data, cukup mematuhi keseimbangan, output yang kira-kira mirip sudah cukup. Di sini X2, X, dan X0 masing-masing mewakili neuron yang berbeda, sedangkan 1, -3, dan 5 adalah parameternya.
Pada saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambah neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Dan teknologi pembelajaran mendalam berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknologi, seperti jaringan saraf paling awal di atas, jaringan saraf feedforward, RNN, CNN, GAN akhirnya berkembang menjadi model besar modern seperti teknologi Transformer yang digunakan oleh GPT, teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, menambahkan sebuah konverter ( Transformer ), yang digunakan untuk mengkodekan data dari semua modal ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk merepresentasikannya. Kemudian, data tersebut dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan dengan jenis data apa pun, yaitu untuk mewujudkan multimodal.
Perkembangan AI telah melalui tiga gelombang teknologi. Gelombang pertama terjadi pada tahun 1960-an, satu dekade setelah teknologi AI diperkenalkan. Gelombang ini dipicu oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami secara umum dan dialog manusia-mesin. Pada periode yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan oleh Universitas Stanford. Sistem ini memiliki pengetahuan kimia yang sangat kuat dan melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban yang sama dengan pakar kimia. Sistem pakar kimia ini dapat dianggap sebagai kombinasi dari basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, pada tahun 1990-an, Judea Pearl ( mengajukan jaringan Bayesian, yang juga dikenal sebagai jaringan kepercayaan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai kelahiran behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raja deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, mengusulkan konsep deep learning, yaitu algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk pembelajaran representasi data. Setelah itu, algoritma deep learning secara bertahap berkembang, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson) dari IBM berhasil mengalahkan manusia dan meraih juara dalam acara kuis "Jeopardy(".
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Adversarial Generatif, Generative Adversarial Network(, yang belajar dengan cara mempertemukan dua jaringan saraf dalam sebuah permainan, mampu menghasilkan foto-foto yang terlihat sangat nyata. Sementara itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, merupakan salah satu buku pengantar penting dalam bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan rekan-rekannya mengajukan algoritma pembelajaran mendalam di majalah "Nature", yang segera memicu reaksi besar di kalangan akademisi dan industri.
Pada tahun 2015, OpenAI didirikan, Musk, Presiden YC Altman, investor malaikat Peter Thiel ) Peter Thiel ( dan lainnya mengumumkan investasi bersama sebesar 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis teknologi pembelajaran mendalam bertarung melawan juara dunia go, pemain profesional sembilan dan Li Shishi, dan menang dengan skor total 4-1.
Pada tahun 2017, Hanson Robotics ) mengembangkan robot humanoid Sophia, yang disebut sebagai robot pertama dalam sejarah yang memperoleh status sebagai warga negara, dilengkapi dengan ekspresi wajah yang kaya serta kemampuan pemahaman bahasa manusia.
Pada tahun 2017, Google menerbitkan makalah "Attention is all you need" yang memperkenalkan algoritma Transformer, model bahasa berskala besar mulai muncul.
Pada tahun 2018, OpenAI merilis GPT(Generative Pre-trained Transformer) yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, tim Google Deepmind merilis AlphaGo yang berbasis pada pembelajaran mendalam, mampu melakukan prediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, GPT-3 yang dikembangkan oleh OpenAI memiliki 175 miliar parameter, 100 kali lebih banyak dibandingkan versi sebelumnya GPT-2, model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja terkini dalam berbagai tugas NLP( seperti menjawab pertanyaan, menerjemahkan, dan menulis artikel).
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi ChatGPT berbasis model GPT-4 diluncurkan pada Januari 2023, dan pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang paling cepat dalam sejarah mencapai seratus juta pengguna.
Pada tahun 2024, OpenAI meluncurkan GPT-4 omni.
Catatan: Karena ada banyak makalah tentang kecerdasan buatan, banyak aliran, dan evolusi teknologi yang berbeda, maka di sini terutama mengikuti sejarah perkembangan pembelajaran mendalam atau koneksionisme, sementara aliran dan teknologi lainnya masih dalam proses perkembangan yang pesat.
Rantai Industri Pembelajaran Mendalam
Model bahasa besar saat ini menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Model besar yang dipimpin oleh GPT telah menciptakan gelombang baru dalam kecerdasan buatan, dengan banyak pemain yang memasuki jalur ini. Kami juga menemukan bahwa pasar mengalami lonjakan besar dalam permintaan terhadap data dan daya komputasi. Oleh karena itu, dalam bagian laporan ini, kami terutama menjelajahi rantai industri algoritma pembelajaran mendalam. Dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam, bagaimana komposisi hulu dan hilirnya, serta bagaimana keadaan dan hubungan penawaran dan permintaan di hulu dan hilir, serta perkembangan di masa depan.
Pertama-tama, kita perlu menjelaskan bahwa dalam pelatihan model besar LLMs yang dipimpin oleh GPT berbasis teknologi Transformer(, terdapat tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, maka konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat dianggap sebagai satu Token, sementara setiap karakter Tionghoa dapat dianggap sebagai dua Token. Ini juga merupakan unit dasar yang digunakan untuk penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data pada lapisan input, seperti yang dicontohkan pada bagian pertama laporan )X,Y(, untuk mencari parameter terbaik dari setiap neuron di bawah model tersebut, pada saat ini diperlukan banyak data, dan proses ini juga merupakan proses yang paling menghabiskan daya komputasi, karena harus melakukan iterasi berulang kali pada neuron untuk mencoba berbagai parameter. Setelah satu batch pasangan data dilatih, biasanya akan menggunakan batch data yang sama untuk pelatihan kedua guna mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sekumpulan data yang lebih sedikit, tetapi berkualitas sangat tinggi, untuk melatih, perubahan semacam ini akan membuat output model memiliki kualitas yang lebih tinggi, karena pra-pelatihan membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama, akan dibangun sebuah model baru yang kami sebut sebagai "model hadiah", tujuan dari model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini cukup sederhana karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kami berkualitas tinggi, sehingga kami dapat menggunakan model hadiah untuk secara otomatis mengiterasi parameter model besar. ) Namun terkadang juga diperlukan partisipasi manusia untuk menilai kualitas keluaran model (.
Singkatnya, selama proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang dibutuhkan juga paling banyak, sementara penyetelan membutuhkan data berkualitas lebih tinggi untuk memperbaiki parameter. Pembelajaran penguatan dapat melalui model penghargaan untuk iterasi parameter berulang kali untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasi, misalnya dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron X dan X0, sehingga bagaimana parameter berubah, data yang dapat dipasangkan sangat terbatas, karena pada dasarnya tetap merupakan garis lurus. Jika jumlah neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, sehingga dapat memodelkan lebih banyak data, inilah sebabnya mengapa model besar dapat menghasilkan keajaiban, dan inilah juga alasan mengapa istilah model besar digunakan, pada dasarnya adalah jumlah neuron dan parameter yang sangat besar, serta data yang sangat besar, sekaligus memerlukan daya komputasi yang sangat besar.
Oleh karena itu, kinerja model besar dipengaruhi terutama oleh tiga aspek, yaitu jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Kita anggap jumlah parameter adalah p, jumlah data adalah n) yang dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan berdasarkan aturan umum, sehingga kita dapat memperkirakan kebutuhan daya komputasi yang harus dibeli dan waktu pelatihan.
Kekuatan komputasi umumnya diukur dalam satuan dasar Flops
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
8 Suka
Hadiah
8
11
Posting ulang
Bagikan
Komentar
0/400
NFTragedy
· 4jam yang lalu
ai哥 berkata benar~
Lihat AsliBalas0
SquidTeacher
· 6jam yang lalu
20 tidak lebih tidak kurang
Lihat AsliBalas0
BearMarketNoodler
· 18jam yang lalu
Peningkatan efisiensi sebesar 20% adalah perkiraan konservatif
Lihat AsliBalas0
SmartContractPlumber
· 22jam yang lalu
GPT dan smart contract harus diwaspadai
Lihat AsliBalas0
GateUser-43d6d1b5
· 08-06 18:44
1000x Vibes 🤑
Balas0
AirdropLicker
· 08-06 17:04
Jangan menunggu airdrop di bull run berikutnya
Lihat AsliBalas0
PumpDoctrine
· 08-06 17:03
bull meniup begitu besar naik koin adalah kunci
Lihat AsliBalas0
LayerHopper
· 08-06 17:03
Momentum gila Blockchain sudah berlalu, penambangan hard disk kini jadi primadona.
Lihat AsliBalas0
AirdropHunterXiao
· 08-06 16:56
Baru 20%? Peningkatan efisiensinya terlalu sedikit ya.
Lihat AsliBalas0
StablecoinAnxiety
· 08-06 16:52
AI hanya memiliki efisiensi ini, tidak cukup untuk dilihat.
AI dan Aset Kripto: bagaimana Kedalaman Pembelajaran Mengubah Lanskap Industri
AI dan Crypto: Dari Nol ke Puncak
Perkembangan industri AI baru-baru ini dianggap oleh sebagian orang sebagai revolusi industri keempat. Kemunculan model besar secara signifikan meningkatkan efisiensi di berbagai sektor, dan Boston Consulting memperkirakan bahwa GPT telah meningkatkan efisiensi kerja di Amerika Serikat sekitar 20%. Pada saat yang sama, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak baru; desain perangkat lunak di masa lalu adalah kode yang tepat, sedangkan desain perangkat lunak sekarang adalah kerangka model besar yang lebih umum yang disisipkan ke dalam perangkat lunak, dan perangkat lunak ini dapat memiliki kinerja yang lebih baik dan mendukung input dan output mode yang lebih luas. Teknologi pembelajaran mendalam memang telah membawa kemakmuran keempat bagi industri AI, dan gelombang ini juga telah menyebar ke industri Crypto.
Laporan ini akan membahas secara rinci sejarah pengembangan industri AI, klasifikasi teknologi, serta dampak penemuan teknologi pembelajaran mendalam terhadap industri. Kemudian, akan dilakukan analisis mendalam mengenai rantai pasokan hulu dan hilir dalam pembelajaran mendalam, termasuk GPU, komputasi awan, sumber data, dan perangkat tepi, serta kondisi dan tren perkembangannya. Selanjutnya, kami secara substansial membahas hubungan antara Crypto dan industri AI, serta merangkum pola rantai industri AI yang terkait dengan Crypto.
Sejarah perkembangan industri AI
Industri AI dimulai pada tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, akademisi dan industri telah mengembangkan banyak aliran untuk mencapai kecerdasan buatan di bawah latar belakang disiplin ilmu yang berbeda di berbagai era.
Istilah utama yang digunakan dalam teknologi kecerdasan buatan modern adalah "pembelajaran mesin", yang merupakan konsep di mana mesin bergantung pada data untuk iterasi berulang dalam tugas-tugas guna meningkatkan kinerja sistem. Langkah-langkah utamanya adalah mengirimkan data ke dalam algoritma, menggunakan data ini untuk melatih model, menguji dan menerapkan model, serta menggunakan model tersebut untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf manusia, pemikiran, dan perilaku.
Saat ini, koneksionisme yang diwakili oleh jaringan saraf sedang mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasannya adalah arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Ketika jumlah lapisan dan neuron ( parameter ) menjadi cukup banyak, maka ada cukup peluang untuk mencocokkan tugas umum yang kompleks. Dengan memasukkan data, parameter neuron dapat terus disesuaikan, sehingga setelah melalui banyak data, neuron tersebut akan mencapai kondisi terbaik ( parameter ), inilah yang kita sebut sebagai "usaha keras menghasilkan keajaiban", dan ini juga yang menjadi asal kata "dalam" --- cukup banyak lapisan dan neuron.
Sebagai contoh, dapat dipahami dengan sederhana bahwa kita membangun sebuah fungsi, di mana kita memasukkan X=2 maka Y=3; X=3 maka Y=5. Jika ingin fungsi ini berlaku untuk semua X, maka kita perlu terus menambahkan derajat fungsi dan parameternya. Misalnya, saat ini saya dapat membangun fungsi yang memenuhi kondisi ini menjadi Y = 2X -1, tetapi jika ada data dengan X=2, Y=11, maka perlu membangun kembali fungsi yang sesuai untuk ketiga titik data ini. Menggunakan GPU untuk brute force, ditemukan Y = X2 -3X +5, yang cukup cocok, tetapi tidak perlu sepenuhnya sesuai dengan data, cukup mematuhi keseimbangan, output yang kira-kira mirip sudah cukup. Di sini X2, X, dan X0 masing-masing mewakili neuron yang berbeda, sedangkan 1, -3, dan 5 adalah parameternya.
Pada saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambah neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Dan teknologi pembelajaran mendalam berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknologi, seperti jaringan saraf paling awal di atas, jaringan saraf feedforward, RNN, CNN, GAN akhirnya berkembang menjadi model besar modern seperti teknologi Transformer yang digunakan oleh GPT, teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, menambahkan sebuah konverter ( Transformer ), yang digunakan untuk mengkodekan data dari semua modal ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk merepresentasikannya. Kemudian, data tersebut dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan dengan jenis data apa pun, yaitu untuk mewujudkan multimodal.
Perkembangan AI telah melalui tiga gelombang teknologi. Gelombang pertama terjadi pada tahun 1960-an, satu dekade setelah teknologi AI diperkenalkan. Gelombang ini dipicu oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami secara umum dan dialog manusia-mesin. Pada periode yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan oleh Universitas Stanford. Sistem ini memiliki pengetahuan kimia yang sangat kuat dan melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban yang sama dengan pakar kimia. Sistem pakar kimia ini dapat dianggap sebagai kombinasi dari basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, pada tahun 1990-an, Judea Pearl ( mengajukan jaringan Bayesian, yang juga dikenal sebagai jaringan kepercayaan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai kelahiran behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raja deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, mengusulkan konsep deep learning, yaitu algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk pembelajaran representasi data. Setelah itu, algoritma deep learning secara bertahap berkembang, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson) dari IBM berhasil mengalahkan manusia dan meraih juara dalam acara kuis "Jeopardy(".
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Adversarial Generatif, Generative Adversarial Network(, yang belajar dengan cara mempertemukan dua jaringan saraf dalam sebuah permainan, mampu menghasilkan foto-foto yang terlihat sangat nyata. Sementara itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, merupakan salah satu buku pengantar penting dalam bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan rekan-rekannya mengajukan algoritma pembelajaran mendalam di majalah "Nature", yang segera memicu reaksi besar di kalangan akademisi dan industri.
Pada tahun 2015, OpenAI didirikan, Musk, Presiden YC Altman, investor malaikat Peter Thiel ) Peter Thiel ( dan lainnya mengumumkan investasi bersama sebesar 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis teknologi pembelajaran mendalam bertarung melawan juara dunia go, pemain profesional sembilan dan Li Shishi, dan menang dengan skor total 4-1.
Pada tahun 2017, Hanson Robotics ) mengembangkan robot humanoid Sophia, yang disebut sebagai robot pertama dalam sejarah yang memperoleh status sebagai warga negara, dilengkapi dengan ekspresi wajah yang kaya serta kemampuan pemahaman bahasa manusia.
Pada tahun 2017, Google menerbitkan makalah "Attention is all you need" yang memperkenalkan algoritma Transformer, model bahasa berskala besar mulai muncul.
Pada tahun 2018, OpenAI merilis GPT(Generative Pre-trained Transformer) yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, tim Google Deepmind merilis AlphaGo yang berbasis pada pembelajaran mendalam, mampu melakukan prediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, GPT-3 yang dikembangkan oleh OpenAI memiliki 175 miliar parameter, 100 kali lebih banyak dibandingkan versi sebelumnya GPT-2, model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja terkini dalam berbagai tugas NLP( seperti menjawab pertanyaan, menerjemahkan, dan menulis artikel).
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi ChatGPT berbasis model GPT-4 diluncurkan pada Januari 2023, dan pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang paling cepat dalam sejarah mencapai seratus juta pengguna.
Pada tahun 2024, OpenAI meluncurkan GPT-4 omni.
Catatan: Karena ada banyak makalah tentang kecerdasan buatan, banyak aliran, dan evolusi teknologi yang berbeda, maka di sini terutama mengikuti sejarah perkembangan pembelajaran mendalam atau koneksionisme, sementara aliran dan teknologi lainnya masih dalam proses perkembangan yang pesat.
Rantai Industri Pembelajaran Mendalam
Model bahasa besar saat ini menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Model besar yang dipimpin oleh GPT telah menciptakan gelombang baru dalam kecerdasan buatan, dengan banyak pemain yang memasuki jalur ini. Kami juga menemukan bahwa pasar mengalami lonjakan besar dalam permintaan terhadap data dan daya komputasi. Oleh karena itu, dalam bagian laporan ini, kami terutama menjelajahi rantai industri algoritma pembelajaran mendalam. Dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam, bagaimana komposisi hulu dan hilirnya, serta bagaimana keadaan dan hubungan penawaran dan permintaan di hulu dan hilir, serta perkembangan di masa depan.
Pertama-tama, kita perlu menjelaskan bahwa dalam pelatihan model besar LLMs yang dipimpin oleh GPT berbasis teknologi Transformer(, terdapat tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, maka konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat dianggap sebagai satu Token, sementara setiap karakter Tionghoa dapat dianggap sebagai dua Token. Ini juga merupakan unit dasar yang digunakan untuk penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data pada lapisan input, seperti yang dicontohkan pada bagian pertama laporan )X,Y(, untuk mencari parameter terbaik dari setiap neuron di bawah model tersebut, pada saat ini diperlukan banyak data, dan proses ini juga merupakan proses yang paling menghabiskan daya komputasi, karena harus melakukan iterasi berulang kali pada neuron untuk mencoba berbagai parameter. Setelah satu batch pasangan data dilatih, biasanya akan menggunakan batch data yang sama untuk pelatihan kedua guna mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sekumpulan data yang lebih sedikit, tetapi berkualitas sangat tinggi, untuk melatih, perubahan semacam ini akan membuat output model memiliki kualitas yang lebih tinggi, karena pra-pelatihan membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama, akan dibangun sebuah model baru yang kami sebut sebagai "model hadiah", tujuan dari model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini cukup sederhana karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kami berkualitas tinggi, sehingga kami dapat menggunakan model hadiah untuk secara otomatis mengiterasi parameter model besar. ) Namun terkadang juga diperlukan partisipasi manusia untuk menilai kualitas keluaran model (.
Singkatnya, selama proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang dibutuhkan juga paling banyak, sementara penyetelan membutuhkan data berkualitas lebih tinggi untuk memperbaiki parameter. Pembelajaran penguatan dapat melalui model penghargaan untuk iterasi parameter berulang kali untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasi, misalnya dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron X dan X0, sehingga bagaimana parameter berubah, data yang dapat dipasangkan sangat terbatas, karena pada dasarnya tetap merupakan garis lurus. Jika jumlah neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, sehingga dapat memodelkan lebih banyak data, inilah sebabnya mengapa model besar dapat menghasilkan keajaiban, dan inilah juga alasan mengapa istilah model besar digunakan, pada dasarnya adalah jumlah neuron dan parameter yang sangat besar, serta data yang sangat besar, sekaligus memerlukan daya komputasi yang sangat besar.
Oleh karena itu, kinerja model besar dipengaruhi terutama oleh tiga aspek, yaitu jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Kita anggap jumlah parameter adalah p, jumlah data adalah n) yang dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan berdasarkan aturan umum, sehingga kita dapat memperkirakan kebutuhan daya komputasi yang harus dibeli dan waktu pelatihan.
Kekuatan komputasi umumnya diukur dalam satuan dasar Flops