Apa itu sparsity? Rahsia DeepSeek AI, didedahkan oleh penyelidik Apple


Model AI yang menggegarkan dunia adalah sebahagian daripada trend luas untuk memerah lebih banyak daripada cip. Begini cara ia berfungsi.

Pasaran kecerdasan buatan (AI) -- dan keseluruhan pasaran saham -- telah digegarkan bulan lepas oleh populariti tiba-tiba DeepSeek, model bahasa besar sumber terbuka (LLM) yang dibangunkan oleh dana lindung nilai yang berpangkalan di China yang telah mengatasi yang terbaik OpenAI dalam beberapa tugas sambil menelan kos yang jauh lebih rendah.

Seperti yang diperincikan oleh Radhika Rajkumar dari ZDNET, kejayaan R1 menyerlahkan perubahan besar dalam AI yang boleh memperkasakan makmal dan penyelidik yang lebih kecil untuk mencipta model yang kompetitif dan mempelbagaikan pilihan yang tersedia.

Mengapa DeepSeek berfungsi dengan baik?

Kejayaannya adalah disebabkan oleh pendekatan yang luas dalam bentuk pembelajaran mendalam AI untuk memerah lebih banyak daripada cip komputer dengan mengeksploitasi fenomena yang dikenali sebagai "sparsity".

Sparsity datang dalam pelbagai bentuk. Kadangkala, ia melibatkan penghapusan bahagian data yang digunakan AI apabila data tersebut tidak menjejaskan output model secara material.

Pada masa lain, kelangkaan melibatkan pemotongan keseluruhan bahagian rangkaian saraf jika berbuat demikian tidak menjejaskan hasilnya.

DeepSeek ialah contoh yang terakhir: penggunaan jaring saraf yang hemat.

Kemajuan utama yang telah dikenal pasti oleh kebanyakan orang dalam DeepSeek ialah ia boleh menghidupkan dan mematikan sebahagian besar "pemberat" atau "parameter" rangkaian saraf. Parameter membentuk cara rangkaian saraf boleh mengubah input -- gesaan yang anda taip -- kepada teks atau imej yang dihasilkan. Parameter mempunyai kesan langsung ke atas tempoh masa yang diperlukan untuk melakukan pengiraan. Lebih banyak parameter biasanya bermakna lebih banyak usaha pengkomputeran.

Sparsity dan peranannya dalam AI

Keupayaan untuk menggunakan hanya sebahagian daripada jumlah parameter LLM dan mematikan selebihnya adalah contoh jarang. Kelangkaan itu boleh memberi kesan besar kepada seberapa besar atau kecil belanjawan pengkomputeran untuk model AI.

Penyelidik Apple AI, dalam laporan yang diterbitkan pada 21 Januari, menerangkan cara DeepSeek dan pendekatan serupa menggunakan kelangkaan untuk mendapatkan hasil yang lebih baik untuk jumlah kuasa pengkomputeran tertentu.

Apple tidak mempunyai kaitan dengan DeepSeek, tetapi gergasi teknologi itu melakukan penyelidikan AInya sendiri. Oleh itu, perkembangan syarikat luar seperti DeepSeek secara amnya adalah sebahagian daripada penglibatan berterusan Apple dalam penyelidikan AI.

Dalam kertas itu, bertajuk "Parameter vs FLOPs: Undang-undang Penskalaan untuk Kelangkaan Optimum untuk Model Bahasa Campuran-Pakar", disiarkan pada pelayan pra-cetak arXiv, pengarang utama Samir Abnar dan penyelidik Apple yang lain, bersama-sama dengan kolaborator Harshay Shah dari MIT, mengkaji bagaimana prestasi berbeza-beza apabila mereka mengeksploitasi kelangkaan dengan mematikan bahagian jaringan saraf.

Abnar dan pasukan menjalankan kajian mereka menggunakan perpustakaan kod yang dikeluarkan pada 2023 oleh penyelidik AI di Microsoft, Google dan Stanford, yang dipanggil MegaBlocks. Walau bagaimanapun, mereka menjelaskan bahawa kerja mereka boleh digunakan pada DeepSeek dan inovasi terkini yang lain.

Abnar dan pasukan bertanya sama ada terdapat tahap "optimum" untuk kelangkaan dalam DeepSeek dan model yang serupa: untuk jumlah kuasa pengkomputeran tertentu, adakah terdapat bilangan optimum pemberat saraf tersebut untuk dihidupkan atau dimatikan?

Penyelidikan mencadangkan anda boleh mengukur sepenuhnya kelangkaan sebagai peratusan semua berat saraf yang boleh anda tutup, dengan peratusan itu menghampiri tetapi tidak pernah menyamai 100% jaringan saraf yang "tidak aktif".

Graf menunjukkan bahawa untuk jaringan saraf tertentu, pada belanjawan pengkomputeran tertentu, terdapat jumlah optimum jaringan saraf yang boleh dimatikan untuk mencapai tahap ketepatan. Peraturan praktikal ekonomi yang sama telah berlaku untuk setiap generasi baru komputer peribadi: sama ada hasil yang lebih baik untuk wang yang sama atau hasil yang sama untuk wang yang lebih sedikit.

Untuk rangkaian saraf saiz tertentu dalam jumlah parameter, dengan jumlah pengkomputeran tertentu, anda memerlukan parameter yang semakin sedikit untuk mencapai ketepatan yang sama atau lebih baik pada ujian penanda aras AI tertentu, seperti matematik atau menjawab soalan.

Dengan kata lain, apa sahaja kuasa pengkomputeran anda, anda boleh semakin mematikan bahagian jaringan saraf dan mendapatkan hasil yang sama atau lebih baik.

Mengoptimumkan AI dengan parameter yang lebih sedikit

Seperti yang dinyatakan oleh Abnar dan pasukan dalam istilah teknikal: "Meningkatkan kelangkaan sambil mengembangkan jumlah parameter secara berkadar secara konsisten membawa kepada kerugian pralatihan yang lebih rendah, walaupun apabila dikekang oleh belanjawan pengiraan latihan tetap." Istilah "kerugian pralatihan" ialah istilah AI untuk ketepatan jaringan saraf. Kehilangan latihan yang lebih rendah bermakna keputusan yang lebih tepat.

Penemuan itu menerangkan bagaimana DeepSeek boleh mempunyai kuasa pengkomputeran yang kurang tetapi mencapai hasil yang sama atau lebih baik hanya dengan mematikan lebih banyak bahagian rangkaian.

Sparsity adalah seperti dail ajaib yang mencari padanan terbaik untuk model AI anda dan pengiraan yang tersedia.

Peraturan praktikal ekonomi yang sama telah berlaku untuk setiap generasi baru komputer peribadi: sama ada hasil yang lebih baik untuk wang yang sama atau hasil yang sama untuk wang yang lebih sedikit.

Terdapat beberapa butiran lain yang perlu dipertimbangkan tentang DeepSeek. Sebagai contoh, satu lagi inovasi DeepSeek, seperti yang dijelaskan oleh Ege Erdil dari Epoch AI, ialah helah matematik yang dipanggil "perhatian terpendam berbilang kepala". Tanpa terlalu mendalami rumpai, perhatian terpendam berbilang kepala digunakan untuk memampatkan salah satu pengguna memori dan lebar jalur terbesar, cache memori yang menyimpan teks input terkini gesaan.

Masa depan penyelidikan sparsiti

Diketepikan butiran, perkara yang paling mendalam tentang semua usaha ini ialah kelangkaan sebagai fenomena bukanlah perkara baharu dalam penyelidikan AI, dan juga bukan pendekatan baharu dalam kejuruteraan.

Penyelidik AI telah menunjukkan selama bertahun-tahun bahawa menghapuskan bahagian jaringan saraf boleh mencapai ketepatan yang setanding atau lebih baik dengan usaha yang lebih sedikit.

Pesaing Nvidia Intel telah mengenal pasti kelangkaan sebagai jalan penyelidikan utama untuk mengubah keadaan seni dalam bidang itu selama bertahun-tahun. Pendekatan daripada syarikat permulaan berdasarkan kelangkaan juga telah mencatat markah tinggi pada penanda aras industri dalam beberapa tahun kebelakangan ini.

Dail ajaib kelangkaan bukan sahaja mengurangkan kos pengkomputeran, seperti dalam kes DeepSeek. Sparsity juga berfungsi ke arah lain: ia boleh menjadikan komputer AI yang semakin cekap.

Dail ajaib kelangkaan adalah mendalam kerana ia bukan sahaja meningkatkan ekonomi untuk bajet yang kecil, seperti dalam kes DeepSeek, tetapi ia juga berfungsi ke arah lain: berbelanja lebih banyak, dan anda akan mendapat faedah yang lebih baik melalui kejarangan. Apabila anda meningkatkan kuasa pengkomputeran anda, ketepatan model AI bertambah baik, Abnar dan pasukan mendapati.

Mereka mencadangkan: "Apabila kelangkaan meningkat, kerugian pengesahan berkurangan untuk semua belanjawan pengiraan, dengan belanjawan yang lebih besar mencapai kerugian yang lebih rendah pada setiap tahap kejarangan."

Secara teori, maka, anda boleh membuat model yang lebih besar dan lebih besar, pada komputer yang lebih besar dan lebih besar, dan mendapatkan keuntungan yang lebih baik untuk wang anda.

Semua kerja yang jarang itu bermakna bahawa DeepSeek hanyalah satu contoh daripada bidang penyelidikan yang luas yang telah diikuti oleh banyak makmal -- dan ramai lagi kini akan melompat untuk meniru kejayaan DeepSeek.