Grok 3 xAI lebih baik daripada yang dijangkakan. Cara mencubanya secara percuma (sebelum anda melanggan)


Model baharu xAI naik ke bahagian atas papan pendahulu Chatbot Arena dan keputusan penanda aras.

Elon Musk ialah pelabur dalam OpenAI apabila ia diasaskan pada 2015. Sejak itu, dia memutuskan hubungannya sepenuhnya dengan syarikat permulaan itu, mendakwa syarikat itu telah berlepas daripada misi bukan untung asalnya. Dia mencipta syarikat AInya sendiri, xAI, dan dengannya, model bahasa besar (LLM) yang dipanggil Grok. Kini, syarikat itu telah melancarkan model baharu, Grok 3, yang melonjak ke puncak papan pendahulu chatbot.

Grok 3

Pada hari Isnin, Elon Musk melancarkan keluarga model AI terbaharu xAI, Grok 3, melalui strim langsung. Grok 3 mempunyai latihan 10 kali lebih banyak daripada Grok 2, dimungkinkan oleh penciptaan xAI sendiri pusat data yang berpangkalan di Memphis, Tenn., rumah kepada 200,000 GPU. 

"Kami teruja untuk mempersembahkan Grok 3, yang kami fikir adalah susunan magnitud yang lebih berkebolehan daripada Grok 2," kata Musk semasa siaran langsung. 

Keluarga model juga termasuk model penaakulan, yang dibina di atas Grok 3. Seperti model penaakulan lain di pasaran, termasuk model o1 dan o3 OpenAI, beta Grok 3 Reasoning berfikir lebih lama untuk menghasilkan hasil yang lebih berkualiti. 

Semua model Grok 3 bertujuan untuk bersaing dengan model terkemuka. Grok 3 bersaing dengan GPT-4o OpenAI dan Gemini Google, dan Grok 3 Reasoning bersaing dengan 03-mini (tinggi), o1 dan Deepseek-R1. Dengan kurang daripada 24 jam di pasaran, tawaran xAI mendominasi penanda aras dan papan pendahulu. 

Prestasi 

Pra-latihan model itu berakhir pada awal Januari, dan walaupun ia masih menjalani latihan, Grok 3 telah mengatasi model terkemuka pada penanda aras AI, termasuk AIME '24, yang menguji penaakulan matematik; GPQA, yang menguji kecekapan dalam sains, khususnya biologi, fizik, dan kimia; dan LCB Okt-Feb, yang menguji keupayaan pengekodan. 

Model penaakulan Grok 3 dan model penaakulan mini Grok 3 masih dibangunkan, tetapi menurut keputusan yang dikongsi oleh xAI semasa strim langsung, beta kedua-dua model menunjukkan prestasi yang kompetitif berbanding o3-mini (tinggi), o1, DeepSeek-R1 dan Pemikiran Flash Gemini-2 merentas AIME, GPQA dan LCB. 

Di luar penanda aras teknikal, Grok 3 mendaki carta di Chatbot Arena, platform sumber ramai di mana pengguna boleh menilai LLM dengan berbual dengan dua LLM bersebelahan dan membandingkan respons mereka antara satu sama lain tanpa mengetahui nama model. 

Sebelum pelancaran rasmi Grok 3, versi awal model itu disiarkan di Arena di bawah tajuk "coklat," dan ia menduduki tempat pertama di atas Gemini, GPT-4o, DeepSeek r1 dan banyak lagi merentas semua kategori. Ia juga menjadi model pertama yang memecahkan markah 1400 di Arena. 

Carian Dalam

Untuk memenuhi permintaan untuk keupayaan ejen, xAI juga melancarkan DeepSearch, yang serupa dengan ciri penyelidikan mendalam OpenAI dan Google. Dengan DeepSearch, pengguna boleh bertanya soalan, dan Grok akan memikirkannya, mencari di web, mengeluarkan proses pemikirannya semasa ia berjalan, dan kemudian menjana respons muktamad yang mantap dengan data dan jadual mengikut keperluan. Ini bermakna anda boleh memintanya untuk menyelidik topik, kembali 10 minit kemudian, dan tugas itu akan selesai. 

Salah satu yang paling menonjol ialah dapat menatal pemikiran Grok -- "membaca melalui fikiran Grok" -- dan memahami bagaimana ia mendarat pada tindak balas terakhirnya. Ini menjadikan pengalaman lebih mudah dikendalikan dan membantu anda memahami hasil anda dengan lebih baik. 

Bagaimana untuk mengakses

Mulai hari ini, anda boleh mengakses beberapa model Grok dalam beta. Grok 3 tersedia di X Premium+, yang turut memberikan pengguna akses kepada ciri terkini, had penggunaan yang ditingkatkan, akses DeepSearch dan mod penaakulan lanjutan dengan mengklik pada pilihan "Fikirkan" atau "Otak Besar". 

Langganan X Premium+ berharga $40 sebulan, meningkat daripada $22 sebelum pengumuman dibuat, seperti yang dikesan oleh TechCrunch, dan pelanggan harus mengemas kini apl untuk melihat kemas kini. 

xAI juga melancarkan peringkat langganan baharu, SuperGrok, serupa dengan ChatGPT Pro, yang dimaksudkan untuk peminat hebat yang mahukan akses terawal kepada keupayaan paling maju. Harga pelan ini masih belum dikongsi, tetapi anda boleh menjangkakan ia akan menjadi satu sen yang besar, kerana kos langganan Pro OpenAI $200 sebulan

Untuk versi yang paling digilap, Musk menggalakkan pengguna menunggu seminggu. Pada masa itu, penyepaduan suara baharu mungkin akan sedia untuk digunakan. 

Jika anda lebih suka mengambil bahagian dalam Chatbot Arena untuk mencuba Grok 3, lawati tapak web, klik Arena bersebelahan, pilih "early-grok-3" daripada menu lungsur dan masukkan gesaan sampel. Walaupun arena itu masih mempunyai versi awal Grok 3, ia masih merupakan model yang berkuasa; Lagipun, ia mencapai bahagian atas papan pendahulu berbanding model lain, yang berada dalam versi terkini mereka.