Sebagai seorang yang cukup lama mengamati dunia teknologi—khususnya AI dan Large Language Model (LLM)—saya sering menemui satu pola yang sama: banyak orang tertarik dengan LLM, tapi berhenti di level “pakainya saja”. Padahal, justru bagian paling menarik dari LLM itu ada di balik layarnya
Di postingan kali ini, saya ingin mengajak Anda berjalan pelan-pelan, agak santai tapi tetap teknis, membedah bagaimana LLM dilatih, dijalankan, dan mengapa teknologi di baliknya begitu mahal sekaligus menakjubkan. Di beberapa bagian, saya akan menyelipkan analogi agar konsep yang berat terasa lebih membumi.
1. Bagaimana Proses Training LLM Dilakukan dari Awal
Training LLM sebenarnya adalah melatih sebuah mode Artificial Intelligence dengan input berupa teks dalam jumlah luar biasa besar.
a. Pengumpulan Data
Proses dimulai dari pengumpulan data teks: buku, artikel, forum, dokumentasi teknis, hingga percakapan publik. Data ini tidak langsung digunakan, melainkan melalui proses kurasi, pembersihan, dan penyaringan.
Analogi sederhana: bayangkan Anda ingin belajar memasak. Anda tentu tidak akan mencampur resep dari buku masak berkualitas dengan catatan dapur yang kotor dan tidak jelas ukurannya.
b. Tokenisasi
Teks dipecah menjadi unit kecil bernama token. Token bisa berupa kata, potongan kata, atau simbol.
Contoh:
c. Training dengan Objective Prediksi
Model dilatih untuk menebak token berikutnya berdasarkan token sebelumnya. Inilah inti dari training LLM.
Secara matematis, model belajar meminimalkan loss function (biasanya cross-entropy) menggunakan teknik backpropagation dan gradient descent.
Proses ini dilakukan jutaan hingga triliunan kali iterasi, menggunakan ribuan GPU yang bekerja paralel.
![]() |
| LLM Training (image from: Research gate.net) |
2. Pre-training vs Fine-tuning vs Instruction Tuning
Banyak orang mengira training LLM itu satu tahap saja. Padahal ada beberapa fase penting.
Pre-training
Ini adalah fase “sekolah dasar sampai universitas”. Model membaca teks dalam skala besar tanpa tujuan spesifik. Ciri utamanya adalah:
- Data sangat besar
- Biaya sangat mahal
- Dilakukan sekali
Fine-tuning
Di tahap ini, model dipersempit ke domain tertentu.
Contoh:
- LLM umum → LLM medis
- LLM umum → LLM hukum
Instruction Tuning
Ini tahap yang membuat LLM terlihat pintar dan sopan saat diajak bicara.
Model dilatih menggunakan pasangan:
- Instruction (perintah)
- Response (jawaban ideal)
Tanpa instruction tuning, LLM memang pintar… tapi kurang bisa diajak ngobrol dengan baik.
3. Model LLM Populer: GPT, LLaMA, Falcon, Gemini
Mari kita bahas beberapa pemain besar di dunia LLM.
GPT (OpenAI)
- Closed-source (sebagian)
- Sangat kuat dalam reasoning dan bahasa alami
- Digunakan di ChatGPT
LLaMA (Meta)
- Open-weight
- Populer di komunitas riset dan self-hosted AI
- Efisien untuk fine-tuning
Falcon
- Open-weight
- Populer di komunitas riset dan self-hosted AI
- Efisien untuk fine-tuning
- Dikembangkan oleh TII (UEA)
- Fokus pada efisiensi dan performa
- Open model dengan lisensi cukup longgar
Gemini (Google)
- Terintegrasi kuat dengan ekosistem Google
- Multimodal sejak awal (teks, gambar, audio)
- Berjalan di atas TPU
4. Apa itu Embedding dan Mengapa Penting untuk Search AI
Embedding adalah cara mengubah teks menjadi vektor angka. Contoh:
Dengan embedding:
- Makna bisa diukur
- Kemiripan bisa dihitung
- Search menjadi berbasis konteks, bukan kata kunci
Bayangkan:
- Ada jutaan buku
- Tidak ada judul, kategori, atau indeks
- AI membaca semuanya
- Lalu menyusunnya di rak berdasarkan kemiripan isi
Hasilnya:
Buku tentang: “DNS”, “TCP/IP”, “Routing”
→ berdekatan
Buku tentang: “Bodybuilding”, “Protein”, “Hypertrophy”
→ rak lain
Buku “WiFi Security”
→ bisa dekat ke “networking” dan “cyber security”
Inilah fondasi dari:
- Semantic Search
- RAG (Retrieval Augmented Generation)
- Chatbot berbasis dokumen
5. Context Window Panjang: Tantangan dan Solusinya
Context window adalah berapa banyak token yang bisa diingat LLM dalam satu sesi.
Masalahnya:
- Semakin panjang konteks → komputasi semakin mahal
- Attention bersifat O(n²)
Analogi: membaca satu buku tipis vs membaca satu perpustakaan sambil disuruh meringkas isinya sekaligus.
Solusi yang Digunakan:
- Sliding window
- Chunking + embedding
- Sparse attention
- Ring attention & FlashAttention
Tren terbaru menunjukkan context window bisa mencapai 100k+ token, tapi dengan optimasi serius.
6. Inference vs Training: Mana yang Lebih Mahal?
Jawaban singkatnya: training lebih mahal, inference lebih sering.
Training
- Biaya di awal sangat besar
- Butuh ribuan GPU
- Bisa mencapai jutaan dolar
Inference
- Lebih murah per request
- Tapi skalanya masif
- Biaya operasional jangka panjang
7. Peran GPU, TPU, dan NPU dalam LLM
- GPU
-Fleksibel
-Dominan di training dan inference
-NVIDIA masih merajai
- TPU
-Khusus matrix operation
-Sangat efisien untuk skala besar
-Digunakan Google
-Fokus ke edge device
-Untuk inference ringan
Saya melihat masa depan LLM akan semakin terdistribusi, tidak hanya di data center.
8. Mengapa VRAM Menjadi Faktor Kritis dalam LLM
VRAM menentukan:
- Ukuran model yang bisa dijalankan
- Panjang context window
- Batch size
Model 7B saja bisa butuh:
~14 GB VRAM (FP16)
Lebih hemat dengan quantization
Analogi: VRAM itu meja kerja. jika meja itu besar, anda bisa melakukan beberapa pekerjaan sekaligus. Namun semakin kecil mejanya, semakin sering Anda harus bolak-balik merapikan barang sehingga membutuhkan energi tambahan untuk mengerjakan pekerjaan yang tidak efisien
Inilah alasan:
- GPU 24GB sangat populer
- Quantization (INT8, INT4) makin penting
- Offloading ke RAM jadi solusi kompromi
Penutup
LLM bukan sekadar "AI yang bisa ngobrol". Ia sebenarnya adalah hasil dari:
- Operasi Matematika
- Komputasi skala besar
- Optimasi ekstrem
Sebagai seorang yang mencintai teknologi, saya selalu percaya: teknologi yang dipahami akan terasa lebih manusiawi.
Semoga tulisan ini membantu Anda melihat LLM bukan sebagai kotak hitam, tapi sebagai sistem cerdas yang bisa kita pahami, eksplorasi, dan manfaatkan dengan bijak
