Proses Dan Teknologi Di Balik Large Language Model (LLM)

Sebagai seorang yang cukup lama mengamati dunia teknologi—khususnya AI dan Large Language Model (LLM)—saya sering menemui satu pola yang sama: banyak orang tertarik dengan LLM, tapi berhenti di level “pakainya saja”. Padahal, justru bagian paling menarik dari LLM itu ada di balik layarnya 

Di postingan kali ini, saya ingin mengajak Anda berjalan pelan-pelan, agak santai tapi tetap teknis, membedah bagaimana LLM dilatih, dijalankan, dan mengapa teknologi di baliknya begitu mahal sekaligus menakjubkan. Di beberapa bagian, saya akan menyelipkan analogi agar konsep yang berat terasa lebih membumi.


1. Bagaimana Proses Training LLM Dilakukan dari Awal

Training LLM sebenarnya adalah melatih sebuah mode Artificial Intelligence dengan input berupa teks dalam jumlah luar biasa besar.

a. Pengumpulan Data

Proses dimulai dari pengumpulan data teks: buku, artikel, forum, dokumentasi teknis, hingga percakapan publik. Data ini tidak langsung digunakan, melainkan melalui proses kurasi, pembersihan, dan penyaringan.

Analogi sederhana: bayangkan Anda ingin belajar memasak. Anda tentu tidak akan mencampur resep dari buku masak berkualitas dengan catatan dapur yang kotor dan tidak jelas ukurannya.

b. Tokenisasi

Teks dipecah menjadi unit kecil bernama token. Token bisa berupa kata, potongan kata, atau simbol.

Contoh:

"LLM itu pintar" → [LL, M, itu, pintar]

c. Training dengan Objective Prediksi

Model dilatih untuk menebak token berikutnya berdasarkan token sebelumnya. Inilah inti dari training LLM.

Secara matematis, model belajar meminimalkan loss function (biasanya cross-entropy) menggunakan teknik backpropagation dan gradient descent.

Proses ini dilakukan jutaan hingga triliunan kali iterasi, menggunakan ribuan GPU yang bekerja paralel.

LLM Training (image from: Research gate.net)

2. Pre-training vs Fine-tuning vs Instruction Tuning

Banyak orang mengira training LLM itu satu tahap saja. Padahal ada beberapa fase penting.

Pre-training

Ini adalah fase “sekolah dasar sampai universitas”. Model membaca teks dalam skala besar tanpa tujuan spesifik. Ciri utamanya adalah:

  • Data sangat besar
  • Biaya sangat mahal
  • Dilakukan sekali

Fine-tuning

Di tahap ini, model dipersempit ke domain tertentu.

Contoh:

  • LLM umum → LLM medis
  • LLM umum → LLM hukum
Analogi: setelah lulus kuliah umum, Anda ikut kursus spesialis.

Instruction Tuning

Ini tahap yang membuat LLM terlihat pintar dan sopan saat diajak bicara.

Model dilatih menggunakan pasangan:

  • Instruction (perintah)
  • Response (jawaban ideal)

Tanpa instruction tuning, LLM memang pintar… tapi kurang bisa diajak ngobrol dengan baik.


3. Model LLM Populer: GPT, LLaMA, Falcon, Gemini

Mari kita bahas beberapa pemain besar di dunia LLM.

GPT (OpenAI)

  • Closed-source (sebagian)
  • Sangat kuat dalam reasoning dan bahasa alami
  • Digunakan di ChatGPT

LLaMA (Meta)
  • Open-weight
  • Populer di komunitas riset dan self-hosted AI
  • Efisien untuk fine-tuning

Falcon

  • Dikembangkan oleh TII (UEA)
  • Fokus pada efisiensi dan performa
  • Open model dengan lisensi cukup longgar

Gemini (Google)

  • Terintegrasi kuat dengan ekosistem Google
  • Multimodal sejak awal (teks, gambar, audio)
  • Berjalan di atas TPU
saya melihat tren yang jelas: model open-source semakin matang dan kompetitif.


4. Apa itu Embedding dan Mengapa Penting untuk Search AI

Embedding adalah cara mengubah teks menjadi vektor angka. Contoh:

"server down" → [0.12, -0.88, 1.42, ...]

Dengan embedding:

  • Makna bisa diukur
  • Kemiripan bisa dihitung
  • Search menjadi berbasis konteks, bukan kata kunci
Jadi, analogi Embedding itu seperti rak buku otomatis tanpa label
Bayangkan:
  • Ada jutaan buku
  • Tidak ada judul, kategori, atau indeks
  • AI membaca semuanya
  • Lalu menyusunnya di rak berdasarkan kemiripan isi

Hasilnya:
Buku tentang:  “DNS”, “TCP/IP”, “Routing”
→ berdekatan

Buku tentang:  “Bodybuilding”, “Protein”, “Hypertrophy”
→ rak lain

Buku “WiFi Security”
→ bisa dekat ke “networking” dan “cyber security”


Inilah fondasi dari:

  • Semantic Search
  • RAG (Retrieval Augmented Generation)
  • Chatbot berbasis dokumen

5. Context Window Panjang: Tantangan dan Solusinya

Context window adalah berapa banyak token yang bisa diingat LLM dalam satu sesi.

Masalahnya:

  • Semakin panjang konteks → komputasi semakin mahal
  • Attention bersifat O(n²)

Analogi: membaca satu buku tipis vs membaca satu perpustakaan sambil disuruh meringkas isinya sekaligus.

Solusi yang Digunakan:

  • Sliding window
  • Chunking + embedding
  • Sparse attention
  • Ring attention & FlashAttention

Tren terbaru menunjukkan context window bisa mencapai 100k+ token, tapi dengan optimasi serius.


6. Inference vs Training: Mana yang Lebih Mahal?

Jawaban singkatnya: training lebih mahal, inference lebih sering.

Training

  • Biaya di awal sangat besar
  • Butuh ribuan GPU
  • Bisa mencapai jutaan dolar

Inference

  • Lebih murah per request
  • Tapi skalanya masif
  • Biaya operasional jangka panjang
Training itu seperti membangun sebuah pabrik, inference itu biaya listrik dan operasional hariannya.

7. Peran GPU, TPU, dan NPU dalam LLM

    GPU
    -Fleksibel
    -Dominan di training dan inference
    -NVIDIA masih merajai
    TPU
    -Khusus matrix operation
    -Sangat efisien untuk skala besar
    -Digunakan Google
          NPU
          -Fokus ke edge device
          -Laptop, smartphone, IoT
          -Untuk inference ringan

Saya melihat masa depan LLM akan semakin terdistribusi, tidak hanya di data center.


8. Mengapa VRAM Menjadi Faktor Kritis dalam LLM

VRAM menentukan:

  • Ukuran model yang bisa dijalankan
  • Panjang context window
  • Batch size

Model 7B saja bisa butuh:

  • ~14 GB VRAM (FP16)

  • Lebih hemat dengan quantization

Analogi: VRAM itu meja kerja. jika meja itu besar, anda bisa melakukan beberapa pekerjaan sekaligus. Namun semakin kecil mejanya, semakin sering Anda harus bolak-balik merapikan barang sehingga membutuhkan energi tambahan untuk mengerjakan pekerjaan yang tidak efisien

Inilah alasan:

  • GPU 24GB sangat populer
  • Quantization (INT8, INT4) makin penting
  • Offloading ke RAM jadi solusi kompromi

Penutup

LLM bukan sekadar "AI yang bisa ngobrol". Ia sebenarnya adalah hasil dari:

  • Operasi Matematika
  • Komputasi skala besar
  • Optimasi ekstrem

Sebagai seorang yang mencintai teknologi, saya selalu percaya: teknologi yang dipahami akan terasa lebih manusiawi.

Semoga tulisan ini membantu Anda melihat LLM bukan sebagai kotak hitam, tapi sebagai sistem cerdas yang bisa kita pahami, eksplorasi, dan manfaatkan dengan bijak

Memahami Propagasi DNS

Keluarga Ubuntu

Perbedaan Sistem File Linux dan Windows