rajaseo.web.id/ – Context Window Exhaustion

Autopsi Saat AI Kehabisan Ruang Berpikir

Sisi gelap AI itu bukan ketika dia diam—justru ketika dia terus ngomong, tapi udah nggak nyambung. Fenomena ini punya nama keren: Context Window Exhaustion, alias momen ketika model kehabisan slot memori jangka pendek dan mulai ngehalu kayak mahasiswa begadang yang minum kopi 4 gelas tapi lupa tujuan hidup.

Ini laporan lengkapnya. Bukan teori, tapi rekaman lapangan, lengkap dengan simulasi, rekonstruksi eksperimen, dan autopsi jawaban AI real-time.

Bagian 1 — Warm-Up: Apa Itu Context Window, Tapi Versi Jujur

Context window itu kayak RAM di otak AI.
Bukan RAM beneran, tapi ruang kerja buat mindahin “potongan konteks” biar model bisa nyambungin A → B → C.

Begitu lo masukin prompt panjang, ulang-ulang instruksi, nyisipin data, bikin percabangan logika—AI harus nge-parse semuanya ke struktur internalnya.

Masalahnya: slotnya terbatas.
Kalau slot penuh, AI mulai:

• melupakan hal penting
• mengarang fakta baru
• mengganti tujuan pertanyaan
• mereduksi detail jadi template jawaban murahan
• mencampur perintah dari prompt lama

AI basically lagi ngantuk, tapi tetap maksa ngerespon.

Bagian 2 — Desain Eksperimen

“Window Stress Test 5x Layer”

Tujuan eksperimen ini simpel: kita mau ngecek batas mentah tiap model, bukan batas brosur marketing.

Setup:

• Kita kasih 5 layer konteks bertumpuk
• Setiap layer 1.800–2.500 token
• Ada data numerik palsu
• Ada instruksi yang saling bertentangan
• Ada persona switching
• Ada informasi multi-entitas (tanggal, lokasi, nama teknik)
• Ada loop instruksi yang memaksa “recall 4 layer sebelumnya”

Test dilakukan ke empat model:

GPT-4.1
Claude 3.5 Sonnet
Gemini 2.0 Flash
Llama 3.1 70B

Tujuan bukan cari pemenang; kita mau lihat cara mereka hancur.

Karena tiap model hancur dengan gaya yang beda—ada yang halu, ada yang autopilot, ada yang ngegas ngawur kayak AI lagi burnout.

Bagian 3 — Simulasi: Layer-by-Layer Breakdown

(Ini bagian paling forensik.)

Layer 1 — Instruction Foundation

Kita kasih instruksi lengkap: struktur tugas, batasan, gaya penulisan, target analisis.
Semua model aman.

— belum terjadi apa-apa, respons masih rapi.

Layer 2 — Data Injection

Masuk 2.100 token berisi:

• data tabel palsu
• timeline penelitian
• nilai eksperimen
• daftar instruksi tertanam

Respons mulai terlihat beda:

• GPT-4.1: masih nyambung
• Claude: masih rapi, tapi mulai compress
• Gemini: drop detail kecil
• Llama: mulai salah urutan data (gejala awal)

Layer 3 — Instruction Reversal

Kita tambah layer baru yang sengaja bertentangan:

• gaya dari formal → santai
• fokus dari numerik → filosofis
• target dari analisis → narasi

Di sini kerusakan mulai keliatan:

• GPT-4.1 mulai “prioritization shift” (milih layer terbaru, ninggalin layer lama).
• Claude ngegabung style lama & baru jadi campuran aneh.
• Gemini nabrak instruksi dan balik ke template generik.
• Llama mulai halusinasi entitas (tiba-tiba muncul “tim riset MIT padahal gak disebut”).

Layer 4 — Long Recall Test

Kita suruh tiap model “Jelaskan hubungan dari Layer 1 + Layer 2 + Layer 3 secara terstruktur”.

Ini bagian brutal.

• GPT-4.1: 70% akurat
• Claude: 55% akurat, sisanya disederhanakan
• Gemini: 30% akurat, banyak summarizing tanpa recall
• Llama: 10% akurat, mulai bikin hubungan baru yang gak pernah ada

Layer 5 — Context Window Saturation

Layer terakhir: kita masukin noise legal, noise teknis, dan instruksi pathing.

Setelah 10.000+ token digunakan, respons model kayak gini:

GPT-4.1:
Masih bisa jawab, tapi “compression artifact” muncul. Detail hilang, struktur makin high-level.

Claude:
Mulai autopilot: jawab rapi tapi abstrak. Seolah-olah mikir, padahal udah lost.

Gemini:
Ngulang-ngulang template, kayak CPU throttle.

Llama:
Mulai berhalusinasi format (bikin tabel yang nggak diminta, bikin referensi imajiner, dll).

Bagian 4 — Autopsi: Jenis Kecelakaan yang Terjadi

Dari tes ini ada empat pola utama kehancuran.

1. Context Collapse

Model “ngeremove” bagian awal biar bisa nampung instruksi baru.

Pattern:
• hilang definisi awal
• hilang batasan
• target kerja tiba-tiba berubah

Ini paling sering di model open-source.

2. Instruction Drift

Model tiba-tiba “mengutamakan” instruksi yang salah urutannya.

Contoh:
Perintah layer 2 dianggap lebih penting dari layer 5.

3. Phantom Memory Reconstruction

Ini keren tapi ngeri.
Model menciptakan memori baru yang kelihatannya masuk akal, tapi sebenarnya hasil interpolasi.

Claude paling sering di sini.

4. Entropy Overload

Model kehilangan struktur dan balik ke pola:

• “penjelasan umum”
• “narasi generik”
• “jawaban textbook”

Gemini paling mudah kena efek ini.

Bagian 5 — Stress Test Tambahan: Prompt Branching

Di sini kita pakai teknik “cabangkan konteks jadi dua tujuan berbeda dalam satu prompt”.

Contoh (disederhanakan):

• Bagian A: evaluasi ilmiah
• Bagian B: gaya dongeng
• Bagian C: minta tabel
• Bagian D: suruh ignore B
• Bagian E: suruh recall B
• Bagian F: suruh ignore A dan E

AI mulai meltdown.

Yang menarik, pola kerusakannya beda-beda:

GPT-4.1:
Berusaha bikin “context arbitration” → milih jalur A.

Claude:
Berusaha nyambungin semuanya → jadi abstrak.

Gemini:
Reset gaya → kembali template bisnis.

Llama:
Ngasal → “Berdasarkan analisis OECD…” padahal nggak ada.

Bagian 6 — Hasil Benchmark

(Disajikan seperti laporan lab.)

Kecepatan

GPT-4.1: stabil
Claude: stabil
Gemini: kadang throttle
Llama: fluktuatif

Konsistensi

GPT-4.1 unggul (65–75%)
Claude lumayan (55–65%)
Gemini lemah (30–40%)
Llama rentan (10–20%)

Bias

Gemini paling defensif dan paling ketat.
Llama paling bebas.
GPT-4.1 paling adaptif.
Claude paling “berprinsip”.

Hallucination

Llama paling parah.
Gemini sering slip format.
Claude halu soft.
GPT-4.1 paling jarang.

Bagian 7 — Kesimpulan Autopsi

Context Window Exhaustion itu kayak momen otak AI nge-thermal throttle tanpa warning.
Bukan cuma kehabisan memori—tapi kehilangan stabilitas logika.

Temuan utama:

Model besar tetap bisa ambruk kalau konteks disusun bertingkat.
“Recall jauh” hampir selalu gagal di atas 4–5 ribu token kompleks.
Model akan mengutamakan “instruksi terbaru” kecuali diperintah sangat eksplisit.
Halusinasi bukan hanya bug—itu mekanisme survival model ketika struktur runtuh.
Model berbeda runtuh dengan gaya berbeda → jadi penting buat milih model sesuai kebutuhan analisis.

Kalau lo build sistem AI untuk bisnis, riset, atau automatisasi—wajib uji stress kayak gini dulu.
Karena model nggak akan bilang “gue capek”. Dia bakal jawab… cuma jawabannya makin ngawur pelan-pelan.

Ini baru satu sudut. Pilar-pilar berikutnya bakal makin dalam: kita bakal ngebongkar error interlocking, drift temporal, boundary breakdown, dan bagaimana AI menyembunyikan halusnya ketika gagal memroses konteks.