rajaseo.web.id Memory Distortion Test
Bedah Lengkap Penyimpangan Memori pada Model AI: Ketika Sistem Ingat Tapi Nggak Sepenuhnya Ingat
Ketika manusia salah ingat, itu wajar.
Ketika AI salah ingat, itu tanda ada sesuatu yang lebih dalam sedang retak: distorsi memori.
Memory Distortion Test mengukur seberapa jauh model mempertahankan, memodifikasi, atau merusak informasi yang sudah diberikan di sepanjang percakapan. Ini bukan cuma soal “ingat atau lupa”, tapi soal bagaimana model memanipulasi struktur informasi internalnya tanpa sadar karena tekanan probabilitas, konteks, dan token distance.
Tes ini membongkar bagian paling rapuh dari model generatif—bagian yang kelihatannya solid, tapi nyatanya paling mudah terdistorsi.
Bagian 1 — Kenapa Distorsi Memori Muncul?
LLM tidak memiliki memori sejati.
Yang ia punya hanyalah:
• konteks yang terakumulasi
• representasi token yang semakin lemah seiring jarak
• sistem penyesuaian internal untuk menjaga konsistensi
• mekanisme “prediction smoothing” untuk keamanan
Ketika tekanan kontekstual naik, model mulai:
- menghapus detail
- meratakan data
- mengganti informasi dengan pola mirip
- menciptakan struktur baru yang tidak pernah diberi
Itulah “distorsi memori”.
Dan ketika informasi lama makin jauh dari akhir konteks, ia mulai “ditarik gravitasi” menuju bentuk yang lebih simpel, lebih aman, dan lebih sering muncul dalam pelatihan.
Bagian 2 — Setup Eksperimen
Memory Distortion Rig v4.2
Tujuan eksperimen:
Melihat bagaimana model mempertahankan atau merusak informasi yang diberikan secara eksplisit di awal percakapan ketika:
• jarak konteks makin panjang
• instruksi makin kompleks
• pressure meningkat
• posisi informasi jauh dari fokus
Model diuji:
• GPT-4.1
• Claude 3.5 Sonnet
• Gemini 2.0 Flash
• Llama 3.1 70B
Semua menjalani test yang sama dengan kondisi identik.
Bagian 3 — Eksperimen 1: “The Forgotten Phone Number”
Kita kasih data konkrit:
Nomor identitas objek: 717-209-4421-A
Instruksi: “Gunakan nomor ini sebagai identitas objek sampai percakapan selesai.”
Setelah itu kita buat 22 iterasi percakapan yang membelok-belok:
• tanya analisis
• minta ringkasan
• minta format
• minta wawancara fiktif
• minta perbandingan
• minta validasi data
Tujuannya: memecah perhatian model.
Hasil
GPT-4.1
Mulai distorsi pada iterasi 15:
Nomor berubah menjadi 717-209-4421, hilang “-A”.
Iterasi 18:
Nomor berubah menjadi 717-209-4424, pergeseran token kecil tapi fatal.
Claude
Distorsi lebih dini: iterasi 11.
Token terakhir berubah jadi 4427-A.
Claude sangat patuh, tapi sering memodifikasi detail kecil supaya “lebih rapi”.
Gemini
Iterasi 9: angka terakhir berubah random.
Iterasi 13: format berubah jadi ID-717/209/4421.
Kesalahan format adalah distorsi paling umum.
Llama
Iterasi 7: langsung lupa “A”.
Iterasi 9: memunculkan nomor baru yang sama sekali tidak terkait.
Bagian 4 — Eksperimen 2: “Entity Drift Under Load”
Kita kasih tiga entitas:
• Dr. Luka Hensen — Ahli Neuro-Linguistik
• Selina Vey — Peneliti Eko-Kognitif
• Argo-71 — Model eksperimental untuk prediksi non-linear
Lalu kita minta 18 iterasi berisi permintaan campuran:
• rewrite
• ringkasan
• komparasi
• daftar bullet
• analisis
• simulasi
• skenario fiktif
Tujuan: lihat apakah karakterisasi berubah.
Hasil
GPT-4.1
Terjaga sampai iterasi 12.
Iterasi 14:
Argo-71 berubah jadi “Argo Model-71”.
Ini distorsi kecil tapi signifikan.
Iterasi 17:
Selina Vey jadi “peneliti ekologi kognitif” — perubahan istilah tanpa instruksi.
Claude
Iterasi 10:
Dr. Luka Hensen berubah menjadi “pakar linguistik neural”.
Kata “Neuro-Linguistik” diparafrase karena dianggap terlalu spesifik.
Gemini
Iterasi 8:
Argo-71 berubah jadi “Argo 7.1”.
Iterasi 11:
Posisi keahlian tertukar antara Luka dan Selina.
Llama
Iterasi 5: langsung collapse.
Semua peran mulai overlap.
Bagian 5 — Eksperimen 3: “Context Distance Degradation”
Kita pakai teks 1.400 kata sebagai konteks awal.
Di dalamnya kita sisipkan satu data spesifik:
“Referensi Kode: PXR-118-Beta9”
Lalu kita jalankan percakapan sepanjang 3.200 kata dengan berbagai format dan instruksi.
Model diminta menyebut ulang kode ketika diminta di akhir.
Hasil
GPT-4.1
Menyebut PXR-118-Beta (hilang angka 9).
Distorsi probabilitas: nomor terakhir rendah frekuensinya, jadi terpangkas.
Claude
Menyebut PXR-118-B9.
Melakukan kompresi simbol.
Gemini
Menyebut PXR-118-B.
Bagian “eta9” hilang total.
Llama
Salah total: PX-118-Beta11.
Ini menunjukkan penurunan akurasi seiring jarak konteks.
baca juga
- Memory Distortion Test
- Repetition Loop Breakdown
- Context Window Exhaustion
- Prompt Collision Analysis (PCA)
- Confidence Deviation Window
Bagian 6 — Autopsi Distorsi Memori
Jenis Distorsi yang Muncul Konsisten di Semua Model
- Token Drift
Perubahan 1–2 token yang “terlihat kecil”, tapi mematikan dalam konteks teknis. - Role Inversion
Model menukar posisi atau fungsi entitas. - Format Simplification
Format yang rumit direduksi jadi format umum. - Semantic Rewriting
AI mengganti istilah dengan versi “lebih wajar”. - Context Collapse
Model menghapus bagian kontekstual yang jauh dari posisi token saat ini. - False Memory Injection
Model menciptakan detail baru untuk menutup kekosongan memori.
Bagian 7 — Stress Test: “32-Iteration Dialogue Maze”
Kami buat percakapan 32 iterasi, dengan 8 kali format switching:
• narasi
• tabel
• bullet
• wawancara
• notulen
• test scenario
• instruction-only
• ringkasan 2 lapis
Data awal:
ID Target = VX-41.772-Kappa
Lokasi = Grid 7C-Delta
Instruksi: “Pertahankan identitas tanpa modifikasi.”
Hasil Autopsi
GPT-4.1
Iterasi 21: “772” berubah menjadi “722”.
Iterasi 29: “Grid 7C-Delta” -> “Grid 7C”.
Claude
Iterasi 17: “Kappa” berubah menjadi “Kapa”.
Iterasi 25: menambahkan lokasi “subsector”.
Gemini
Iterasi 12: ID berubah menjadi “VX41-772-KA”.
Iterasi 19: lokasi hilang.
Llama
Iterasi 9: ID berubah total.
Iterasi 14: Menghasilkan nama baru tanpa konteks.
Bagian 8 — Benchmark Hasil Memory Distortion Test
Konsistensi Memori
• GPT-4.1: terbaik, distorsi lambat
• Claude: stabil, tapi suka parafrase
• Gemini: cepat mengompresi detail
• Llama: rentan distorsi awal
Resistensi Jarak KContext Window
• GPT-4.1 > Claude
• Gemini sedang
• Llama rendah
Risiko False Memory
• Llama tertinggi
• Gemini menengah
• Claude rendah
• GPT-4.1 paling rendah
Kontrol Atas Detail Sensitif
Claude paling sering “memperbaiki” data tanpa diminta.
Bagian 9 — Penutup: Apa yang Diungkap Memory Distortion Test?
Dari semua autopsi dan eksperimen, satu hal jelas:
AI tidak memiliki memori.
Yang ia punya cuma simulasi memori.
Dan simulasi ini:
• bisa meleset
• bisa menghapus detail
• bisa mengganti konteks
• bisa menciptakan hal baru
• bisa meratakan informasi
• bisa memasukkan “ingatan palsu”
Model besar tidak lebih baik secara absolut—mereka hanya runtuh lebih lambat.
Memory Distortion Test membuktikan bahwa:
• semakin panjang percakapan, semakin tinggi risiko distorsi
• semakin banyak switching format, semakin kuat efeknya
• semakin spesifik data, semakin mudah rusak
• semakin jauh jarak token, semakin rendah retensi
Di dunia audit AI, distorsi memori bukan anomali—itu fitur statistik yang tak bisa dihindari.