← Playbook Teknisi Lapangan

Armada self-healing: desain untuk ketidakhadiran

12 mnt

Standar yang kamu pikul

Pemasangan profesional berjalan tanpa pengawasan berminggu-minggu. Tak ada yang me-reboot apa pun. Setiap pemulihan yang biasa kamu lakukan manual harus dilakukan perangkat itu sendiri — kamu mendesain untuk ketidakhadiranmu sendiri.

Lima lapisan (dari produksi)

Firmware armada data-center kami membawa lima lapis pemulihan; jadikan checklist:

  1. Watchdog WiFi — tanpa konektivitas 5 menit → reboot. Menangkap reboot router, cegukan DHCP, radio macet.
  2. Penghitung gagal HTTP — N post gagal beruntun → reboot. Jaringan bisa "hidup" sementara jalur ke server-mu tidak.
  3. Pemulihan kondisi macet — skor anomali mentok 10 menit → baseline ulang otomatis. Ruangan yang ditata ulang tak boleh alarm selamanya.
  4. Reboot terjadwal — tiap 12 jam, tanpa syarat. Membersihkan kebocoran pelan dan driver macet sebelum jadi masalah. Tidak glamor; sangat efektif.
  5. Dead-man di server — dashboard armada memberi peringatan saat perangkat berhenti melapor. Keheningan adalah sinyal; harus ada yang memilikinya.

Plus jembatan untuk celah: ring buffer di RAM menahan frame terakhir selama WiFi putus, jadi gangguan singkat tak kehilangan apa pun.

Telemetri yang menjawab "kenapa"

Kirim alasan boot bersama setiap laporan (esp_reset_reason()): BROWNOUT berarti daya buruk di stopkontak itu, WDT berarti firmware macet, EXT berarti manusia mencabutnya. Histogram alasan-reset sebuah armada mendiagnosis situs dari mejamu.

Disiplinnya

Setiap kali kamu memperbaiki perangkat secara manual, tanyakan: lapisan mana yang seharusnya menangkap ini? Tambahkan ke firmware, bukan ke kalendermu. Armada bisa diskalakan; kunjungan tidak.


Masuk dulu untuk fitur ini — hanya 20 detik dan gratis. Masuk Pelajaran berikutnya →