AEE 是 MTK 平台自研,用于侦测Android手机系统异常重启的一套系统机制,当 AEE系统 侦测到异常后会生成 db 文件.
Android 8.0 之后由于系统安全机制导致db无法保存到MTK log中user 版本 中AEE 仅仅侦测引起的重启故障,例如:KE/system server , NE/system server ,JE/SWT 。
int property_get(const char* key, char* value, const char* def);
AEE 重启异常分类 如下:
上面的类型可能会变化,具体请参考kernel代码:kernel-4.4/drivers/misc/mediatek/include/mt-plat/aee.h里的AE_EXP_CLASS。
当有异常发生时候,会生成dbg文件,通过特殊的工具可以解压这个dbg文件。
关注微信公众号: 程序员Android回复 aee 即可获取解析重启db log的工具。
ZZ_INTERNAL 包含重启的简单信息,如需获取更多信息,需要解压dbg文件。
这种类型最好分类,因为有调用栈,有进程名,分类可以做的很细致。
KE db如果存在SYSTRACKER_DUMP文件,表示存在bus hang,也可以单独列出来。
5. HWT分类
不能以当前CPU的调用栈分类。因为最后调用BUG的CPU是随机的。同样的调用栈,可能是不同的root cause,应该按卡住的CPU的调用栈进行分类
从SYS_LAST_KMSG看Kick bit、check bit得出无喂狗CPU,可能存在多个或没有。从SYS_LAST_KMSG提取无喂狗CPU的调用栈
Type为HW reboot可以进一步细分( 按SYS_REBOOT_REASON里字段信息 )
last pc,看各个Core停止的位置
deepidle/sodi3/sodi/spm_suspend,如果非0表示当时处于low power场景
当手机重启时候,Kernel 重启异常信息会保存在手机/data/aee_exp或 data/vendor/mtklog/aee_exp 中的db文件中。
Kernel Exception重启分类如下:
即Linux kernel发生了无法修复的错误,从而导致 panic。通过查看 SYS_KERNEL_LOG 的内容.
kernel Panic 进一步可以分为如下几类:
从SYS_KERNEL_LOG中,可以检索到如下关键信息:Unable to handle kernel NULL pointer dereference at virtual address XXXXXXXX如上的XXXXXXXX代表某个非法地址。这种类型是最多的。
从SYS_KERNEL_LOG中,可以检索到如下关键信息:Kernel panic - not syncing: Out of memory and no killable processes...
此种类型的panic一般是某个process或者APK耗尽了memory资源,从而kernel主动触发的panic重启。
从SYS_KERNEL_LOG中,可以检索到如下关键信息:
Internal error: Oops - undefined instruction
此类异常较为少见,可能是CPU/DRAM 不稳定或者受干扰导致的问题。
从SYS_KERNEL_LOG中,可以检索到如下关键信息:Bad mode in Synchronous Abort handler detected[14820.652408]-(1)[682:VSyncThread_0][<ffffffc000088f90>] bad_mode+0x78/0xb0此类异常较为少见,可能的原因是stack错乱,或者未注册回调函数引起。
看门狗超时有两种
从SYS_KERNEL_LOG中,可以检索如下关键信息
此类异常较为常见,多见于底层频繁irq/bus卡死,导致kicker无法被schedule,从而引起watch dog触发中断,引导系统进入FIQ处理流程,最终call到BUG触发重启。
从SYS_KERNEL_LOG中,可以检索( 关键字 :hang_detect)
此异常类型较为常见,多见于GPU/SD卡/eMMC 无法满足surfacelinger/system_server的通讯需求,从而导致上层卡死,进而主动触发看门狗超时重启。
Hardware reboot是watch dog直接发出reset信号,导致整个系统重启;在重启之前,并没有触发任何异常处理流程。
一般情况下,hardware reboot对应的db不会有SYS_KERNEL_LOG 可以排查,只能从SYS_LAST_KMSG获知异常之前kernel的动作,以及从SYS_REBOOT_REASON 获知异常时的CPU寄存器值和其它参数。
从ZZ_INTERNAL 档案,可以知道发生了hardware reboot例如 如下部分log:Hardware Reboot,0,0,99,/data/core/,0,,HW_REBOOT,Fri Jul 3 14:31:53 CST 2015,1至此,本篇已结束,如有不对的地方,欢迎您的建议与指正。同时期待您的关注,感谢您的阅读,谢谢!