WARNING: Waited 15 secs for write IO to PST y _asm_hbeatiowait

Hace un par de meses estuve realizando unas pruebas de Cluster de 11gR2 con ASM configurado en un cliente, una de las pruebas era perdida de caminos a la cabina de discos.

El software de Multipath utilizado es MPIO de IBM AIX 6.1 y la version de Grid Infrastructure es 11.2.0.3.6 + el parche 10109915, la prueba falló porque ASM detectaba perdida de I/O a los 15 segundos considera que los discos eran inaccesibles.

Los errores son (en traza de gmon y alert):

WARNING: Waited 15 secs for write IO to PST disk 0 in group x

Despues de este error es probable que desmonte el Disk Group (aunque tenga normal redundancy el Disk Group), en una de las pruebas que hice la instancia de la base de datos cayó.

Según la experiencia esto no pasaba antes, despues de darle vueltas y abrir un SR con soporte el problema era que en el parche 10109915 se introdujo el parametro _asm_hbeatiowait que tiene un valor por defecto de 15 segundos mientras tanto MPIO de AIX espera 30 segundos antes de dar como muerto un camino de multipath. El workdaround is aumentar de 15 a 35_asm_hbeatiowait de esta manera ASM espera a la capa de Multipath antes de caerse.

Como se puede observar las pruebas que se realiza para validar un Cluster puede que no sean validas por una simple introduccion de un parche one-off, creo que introduccion de tal funcionalidad merece una nota oficial y asi le hice saber al analista de soporte y acaban de publicar esta nota:

ASM Disks Offline When Few Paths In The Storage Is Lost (Doc ID 1581684.1)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s