[Debian-ha-maintainers] SBD as watchdog daemon

Sun Apr 14 19:28:37 BST 2019

On Fri, Apr 12, 2019 at 11:10:49AM +0200, Valentin Vidic wrote:
> Yes, it is hard to tell since there is no detailed description of the
> problem they are fixing. I'll build an updated version and try if for a
> while. If there are no problem I guess there is no harm in releasing it.

I found a strange error in autopkgtests since version 1.4.0 I guess:

autopkgtest [19:00:36]: test fence-external: preparing testbed
...
Setting up pacemaker (2.0.1-2) ...
A dependency job for pacemaker.service failed. See 'journalctl -xe' for details.
invoke-rc.d: initscript pacemaker, action "start" failed.
● pacemaker.service - Pacemaker High Availability Cluster Manager
   Loaded: loaded (/lib/systemd/system/pacemaker.service; disabled; vendor preset: enabled)
   Active: inactive (dead)
     Docs: man:pacemakerd
           https://clusterlabs.org/pacemaker/doc/en-US/Pacemaker/2.0/html-single/Pacemaker_Explained/index.html

Apr 14 17:00:51 debian systemd[1]: Dependency failed for Pacemaker High Availability Cluster Manager.
Apr 14 17:00:51 debian systemd[1]: pacemaker.service: Job pacemaker.service/start failed with result 'dependency'.
dpkg: error processing package pacemaker (--configure):
 installed pacemaker package post-installation script subprocess returned error exit status 1

# systemctl status sbd
● sbd.service - Shared-storage based fencing daemon
   Loaded: loaded (/lib/systemd/system/sbd.service; enabled; vendor preset: enabled)
   Active: failed (Result: exit-code) since Sun 2019-04-14 17:00:51 UTC; 1h 15min ago
     Docs: man:sbd(8)

Apr 14 17:00:51 debian sbd[2960]:   notice: main: Doing flush writing 'b' to sysrq on timeout
Apr 14 17:00:51 debian sbd[2961]:   notice: inquisitor_child: Servant cluster is healthy (age: 0)
Apr 14 17:00:51 debian sbd[2961]:    error: watchdog_init_fd: Cannot open watchdog device '/dev/watchdog': No such file or directory (2)
Apr 14 17:00:51 debian sbd[2961]:  warning: cleanup_servant_by_pid: Servant for pcmk (pid: 2962) has terminated
Apr 14 17:00:51 debian sbd[2961]:  warning: cleanup_servant_by_pid: Servant for cluster (pid: 2963) has terminated
Apr 14 17:00:51 debian sbd[2960]: sbd failed; please check the logs.
Apr 14 17:00:51 debian systemd[1]: sbd.service: Control process exited, code=exited, status=1/FAILURE
Apr 14 17:00:51 debian systemd[1]: sbd.service: Failed with result 'exit-code'.

I guess this is due to a change in sbd.service:

[Install]
RequiredBy=corosync.service
RequiredBy=pacemaker.service
RequiredBy=dlm.service

Not sure if there is anything we can do here, what do you think?

-- 
Valentin