<div dir="ltr">Package: corosync<br>Version: 3.0.1-2+deb10u1<br>Severity: important<div><br>Dear Maintainer,<br><br>* What led up to the situation?<br>** 2 Node Cluster Corosync 3.0.1 on Debian Buster.<br>** 2 Knet Links - ring0 on eth0 (front facing if) ring1 on eth1 (back-to-back link).<br>** Services running on cluster-node01.<br>** Cluster is running just fine, both nodes are online and see each other.<br>** crm_mon shows 2 online nodes and running resources without errors.<br><br>* What exactly did you do (or not do) that was effective (or ineffective)?<br>For failover testing we disconnected the eth0 interface on the active node (cluster-node01).<br><br>* What was the outcome of this action?<br>** Situation on the active node (cluster-node01)<br>Corosync on the node becomes unresponsive. It does not respond to commands like corosync-cfgtool and corosync-quorumtool.<br>in crm_mon however the cluster status just looks fine. It claims both nodes are online and services are healthy.<br>corosync logs however indicates that the cluster is disconnected.<br>####### corosync.log ####<br>Sep 11 10:06:45 [1946] cluster-node01 corosync warning [MAIN  ] Totem is unable to form a cluster because of an operating system or network fault (reason: totem is continuously in gather state). The most common cause of this message is that the local firewall is configured improperly.<br>#########################</div><div><br>** Situation on the passive node (cluster-node02)<br>Corosync does respond to commands like corosync-cfgtool and shows that cluster-node01 is offline on all links.<br><br>#########################<br>####### corosync.log #######<br>Sep 11 10:06:09 [1941] cluster-node02 corosync info    [KNET  ] link: host: 1 link: 0 is down<br>Sep 11 10:06:09 [1941] cluster-node02 corosync info    [KNET  ] host: host: 1 has 1 active links<br>Sep 11 10:06:10 [1941] cluster-node02 corosync notice  [TOTEM ] Token has not been received in 2250 ms<br>Sep 11 10:06:11 [1941] cluster-node02 corosync notice  [TOTEM ] A processor failed, forming new configuration.<br>Sep 11 10:06:15 [1941] cluster-node02 corosync notice  [TOTEM ] A new membership (2:16) was formed. Members left: 1<br>Sep 11 10:06:15 [1941] cluster-node02 corosync notice  [TOTEM ] Failed to receive the leave message. failed: 1<br>Sep 11 10:06:15 [1941] cluster-node02 corosync warning [CPG   ] downlist left_list: 1 received<br>Sep 11 10:06:15 [1941] cluster-node02 corosync notice  [QUORUM] Members[1]: 2<br>Sep 11 10:06:15 [1941] cluster-node02 corosync notice  [MAIN  ] Completed service synchronization, ready to provide service.<br>Sep 11 10:06:16 [1941] cluster-node02 corosync info    [KNET  ] link: host: 1 link: 1 is down<br>Sep 11 10:06:16 [1941] cluster-node02 corosync info    [KNET  ] host: host: 1 has 0 active links<br>Sep 11 10:06:16 [1941] cluster-node02 corosync warning [KNET  ] host: host: 1 has no active links<br>#########################<br><br>#########################<br>## corosync-cfgtool -s ##<br>root@cluster-node02:~# corosync-cfgtool -s<br>Printing link status.<br>Local node ID 2<br>LINK ID 0<br>    addr    = ###.###.###.###<br>    status:<br>        node 0: link enabled:1  link connected:0<br>        node 1: link enabled:1  link connected:1<br>LINK ID 1<br>    addr    = ###.###.###.###<br>    status:<br>        node 0: link enabled:1  link connected:1<br>        node 1: link enabled:0  link connected:1<br>#########################<br><br><br>#########################<br>##### crm_mon -rfA1 #######<br>root@cluster-node02:~# crm_mon -rfA1<br>Stack: corosync<br>Current DC: cluster-node02 (version 2.0.1-9e909a5bdd) - partition with quorum<br>Last updated: Fri Sep 11 10:45:53 2020<br>Last change: Fri Sep 11 10:42:26 2020 by root via cibadmin on cluster-node02<br><br>2 nodes configured<br>7 resources configured<br><br>Online: [ cluster-node02 ]<br>OFFLINE: [ cluster-node01 ]<br>#########################<br><br>Pacemaker does therefore try to perform a failover.<br><br>* What outcome did you expect instead?<br>With our configuration the cluster should not take any action and both nodes should see each other on link1.<br><br>* Tests with Corosync 3.0.3 from debian testing.<br>We installed packages from debian testing and fulfilled dependencies from debian backports.<br><br>#########################<br>apt install libnozzle1=1.16-2~bpo10+1 libknet1=1.16-2~bpo10+1 libnl-3-200 libnl-route-3-200 libknet-dev=1.16-2~bpo10+1 ./corosync_3.0.3-2_amd64.deb ./libcorosync-common4_3.0.3-2_amd64.deb<br>#########################<br>The described problem does not occur with the 3.0.3 version from debian testing.<br><br><br>-- System Information:<br>Debian Release: 10.5<br>  APT prefers stable<br>  APT policy: (550, 'stable')<br>Architecture: amd64 (x86_64)<br><br>Kernel: Linux 4.19.0-10-amd64 (SMP w/2 CPU cores)<br>Locale: LANG=en_US.UTF-8, LC_CTYPE=C.UTF-8 (charmap=UTF-8), LANGUAGE=en_US.UTF-8 (charmap=UTF-8)<br>Shell: /bin/sh linked to /bin/dash<br>Init: systemd (via /run/systemd/system)<br><br>Versions of packages corosync depends on:<br>ii  adduser              3.118<br>ii  init-system-helpers  1.56+nmu1<br>ii  libc6                2.28-10<br>ii  libcfg7              3.0.1-2+deb10u1<br>ii  libcmap4             3.0.1-2+deb10u1<br>ii  libcorosync-common4  3.0.1-2+deb10u1<br>ii  libcpg4              3.0.1-2+deb10u1<br>ii  libknet1             1.8-2<br>ii  libqb0               1.0.5-1<br>ii  libquorum5           3.0.1-2+deb10u1<br>ii  libstatgrab10        0.91-1+b2<br>ii  libsystemd0          241-7~deb10u4<br>ii  libvotequorum8       3.0.1-2+deb10u1<br>ii  lsb-base             10.2019051400<br>ii  xsltproc             1.1.32-2.2~deb10u1<br><br>corosync recommends no packages.<br><br>corosync suggests no packages.<br><br>-- Configuration Files:<br>/etc/corosync/corosync.conf changed:<br>totem {<br>    version: 2<br>    cluster_name: debian<br>    token: 3000<br>    token_retransmits_before_loss_const: 10<br>    crypto_model: nss<br>    crypto_cipher: aes256<br>    crypto_hash: sha256<br>    link_mode: active<br>    keyfile: /etc/corosync/authkey<br>}<br>nodelist {<br>    node {<br>        nodeid: 1<br>        name: cluster-node01<br>        ring0_addr: ###.###.###.142<br>        ring1_addr: 192.168.14.1<br>    }<br>    node {<br>        nodeid: 2<br>        name: cluster-node02<br>        ring0_addr: ###.###.###.143<br>        ring1_addr: 192.168.14.2<br>    }<br>}<br>logging {<br>    fileline: off<br>    to_stderr: no<br>    to_syslog: no<br>    to_logfile: yes<br>    logfile: /var/log/corosync/corosync.log<br>    debug: off<br>    logger_subsys {<br>        subsys: QUORUM<br>        debug: off<br>    }<br>}<br>quorum {<br>    provider: corosync_votequorum<br>    expected_votes: 2<br>    two_node: 1<br>    wait_for_all: 1<br>    auto_tie_breaker: 0<br>}<br><br><br>-- no debconf information<br></div></div>