<div dir="ltr"><div dir="ltr"><div dir="ltr"><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">Hi Hans,</div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small"><br></div></div></div><div class="gmail_quote"><div dir="ltr">Op di 6 nov. 2018 om 18:54 schreef Hans van Kranenburg <<a href="mailto:hans@knorrie.org">hans@knorrie.org</a>>:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
On 11/5/18 12:37 PM, Roalt Zijlstra wrote:<br>
> Package: src:xen<br>
> Version: 4.8.4+xsa273+shim4.10.1+xsa273-1+deb9u10<br>
> Severity: important<br>
> <br>
> Updating Xen to the latest 4.8 version from the security repo makes servers unstable.<br>
<br>
Can you confirm that this is the only change that you made between the<br>
before/after scenario? I mean, if you downgrade the packages, or you<br>
drop the old hypervisor xen-x.y-amd64.gz in /boot again, it's stable again?<br></blockquote><div><br></div><div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">We have several servers running the previous versions and those are still stable. The servers that we upgraded using 'apt-get update; apt-get upgrade'  were rock solid before the upgrade.</div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif">I did prepare a downgrade script if needed, but atm. the crash interval in days seems to be higher then before. We did have servers crashing every 2 days or even one crashing twice a day.</div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif"><span style="font-family:Arial,Helvetica,sans-serif"> </span><br></div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
> The servers randomly reset without any logs.<br>
<br>
Do you have the noreboot option set on the Xen hypervisor command line?<br>
<br></blockquote><div> </div><div><span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small"><div style="font-family:Arial,Helvetica,sans-serif"><div class="gmail_default" style="font-family:arial,helvetica,sans-serif">For now one busy servers runs an older 4.9.0-4-amd64 kernel with a 3.16 kernel DomU with MySQL server on it. The second busy server runs all domUs with 4.9 (backport) kernels on the lastest 4.9.0-8-amd64 kernel for the Dom0. Currently we are awaiting any crash. </div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif"><br></div></div></span></div><div><span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">The last mentioned server was rebooted with the noreboot option, so we could eventually check the console for errors once it crashes.  </span><span style="font-family:arial,helvetica,sans-serif">The <span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">remain</span> two servers are our fall-back servers and <span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">are not that busy. We have seen them </span>crash<span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small"> too,</span> but we <span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">noticed</span> that the less busy servers did not crash that <span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">often</span>. But once they were busy they crashed as quickly as the master servers.</span></div><div><span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small"></span> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Are you able to configure and capture output from serial console?<br></blockquote><div> </div><div><span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">Oh wow..  Using old technology for debugging :-) I will need to see how that configuration is done. We could connect up physical serial cables between different machines.</span></div><div><span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small"><br></span></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
First interesting thing to know is if it's the Dom0 that crashes, or if<br>
it's the hypervisor itself, and the logging will tell you that.<br>
<br>
> We have serveral Debian Stretch servers running Xen 4.8 and only the ones updated to the 4.8.4+xsa273+shim4.10.1+xsa273-1+deb9u10<br>
> version tend to crash ranging from 'twice a day' to 'once every two weeks'. We have already ruled out if hardware was an <br>
> issue, since we have 4 individual servers which are different in hardware setup and also were bought at different times. <br>
> And these servers ran stable with the previsous version 4.8.3+xsa267+shim4.10.1+xsa267-1+deb9u9.<br>
> These servers are acting exactly the same. Every thing works as it should, but without any logs it crashes and resets at <br>
> a certain point.<br>
> <br>
> It looks like it could have something to do with DomUs running older (3.16) Linux kernels. As a test we applied 4.9 kernels to <br>
> all Jessie DomU servers and so far it runs for 13 days (but this server did crash twice on a day). <br>
> We have seen this behaviour with Xen on CentOS6 and 7 too, but the trouble seems to be fixed after some more updates.<br>
<br>
It can be frustrating that there's not much response on the mailing<br>
lists. But, these kinds of problems can be really hard to debug and<br>
solve. Unless there's a clear reproduction scenario and debug output,<br>
there's often noone who can help you remotely.<br></blockquote><div> </div><div><span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">Well we have been having the issues since february this year with unstable Xen servers crashing once in a months or so. The first issues were on fresh Cent OS 7 servers, but then we also got them with updated Cent OS 6 servers. We then decided to use Debian Stretch and the first tests were pretty stable. We did install a new R740 with it (Xen 4.8.4-pre) and that ran for 110 days pretty well.</span></div><div><span class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small"><br></span></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
> As said.. I cannot provide logs since it simply resets without notice.<br>
<br>
It's still the best starting point...</blockquote><div><br></div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">Well hopefully the 'noreboot' provided server crashes soon for some logs. I will check if we can do any serial console tricks.</div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">Roalt</div></div></div>