<div dir="ltr">Thanks Chris!<div><br></div><div>some comments inline.<br><div><div class="gmail_extra"><br><br><div class="gmail_quote">On 25 January 2014 02:08, Chris Wright <span dir="ltr"><<a href="mailto:chrisw@sous-sol.org" target="_blank">chrisw@sous-sol.org</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div class="im">* Salvatore Orlando (<a href="mailto:sorlando@nicira.com">sorlando@nicira.com</a>) wrote:<br>

> I've found out that several jobs are exhibiting failures like bug 1254890<br>
> [1] and bug 1253896 [2] because openvswitch seem to be crashing the kernel.<br>
> The kernel trace reports as offending process usually either<br>
> neutron-ns-metadata-proxy or dnsmasq, but [3] seem to clearly point to<br>
> ovs-vsctl.<br>
<br>
</div>Hmm, that actually shows dnsmasq is the running/exiting process.<br>
The ovs-vsctl was run nearly a half-second earlier.  Looks like<br>
ovs-vsctl successfuly added the tap device (assuming it's for<br>
dnsmasq?).  </blockquote><div><br></div><div>I think you're right. The most reliable source of information should be the crash dump. And the fact that there are always ovs operations near the crash might point to a namespace issue due to the way neutron operates. I understand very little about kernel issues, but the trace is very similar to another namespace-related issue we saw back in october.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">And dnsmasq is exiting upon receiving a signal.  Shot in<br>

the dark, has the neutron path that would end up killing dnsmasq<br>
(Dnsmasq::reload_allocations()) changed recently?  I didn't see much.<br></blockquote><div> <br>Nope, that has not changed in a while. Last commit that edited it is: 9274095b4af63de7224b524e482872a78e027a7b</div><div>
However, most of the crashes occur with the metadata proxy, which runs in a namespace and forwards traffic to the metadata agent through a unix socket.</div><div>Unfortunately logging is not optimal for these proxies as they're spawned by the l3 agent and logs are partially collected within the l3 agent log.</div>
<div>I'll see if anything can be done to improve their logging.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">

<div class="im"><br>
> 254 events observed in the previous 6 days show a similar trace in the logs<br>
> [4].<br>
<br>
</div>That kernel (3.2.0) is over a year old.  And there have been some network<br>
namespace fixes since then (IIRC, refcounting related).<br></blockquote><div><br></div><div>I would surely consider upgrading the kernel, if that is feasible. But in the meanwhile I think we should focus on identifying which change started to trigger all these kernel crashes.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<div class="im"><br>
> This means that while this alone won't explain all the failures observed,<br>
> it is however potentially one of the prominent root causes.<br>
><br>
> >From the logs I have little hints about the kernel running. It seems there<br>
> has been no update in the past 7 days, but I can't be sure.<br>
> Openvswitch builds are updated periodically. The last build I found not to<br>
> trigger failures was the one generated on 2014/01/16 at 01:58:18.<br>
> Unfortunately version-wise I always have only 1.4.0, no build number.<br>
><br>
> I don't know if this will require getting in touch with ubuntu, or if we<br>
> can just prep a different image which an OVS build known to work without<br>
> problems.<br>
><br>
> Salvatore<br>
><br>
> [1] <a href="https://bugs.launchpad.net/neutron/+bug/1254890" target="_blank">https://bugs.launchpad.net/neutron/+bug/1254890</a><br>
> [2] <a href="https://bugs.launchpad.net/neutron/+bug/1253896" target="_blank">https://bugs.launchpad.net/neutron/+bug/1253896</a><br>
> [3] <a href="http://paste.openstack.org/show/61869/" target="_blank">http://paste.openstack.org/show/61869/</a><br>
> [4] "kernel BUG at /build/buildd/linux-3.2.0/fs/buffer.c:2917" and<br>
> filename:syslog.txt<br>
<br>
</div><div class=""><div class="h5">_______________________________________________<br>
OpenStack-dev mailing list<br>
<a href="mailto:OpenStack-dev@lists.openstack.org">OpenStack-dev@lists.openstack.org</a><br>
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev</a><br>
</div></div></blockquote></div><br></div></div></div></div>