<div dir="ltr">Hello,<div><br></div><div>I set up an internal OpenStack cloud to give a workshop for around 15 people. I decided to use Neutron as I'm trying to get more experience with it. The cloud consisted of a cloud controller and four compute nodes. Very decent Dell hardware, Ubuntu 12.04, Havana 2013.2.0.</div>
<div><br></div><div>Neutron was configured with the OVS plugin, non-overlapping IPs, and a single shared subnet. GRE tunnelling was used between compute nodes.</div><div><br></div><div>Everything was working fine until the 15 people tried launching a CirrOS instance at approximately the same time.</div>
<div><br></div><div>Then Neutron crashed. </div><div><br></div><div>The compute nodes had this in their logs:</div><div><br></div><div><div>2013-12-18 09:52:57.707 28514 TRACE nova.compute.manager ConnectionFailed: Connection to neutron failed: timed out</div>
</div><div><br></div><div>All instances went into an Error state. </div><div><br></div><div>Restarting the Neutron services did no good. Terminating the Error'd instances seemed to make the problem worse -- the entire cloud became unavailable (meaning, both Horizon and Nova were unusable as they would time out waiting for Neutron).</div>
<div><br></div><div>We moved on to a different cloud to continue on with the workshop. I would occasionally issue "neutron net-list" in the original cloud to see if I would get a result. It took about an hour.</div>
<div><br></div><div>What happened?</div><div><br></div><div>I've read about Neutron performance issues -- would this be something along those lines?</div><div><br></div><div>What's the best way to quickly recover from a situation like this? </div>
<div><br></div><div>Since then, I haven't recreated the database, networks, or anything like that. Is there a specific log or database table I can look for to see more information on how exactly this situation happened?</div>
<div><br></div><div>Thanks,</div><div>Joe</div></div>