<div dir="ltr">Thanks for the input. I'm using memcache as a token store already, though.<br><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Dec 18, 2013 at 9:37 PM, Erik McCormick <span dir="ltr"><<a href="mailto:emccormick@cirrusseven.com" target="_blank">emccormick@cirrusseven.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><p dir="ltr">It sounds more to me like your database went awol than a neutron problem. Assuming you had done a bit of mucking around testing the cluster before this event, is there any chance you're not using memcached and your tokens table has grown large? You might want to switch over to memcached for Keystone and see if that doesn't make it happier.</p>


<div class="gmail_quote"><div><div class="h5">On Dec 18, 2013 9:40 PM, "Joe Topjian" <<a href="mailto:joe@topjian.net" target="_blank">joe@topjian.net</a>> wrote:<br type="attribution"></div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div><div class="h5">
<div dir="ltr">Hello,<div><br></div><div>I set up an internal OpenStack cloud to give a workshop for around 15 people. I decided to use Neutron as I'm trying to get more experience with it. The cloud consisted of a cloud controller and four compute nodes. Very decent Dell hardware, Ubuntu 12.04, Havana 2013.2.0.</div>


<div><br></div><div>Neutron was configured with the OVS plugin, non-overlapping IPs, and a single shared subnet. GRE tunnelling was used between compute nodes.</div><div><br></div><div>Everything was working fine until the 15 people tried launching a CirrOS instance at approximately the same time.</div>


<div><br></div><div>Then Neutron crashed. </div><div><br></div><div>The compute nodes had this in their logs:</div><div><br></div><div><div>2013-12-18 09:52:57.707 28514 TRACE nova.compute.manager ConnectionFailed: Connection to neutron failed: timed out</div>


</div><div><br></div><div>All instances went into an Error state. </div><div><br></div><div>Restarting the Neutron services did no good. Terminating the Error'd instances seemed to make the problem worse -- the entire cloud became unavailable (meaning, both Horizon and Nova were unusable as they would time out waiting for Neutron).</div>


<div><br></div><div>We moved on to a different cloud to continue on with the workshop. I would occasionally issue "neutron net-list" in the original cloud to see if I would get a result. It took about an hour.</div>


<div><br></div><div>What happened?</div><div><br></div><div>I've read about Neutron performance issues -- would this be something along those lines?</div><div><br></div><div>What's the best way to quickly recover from a situation like this? </div>


<div><br></div><div>Since then, I haven't recreated the database, networks, or anything like that. Is there a specific log or database table I can look for to see more information on how exactly this situation happened?</div>


<div><br></div><div>Thanks,</div><div>Joe</div></div>
<br></div></div>_______________________________________________<br>
OpenStack-operators mailing list<br>
<a href="mailto:OpenStack-operators@lists.openstack.org" target="_blank">OpenStack-operators@lists.openstack.org</a><br>
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-operators" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-operators</a><br>
<br></blockquote></div>
</blockquote></div><br></div></div>