<p dir="ltr"><br>
On Feb 2, 2015 9:44 AM, "Don Waterloo" <<a href="mailto:don.waterloo@gmail.com">don.waterloo@gmail.com</a>> wrote:<br>
><br>
> I entered a bug as <a href="https://bugs.launchpad.net/nova/+bug/1413049">https://bugs.launchpad.net/nova/+bug/1413049</a>. My 'patch' in there is not correct so ignore that :)<br>
><br>
> What i'm finding is, about once or twice a day, i run into a race condition where _heal_instance_info_cache() is active, and a new instance is created @ the same time. The heal ends up overwriting the info cache to [], and this is never corrected, leading to an instance that is running ok, but broken in the database.<br>
><br>
> if you run <br>
> mysql -e "select instances.host,instances.hostname,instances.uuid,instances.user_id from instance_info_caches,instances where network_info = '[]' and instances.deleted = 0 and instances.uuid = instance_info_caches.instance_uuid;" nova<br>
><br>
> it should return nothing. for me, it shows the broken instances.<br>
><br>
> And they are indeed broken, they often have multiple interfaces. If the user does a 'rebuild', then the libvirt xml file ends up with no source bridges.<br>
><br>
> I have:<br>
> reclaim_instance_interval = 0<br>
> heal_instance_info_cache_interval = 20<br>
> periodic_interval=10<br>
> image_cache_manager_interval=10<br>
> running_deleted_instance_poll_interval=10<br>
> instance_delete_interval=10<br>
> running_deleted_instance_action=reap<br>
><br>
><br>
> set.<br>
><br>
> Is no one else hitting this? This might be an unusual environment since we create instances quite dynamically (maybe 500-1000/day, all from heat so they start a lot all @ once).<br>
><br>
> _______________________________________________<br>
> Mailing list: <a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack</a><br>
> Post to     : <a href="mailto:openstack@lists.openstack.org">openstack@lists.openstack.org</a><br>
> Unsubscribe : <a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack</a><br>
></p>
<p dir="ltr">Don,</p>
<p dir="ltr">In addition to the issue we were having with recreating missing info cache data for instances which I mentioned to you a few weeks ago (related to this bug <a href="https://bugs.launchpad.net/nova/+bug/1378459">https://bugs.launchpad.net/nova/+bug/1378459</a>) I think we are also seeing this behaviour. It occurs under heavy elastic instance creation periods.  All networking gets set up correctly, but there is no info cache.  Within 10-60 minutes the info cache gets rebuilt by the periodic task and everything is OK.  I'll try to test the review patch next week that DIMS linked in your bug and see if I have any success.</p>
<p dir="ltr">Thanks,</p>
<p dir="ltr">Nate</p>