<div dir="ltr">There's probably some minimal gain in cross compatibility testing to sticking with the status quo.  The Swift API is old and stable, but I believe there was some bug in recent history where some return value in swiftclient changed from a iterable to a generator or something and some aggressive non-duck type checking broke something somewhere....<div><br></div><div>I find that bug reports sorta interesting, the reported memory pressure there doesn't make sense.  Maybe there's some non-</div><div>essential middleware configured on that proxy that's causing the workers to bloat up like that?</div><div><br></div><div>-clayg</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Jun 27, 2016 at 12:30 PM, Emilien Macchi <span dir="ltr"><<a href="mailto:emilien@redhat.com" target="_blank">emilien@redhat.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
Today we're re-investigating a CI failure that we had multiple times [1]:<br>
Swift memory usage grows until it is OOM-killed.<br>
<br>
The perimeter of this thread is about our CI and not production environments.<br>
Indeed, our CI is running limited resources while production<br>
environments should not hit this problem.<br>
<br>
After some investigation on #ŧripleo, we found out this scenario was<br>
happening almost every time since recently:<br>
<br>
* undercloud is deployed, glance and swift are running. Glance is<br>
configured with Swift backend to store images.<br>
* tripleo CI upload overcloud image into Glance, image is successfully uploaded.<br>
* when overcloud starts deploying, some nodes randomly fail to deploy<br>
because the undercloud OOM-kills swift-proxy-server that is still<br>
sending the ovecloud image requested by Glance API. Swift fails,<br>
Glance fails, overcloud deployment fails with a "No valid hosts<br>
found".<br>
<br>
It's likely due to performances issues in our CI, and there is nothing<br>
we can do but adding more resources or reducing the number of<br>
environments, something we won't do at this time, because our recent<br>
improvements in our CI (more ram, SSD, etc).<br>
<br>
As a first iteration, I propose [2] that we stop using Swift as a<br>
backend for Glance. Indeed, our undercloud is currently single-node, I<br>
see zero value of using Swift to store the overcloud image.<br>
If there is a value, then we can add the option to whether or not<br>
using it (and set it to False in our CI to use file backend, which<br>
won't lead to OOM).<br>
<br>
Note: on the overcloud: we currently support file, swift and rbd<br>
backends, that you can easily select during your deployment.<br>
<br>
[1] <a href="https://bugs.launchpad.net/tripleo/+bug/1595916" rel="noreferrer" target="_blank">https://bugs.launchpad.net/tripleo/+bug/1595916</a><br>
[2] <a href="https://review.openstack.org/#/c/334555/" rel="noreferrer" target="_blank">https://review.openstack.org/#/c/334555/</a><br>
<span class="HOEnZb"><font color="#888888">--<br>
Emilien Macchi<br>
<br>
__________________________________________________________________________<br>
OpenStack Development Mailing List (not for usage questions)<br>
Unsubscribe: <a href="http://OpenStack-dev-request@lists.openstack.org?subject:unsubscribe" rel="noreferrer" target="_blank">OpenStack-dev-request@lists.openstack.org?subject:unsubscribe</a><br>
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev" rel="noreferrer" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev</a><br>
</font></span></blockquote></div><br></div>