<div dir="ltr">Sending an update before the weekend:<div><br></div><div>Gate was in very bad shape today (long queue, lot of failures) again today, and it turns out we had a few more issues that we tracked here: <a href="https://etherpad.openstack.org/p/tripleo-gate-issues-june-2018">https://etherpad.openstack.org/p/tripleo-gate-issues-june-2018</a></div><div><br></div><div>## scenario007 broke because of a patch in networking-ovn</div><div><a href="https://bugs.launchpad.net/tripleo/+bug/1777168">https://bugs.launchpad.net/tripleo/+bug/1777168</a><br></div><div>We made the job non voting and meanwhile tried and managed to fix it: <a href="https://review.rdoproject.org/r/#/c/14155/">https://review.rdoproject.org/r/#/c/14155/</a></div><div>Breaking commit was: <a href="https://github.com/openstack/networking-ovn/commit/2365df1cc3e24deb2f3745c925d78d6d8e5bb5df">https://github.com/openstack/networking-ovn/commit/2365df1cc3e24deb2f3745c925d78d6d8e5bb5df</a></div><div>Kudos to Daniel Alvarez for having the patch ready!</div><div>Also thanks to Wes for making the job non voting in the meantime.</div><div>I've reverted the non-voting things are situation is fixed now, so we can vote again on this one.</div><div><br></div><div>## Dockerhub proxy issue</div><div>Infra using wrong image layer object storage proxy for Dockerhub: <a href="https://review.openstack.org/#/c/575787/">https://review.openstack.org/#/c/575787/</a><br></div><div>Huge thanks to infra team, specially Clark for fixing this super quickly, it clearly helped to stabilize our container jobs, I actually haven't seen timeouts since we merged your patch. Thanks a ton!</div><div><br></div><div>## RDO master wasn't consistent anymore, python-cloudkittyclient broke</div><div>The client was refactored:</div><div><a href="https://git.openstack.org/cgit/openstack/python-cloudkittyclient/commit/?id=d070f6a68cddf51c57e77107f1b823a8f75770ba">https://git.openstack.org/cgit/openstack/python-cloudkittyclient/commit/?id=d070f6a68cddf51c57e77107f1b823a8f75770ba</a><br></div><div>And it broke the RPM, we had to completely rewrite the dependencies so we can build the package:</div><div><a href="https://review.rdoproject.org/r/#/c/14265/">https://review.rdoproject.org/r/#/c/14265/</a><br></div><div>Mille merci Heikel for your responsive help at 3am, so we could come back consistent and have our latest rpms that contained a bunch of fixes.</div><div><br></div><div>## Where we are now</div><div><br></div><div>Gate looks stable now. You can recheck and approve things. I went ahead and rechecked everything and made sure nothing was left abandoned. Steve's work has merged so I think we could re-consider <a href="https://review.openstack.org/#/c/575330/">https://review.openstack.org/#/c/575330/</a> again.</div><div>Special thanks to everyone involved in these issues and Alex & John who also stepped up to help.</div><div>Enjoy your weekend!</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Jun 14, 2018 at 6:40 AM, Emilien Macchi <span dir="ltr"><<a href="mailto:emilien@redhat.com" target="_blank">emilien@redhat.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">It sounds like we merged a bunch last night thanks to the revert, so I went ahead and restored/rechecked everything that was out of the gate. I've checked and nothing was left over, but let me know in case I missed something.<div>I'll keep updating this thread with the progress made to improve the situation etc.</div><div>So from now, situation is back to "normal", recheck/+W is ok.</div><div><br></div><div>Thanks again for your patience,</div></div><div class="gmail_extra"><div><div class="h5"><br><div class="gmail_quote">On Wed, Jun 13, 2018 at 10:39 PM, Emilien Macchi <span dir="ltr"><<a href="mailto:emilien@redhat.com" target="_blank">emilien@redhat.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><a href="https://review.openstack.org/575264" target="_blank">https://review.openstack.org/5<wbr>75264</a> just landed (and didn't timeout in check nor gate without recheck, so good sigh it helped to mitigate).<br><div><br></div><div>I've restore and rechecked some patches that I evacuated from the gate, please do not restore others or recheck or approve anything for now, and see how it goes with a few patches.</div><div>We're still working with Steve on his patches to optimize the way we deploy containers on the registry and are investigating how we could make it faster with a proxy.</div><div><br></div><div>Stay tuned and thanks for your patience.</div></div><div class="gmail_extra"><div><div class="m_-6039145491016399382h5"><br><div class="gmail_quote">On Wed, Jun 13, 2018 at 5:50 PM, Emilien Macchi <span dir="ltr"><<a href="mailto:emilien@redhat.com" target="_blank">emilien@redhat.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">TL;DR: gate queue was 25h+, we put all patches from gate on standby, do not restore/recheck until further announcement.<div><br></div><div>We recently enabled the containerized undercloud for multinode jobs and we believe this was a bit premature as the container download process wasn't optimized so it's not pulling the mirrors for the same containers multiple times yet.</div><div>It caused the job runtime to increase and probably the load on <a href="http://docker.io" target="_blank">docker.io</a> mirrors hosted by OpenStack Infra to be a bit slower to provide the same containers multiple times. The time taken to prepare containers on the undercloud and then for the overcloud caused the jobs to randomly timeout therefore the gate to fail in a high amount of times, so we decided to remove all jobs from the gate by abandoning the patches temporarily (I have them in my browser and will restore when things are stable again, please do not touch anything).<br clear="all"><div><br></div><div>Steve Baker has been working on a series of patches that optimize the way we prepare the containers but basically the workflow will be:</div><div>- pull containers needed for the undercloud into a local registry, using infra mirror if available</div><div>- deploy the containerized undercloud</div><div>- pull containers needed for the overcloud minus the ones already pulled for the undercloud, using infra mirror if available</div><div>- update containers on the overcloud</div><div>- deploy the containerized undercloud</div><div><br></div><div>With that process, we hope to reduce the runtime of the deployment and therefore reduce the timeouts in the gate.</div><div>To enable it, we need to land in that order: <a href="https://review.openstack.org/#/c/571613/" target="_blank">https://review.openstac<wbr>k.org/#/c/571613/</a>, <a href="https://review.openstack.org/#/c/574485/" target="_blank">https://rev<wbr>iew.openstack.org/#/c/574485/</a>,<wbr> <a href="https://review.openstack.org/#/c/571631/" target="_blank">https://review.openstack.org/<wbr>#/c/571631/</a> and <a href="https://review.openstack.org/#/c/568403" target="_blank">https://review.openstack.o<wbr>rg/#/c/568403</a>.</div><div><br></div><div>In the meantime, we are disabling the containerized undercloud recently enabled on all scenarios: <a href="https://review.openstack.org/#/c/575264/" target="_blank">https://review.open<wbr>stack.org/#/c/575264/</a> for mitigation with the hope to stabilize things until Steve's patches land.</div><div>Hopefully, we can merge Steve's work tonight/tomorrow and re-enable the containerized undercloud on scenarios after checking that we don't have timeouts and reasonable deployment runtimes.</div><div><br></div><div>That's the plan we came with, if you have any question / feedback please share it.</div><span class="m_-6039145491016399382m_8731746214981568586HOEnZb"><font color="#888888"><div>-- <br></div><div class="m_-6039145491016399382m_8731746214981568586m_6423698452322616991gmail_signature">Emilien, Steve and Wes</div>
</font></span></div></div>
</blockquote></div><br><br clear="all"><div><br></div></div></div><span class="m_-6039145491016399382HOEnZb"><font color="#888888">-- <br><div class="m_-6039145491016399382m_8731746214981568586gmail_signature" data-smartmail="gmail_signature"><div dir="ltr">Emilien Macchi<br></div></div>
</font></span></div>
</blockquote></div><br><br clear="all"><div><br></div></div></div><span class="HOEnZb"><font color="#888888">-- <br><div class="m_-6039145491016399382gmail_signature" data-smartmail="gmail_signature"><div dir="ltr">Emilien Macchi<br></div></div>
</font></span></div>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr">Emilien Macchi<br></div></div>
</div>