<div dir="ltr">So as we're all aware, the gate is a mess right now. I wanted to sum up some of the issues so we can figure out solutions.<div><br></div><div>1. The functional-api job sometimes fails because bays timeout building after 1 hour. The logs look something like this:</div><div><span style="color:rgb(0,0,0);font-family:sans-serif;line-height:normal;white-space:pre-wrap">magnum.tests.functional.api.v1.test_bay.BayTest.test_create_list_and_delete_bays [3733.626171s] ... FAILED</span></div><div>I can reproduce this hang on my devstack with etcdctl 2.0.10 as described in this bug (<a href="https://bugs.launchpad.net/magnum/+bug/1541105">https://bugs.launchpad.net/magnum/+bug/1541105</a>), but apparently either my fix with using 2.2.5 (<a href="https://review.openstack.org/#/c/275994/">https://review.openstack.org/#/c/275994/</a>) is incomplete or there is another intermittent problem because it happened again even with that fix: (<a href="http://logs.openstack.org/94/275994/1/check/gate-functional-dsvm-magnum-api/32aacb1/console.html">http://logs.openstack.org/94/275994/1/check/gate-functional-dsvm-magnum-api/32aacb1/console.html</a>)</div><div><br></div><div>2. The k8s job has some sort of intermittent hang as well that causes a similar symptom as with swarm. <a href="https://bugs.launchpad.net/magnum/+bug/1541964">https://bugs.launchpad.net/magnum/+bug/1541964</a></div><div><br></div><div>3. When the functional-api job runs, it frequently destroys the VM causing the jenkins slave agent to die. Example: <a href="http://logs.openstack.org/03/275003/6/check/gate-functional-dsvm-magnum-api/a9a0eb9//console.html">http://logs.openstack.org/03/275003/6/check/gate-functional-dsvm-magnum-api/a9a0eb9//console.html</a></div><div>When this happens, zuul re-queues a new build from the start on a new VM. This can happen many times in a row before the job completes.</div><div>I chatted with openstack-infra about this and after taking a look at one of the VMs, it looks like memory over consumption leading to thrashing was a possible culprit. The sshd daemon was also dead but the console showed things like "INFO: task kswapd0:77 blocked for more than 120 seconds". A cursory glance and following some of the jobs seems to indicate that this doesn't happen on RAX VMs which have swap devices unlike the OVH VMs as well.</div><div><br></div><div>4. In general, even when things work, the gate is really slow. The sequential master-then-node build process in combination with underpowered VMs makes bay builds take 25-30 minutes when they do succeed. Since we're already close to tipping over a VM, we run functional tests with concurrency=1, so 2 bay builds means almost the entire allotted devstack testing time (generally 75 minutes of actual test time available it seems).</div><div><br></div><div>Corey</div></div>