<div dir="ltr"><br><br><div class="gmail_quote"><div dir="ltr">On Fri, Mar 17, 2017 at 1:03 PM Sean Dague <<a href="mailto:sean@dague.net">sean@dague.net</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On 03/17/2017 08:27 AM, Jordan Pittier wrote:<br class="gmail_msg">
> The patch that reduced the number of Tempest Scenarios we run in every<br class="gmail_msg">
> job and also reduce the test run concurrency [0] was merged 13 days ago.<br class="gmail_msg">
> Since, the situation (i.e the high number of false negative job results)<br class="gmail_msg">
> has not improved significantly. We need to keep looking collectively at<br class="gmail_msg">
> this.<br class="gmail_msg">
<br class="gmail_msg">
While the situation hasn't completely cleared out -<br class="gmail_msg">
<a href="http://tinyurl.com/mdmdxlk" rel="noreferrer" class="gmail_msg" target="_blank">http://tinyurl.com/mdmdxlk</a> - since we've merged this we've not seen that<br class="gmail_msg">
job go over 25% failure rate in the gate, which it was regularly<br class="gmail_msg">
crossing in the prior 2 week period. That does feel like progress. </blockquote><div> </div><div><div>I agree the situation improved a bit, but there are still too many failures.<br></div><div>There is a peak of failures on Mar 12th in the graph, I remember looking<br></div><div>at it briefly, as it was on a Sunday - and then by Monday it was back to<br></div><div>normal. It's not clear yet to me what caused / fixed that peak. The mysql<br></div><div>revert was merged on March 15th, which is too late to explain the change.<br></div><br> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">In<br class="gmail_msg">
spot checking I we are also rarely failing in scenario tests now, but<br class="gmail_msg">
the fails tend to end up inside heavy API tests running in parallel.<br class="gmail_msg">
<br class="gmail_msg"></blockquote><br><div>An ssh failure in volume scenario tests  is still on top of the recheck<br></div><div>queue, but looking at logstash I see it's mostly happening in <br>gate-tempest-dsvm-networking-odl-* jobs. The integration jobs seem to<br></div><div>be behaving for scenario tests.<br></div><div><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
> There seems to be an agreement that we are hitting some memory limit.<br class="gmail_msg">
> Several of our most frequent failures are memory related [1]. So we<br class="gmail_msg">
> should either reduce our memory usage or ask for bigger VMs, with more<br class="gmail_msg">
> than 8GB of RAM.<br class="gmail_msg">
><br class="gmail_msg">
> There was/is several attempts to reduce our memory usage, by reducing<br class="gmail_msg">
> the Mysql memory consumption ([2] but quickly reverted [3]), reducing<br class="gmail_msg">
> the number of Apache workers ([4], [5]), more apache2 tuning [6]. If you<br class="gmail_msg">
> have any crazy idea to help in this regard, please help. This is high<br class="gmail_msg">
> priority for the whole openstack project, because it's plaguing many<br class="gmail_msg">
> projects.<br class="gmail_msg"></blockquote><div><br></div><div>I think it's very important to work on both sides: make sure our testing does<br></div><div>not kill the SUT, but also keep the footprint of the SUT under control.<br></div>This may be a good topic of discussion for the forum in Boston.<br><br></div><div class="gmail_quote">On the testing side, I started working on using two jobs instead of one:<br></div><div class="gmail_quote">- one running all API tests, to a degree of parallelism that does not break the SUT<br></div><div class="gmail_quote"><div>- one running scenario tests, perhaps on a two nodes test environment<br></div><div><br></div><div>That would give us more space in terms of testing, but it would also mean more<br></div><div>test nodes and more test jobs to track.<br></div><div>The scenario test job is defined, one d-g patch is missing to complete it<br><a href="https://review.openstack.org/#/c/442565/">https://review.openstack.org/#/c/442565/</a>.<br></div><div><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br class="gmail_msg">
Interesting, I hadn't seen the revert. It is also curious that it was<br class="gmail_msg">
largely limitted to the neutron-api test job. It's also notable that the<br class="gmail_msg">
sort buffers seem to have been set to the minimum allowed limit of mysql<br class="gmail_msg">
-<br class="gmail_msg">
<a href="https://dev.mysql.com/doc/refman/5.6/en/innodb-parameters.html#sysvar_innodb_sort_buffer_size" rel="noreferrer" class="gmail_msg" target="_blank">https://dev.mysql.com/doc/refman/5.6/en/innodb-parameters.html#sysvar_innodb_sort_buffer_size</a><br class="gmail_msg">
- and is over an order of magnitude decrease from the existing default.<br class="gmail_msg">
<br class="gmail_msg">
I wonder about redoing the change with everything except it and seeing<br class="gmail_msg">
how that impacts the neutron-api job.<br class="gmail_msg">
<br class="gmail_msg">
        -Sean<br class="gmail_msg">
<br class="gmail_msg">
--<br class="gmail_msg">
Sean Dague<br class="gmail_msg">
<a href="http://dague.net" rel="noreferrer" class="gmail_msg" target="_blank">http://dague.net</a><br class="gmail_msg">
<br class="gmail_msg">
__________________________________________________________________________<br class="gmail_msg">
OpenStack Development Mailing List (not for usage questions)<br class="gmail_msg">
Unsubscribe: <a href="http://OpenStack-dev-request@lists.openstack.org?subject:unsubscribe" rel="noreferrer" class="gmail_msg" target="_blank">OpenStack-dev-request@lists.openstack.org?subject:unsubscribe</a><br class="gmail_msg">
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev" rel="noreferrer" class="gmail_msg" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev</a><br class="gmail_msg">
</blockquote></div></div>