<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jun 24, 2015 at 11:44 AM, Joe Gordon <span dir="ltr"><<a href="mailto:joe.gordon0@gmail.com" target="_blank">joe.gordon0@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote"><div><div class="h5">On Wed, Jun 24, 2015 at 11:03 AM, Sean Dague <span dir="ltr"><<a href="mailto:sean@dague.net" target="_blank">sean@dague.net</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div><div>On 06/24/2015 01:41 PM, Russell Bryant wrote:<br>
> On 06/24/2015 01:31 PM, Joe Gordon wrote:<br>
>><br>
>><br>
>> On Tue, Jun 16, 2015 at 9:58 AM, Sean Dague <<a href="mailto:sean@dague.net" target="_blank">sean@dague.net</a><br>
>> <mailto:<a href="mailto:sean@dague.net" target="_blank">sean@dague.net</a>>> wrote:<br>
>><br>
>>     Back when Nova first wanted to test partial upgrade, we did a bunch of<br>
>>     slightly odd conditionals inside of grenade and devstack to make it so<br>
>>     that if you were very careful, you could just not stop some of the old<br>
>>     services on a single node, upgrade everything else, and as long as the<br>
>>     old services didn't stop, they'd be running cached code in memory, and<br>
>>     it would look a bit like a 2 node worker not upgraded model. It worked,<br>
>>     but it was weird.<br>
>><br>
>>     There has been some interest by the Nova team to expand what's not being<br>
>>     touched, as well as the Neutron team to add partial upgrade testing<br>
>>     support. Both are great initiatives, but I think going about it the old<br>
>>     way is going to add a lot of complexity in weird places, and not be as<br>
>>     good of a test as we really want.<br>
>><br>
>>     Nodepool now supports allocating multiple nodes. We have a multinode job<br>
>>     in Nova regularly testing live migration using this.<br>
>><br>
>>     If we slice this problem differently, I think we get a better<br>
>>     architecture, a much easier way to add new configs, and a much more<br>
>>     realistic end test.<br>
>><br>
>>     Conceptually, use devstack-gate multinode support to set up 2 nodes, an<br>
>>     all in one, and a worker. Let grenade upgrade the all in one, leave the<br>
>>     worker alone.<br>
>><br>
>>     I think the only complexity here is the fact that grenade.sh implicitly<br>
>>     drives stack.sh. Which means one of:<br>
>><br>
>>     1) devstack-gate could build the worker first, then run grenade.sh<br>
>><br>
>>     2) we make it so grenade.sh can execute in parts more easily, so it can<br>
>>     hand something else running stack.sh for it.'<br>
>><br>
>>     3) we make grenade understand the subnode for partial upgrade, so it<br>
>>     will run the stack phase on the subnode itself (given credentials).<br>
>><br>
>>     This kind of approach means deciding which services you don't want to<br>
>>     upgrade doesn't require devstack changes, it's just a change of the<br>
>>     services on the worker.<br>
>><br>
>>     We need a volunteer for taking this on, but I think all the follow on<br>
>>     partial upgrade support will be much much easier to do after we have<br>
>>     this kind of mechanism in place.<br>
>><br>
>><br>
>> I think this is a great approach for the future of partial upgrade<br>
>> support in grenade. I would like to point out step 0 here, is to get<br>
>> tempest passing consistently in multinode.<br>
>><br>
>> Currently the neutron job is failing consistently, and nova-network<br>
>> fails roughly 10% of the time due<br>
>> to <a href="https://bugs.launchpad.net/nova/+bug/1462305" rel="noreferrer" target="_blank">https://bugs.launchpad.net/nova/+bug/1462305</a><br>
>> and <a href="https://bugs.launchpad.net/nova/+bug/1445569" rel="noreferrer" target="_blank">https://bugs.launchpad.net/nova/+bug/1445569</a><br>
><br>
> If multi-node isn't reliable more generally yet, do you think the<br>
> simpler implementation of partial-upgrade testing could proceed?  I've<br>
> already done all of the patches to do it for Neutron.  That way we could<br>
> quickly get something in place to help block regressions and work on the<br>
> longer-term multinode refactoring without as much time pressure.<br>
<br>
</div></div>The thing is, these partial service bits are sneaker than one realizes<br>
over time. There have been all kinds of edge conditions that crept up on<br>
the n-cpu one that are really subtle because code is running in memory<br>
on stale versions of dependencies which are no longer on disk. And the<br>
number of people that have this model in their head is basically down to<br>
a SPOF.<br></blockquote><div><br></div></div></div><div>I agree, As the author of the current multinode job it is definitely a ugly hack (but one that has worked surprisingly well until now).</div><span class=""><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<br>
The fact that neutron-grenade is at a 40% fail rate right now (and has<br>
been for over a week) is not preventing anyone from just rechecking to<br>
get past it. So I think assuming additional failing grenade tests are<br>
going to keep folks from landing bugs is probably not a good assumption.<br>
Making the whole path more complicated for other people to debug is an<br>
explosion waiting to happen.<br>
<br>
So I do want to take a hard line on doing this right, because the debt<br>
here is higher than you might think. The partial code was always very<br>
conceptually fragile, and fails in really funny ways some times, because<br>
of the fact that old is not isolated from new in a way that would be<br>
expected.<br></blockquote><div><br></div></span><div>Assuming the smoke jobs work, I don't think making grenade do mulitnode should take very long. In which case we get a much more realistic upgrade situation.</div><span class=""><div> </div></span></div></div></div></blockquote><div><br></div><div>Good news, it looks like both smoke jobs are working (ignoring failures from <a href="https://review.openstack.org/#/c/195748/">https://review.openstack.org/#/c/195748/</a>).</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><span class=""><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<br>
I -1ed the n-net partial upgrade changes for the same reason.<br>
<span><br>
        -Sean<br>
<br>
--<br>
Sean Dague<br>
<a href="http://dague.net" rel="noreferrer" target="_blank">http://dague.net</a><br>
<br>
</span><div><div>__________________________________________________________________________<br>
OpenStack Development Mailing List (not for usage questions)<br>
Unsubscribe: <a href="http://OpenStack-dev-request@lists.openstack.org?subject:unsubscribe" rel="noreferrer" target="_blank">OpenStack-dev-request@lists.openstack.org?subject:unsubscribe</a><br>
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev" rel="noreferrer" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev</a><br>
</div></div></blockquote></span></div><br></div></div>
</blockquote></div><br></div></div>