<div dir="ltr"><div><div><div><div><div><div><div>Hi all<br><br></div>The HA session was really well attended and I'd like to give some feedback from the session.<br><br></div>Firstly there is some really good content here: <a href="https://etherpad.openstack.org/p/kilo-crossproject-ha-integration">https://etherpad.openstack.org/p/kilo-crossproject-ha-integration</a><br></div><div><br></div>1. We SHOULD provide better health checks for OCF resources (<a href="http://linux-ha.org/wiki/OCF_Resource_Agents">http://linux-ha.org/wiki/OCF_Resource_Agents</a>). <br>These should be fast and reliable. We should probably bike shed on some convention like "<project>-manage healthcheck"<br></div><div>and then roll this out for each project.<br></div><div><br></div>2. We should really move <a href="https://github.com/madkiss/openstack-resource-agents">https://github.com/madkiss/openstack-resource-agents</a> to stackforge or openstack if the author is agreeable to it (it's referred to in our official docs).<br><br>3. <span class="">All services </span><span class="">SHOULD</span><span class=""> </span><span class="">support</span><span class=""> Active/Active</span><span class=""> configurations<br></span></div><div><span class="">    (better scaling and it's always tested)<br></span></div><div><span class=""><br></span></div><span class="">4. We should be testing HA (there are a number of ideas on the etherpad about this)<br><br></span></div><span class="">5. Many services </span>do not<span class=""><span class=""> recovery in the case of failure mid-task<br></span></span></div><span class=""><span class="">    This seems like a big problem to me (some leave the DB in a mess). Someone linked to an interesting article (</span></span><br><span class="">crash-only-software: </span><span class=""><a href="http://lwn.net/Articles/191059/">http://lwn.net/Articles/191059/)</a></span><span class=""> that suggests that we if we do this correctly we should not need the concept of clean shutdown.<br></span><div><span class=""><span class="">     (<a href="https://github.com/openstack/oslo-incubator/blob/master/openstack/common/service.py#L459-L471">https://github.com/openstack/oslo-incubator/blob/master/openstack/common/service.py#L459-L471</a>)<br></span></span></div><div><span class=""><span class="">     I'd be interested in how people think this needs to be approached (just raise bugs for each?).<br></span></span></div><div><span class=""><span class=""><br></span></span></div><div><span class=""><span class="">Regards<br></span></span></div><div><span class=""><span class="">Angus<br></span></span></div></div>