<div dir="ltr">Bogdan<div><br></div><div>I think we should firstly check whether attribute deletion leads to node starting its services or not. From what I read in the official Pacemaker documentation, it should work out of the box without the need to restart the node.</div><div>And by the way the quote above mentions 'use ONE of the following methods' meaning that we could actually use attribute deletion. The 2nd and the 3rd options do the same - they clear short-living node attribute. So we need to figure out why OCF script does not update the corresponding attribute by itself.</div><div><br></div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Nov 17, 2015 at 7:03 PM, Bogdan Dobrelya <span dir="ltr"><<a href="mailto:bdobrelia@mirantis.com" target="_blank">bdobrelia@mirantis.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On 17.11.2015 15:28, Kyrylo Galanov wrote:<br>
> Hi Team,<br>
<br>
Hello<br>
<span class=""><br>
><br>
> I have been testing fail-over after free disk space is less than 512 mb.<br>
> (<a href="https://review.openstack.org/#/c/240951/" rel="noreferrer" target="_blank">https://review.openstack.org/#/c/240951/</a>)<br>
> Affected node is stopped correctly and services migrate to a healthy node.<br>
><br>
> However, after free disk space is more than 512 mb again the node does<br>
> not recover it's state to operating. Moreover, starting the resources<br>
> manually would rather fail. In a nutshell, the pacemaker service / node<br>
> should be restarted. Detailed information is available<br>
> here: <a href="https://www.suse.com/documentation/sle_ha/book_sleha/data/sec_ha_configuration_basics_monitor_health.html" rel="noreferrer" target="_blank">https://www.suse.com/documentation/sle_ha/book_sleha/data/sec_ha_configuration_basics_monitor_health.html</a><br>
><br>
> How do we address this issue?<br>
<br>
</span>According to the docs you provided,<br>
" After a node's health status has turned to red, solve the issue that<br>
led to the problem. Then clear the red status to make the node eligible<br>
again for running resources. Log in to the cluster node and use one of<br>
the following methods:<br>
<br>
    Execute the following command:<br>
<br>
    crm node status-attr NODE delete #health_disk<br>
<br>
    Restart OpenAIS on that node.<br>
<br>
    Reboot the node.<br>
<br>
The node will be returned to service and can run resources again. "<br>
<br>
So this looks like an expected behaviour!<br>
<br>
What else could be done:<br>
- We should check if we have this nuance documented, and submit a bug to<br>
fuel-docs team, if not yet there.<br>
- Submitting a bug and inspecting logs would be nice to do as well.<br>
I believe some optimizations may be done, bearing in mind this pacemaker<br>
cluster-recheck-interval and failure-timeout story [0].<br>
<br>
[0]<br>
<a href="http://blog.kennyrasschaert.be/blog/2013/12/18/pacemaker-high-failability/" rel="noreferrer" target="_blank">http://blog.kennyrasschaert.be/blog/2013/12/18/pacemaker-high-failability/</a><br>
<span class="im HOEnZb"><br>
><br>
><br>
> Best regards,<br>
> Kyrylo<br>
><br>
><br>
> __________________________________________________________________________<br>
> OpenStack Development Mailing List (not for usage questions)<br>
> Unsubscribe: <a href="http://OpenStack-dev-request@lists.openstack.org?subject:unsubscribe" rel="noreferrer" target="_blank">OpenStack-dev-request@lists.openstack.org?subject:unsubscribe</a><br>
> <a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev" rel="noreferrer" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev</a><br>
><br>
<br>
<br>
</span><span class="HOEnZb"><font color="#888888">--<br>
Best regards,<br>
Bogdan Dobrelya,<br>
Irc #bogdando<br>
</font></span><div class="HOEnZb"><div class="h5"><br>
__________________________________________________________________________<br>
OpenStack Development Mailing List (not for usage questions)<br>
Unsubscribe: <a href="http://OpenStack-dev-request@lists.openstack.org?subject:unsubscribe" rel="noreferrer" target="_blank">OpenStack-dev-request@lists.openstack.org?subject:unsubscribe</a><br>
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev" rel="noreferrer" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature"><div dir="ltr"><div><div dir="ltr">Yours Faithfully,<br>Vladimir Kuklin,<br>Fuel Library Tech Lead,<br>Mirantis, Inc.<br>+7 (495) 640-49-04<br>+7 (926) 702-39-68<br>Skype kuklinvv<br>35bk3, Vorontsovskaya Str.<br>Moscow, Russia,<br><a href="http://www.mirantis.ru/" target="_blank">www.mirantis.com</a><br><a href="http://www.mirantis.ru/" target="_blank">www.mirantis.ru</a><br><a href="mailto:vkuklin@mirantis.com" target="_blank">vkuklin@mirantis.com</a></div></div></div></div>
</div>