<div dir="ltr">Got it, thanks!</div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature"><div><br></div><div>Thanks</div><div><br></div><div>Changbin<br></div></div></div>
<br><div class="gmail_quote">On Wed, Jul 22, 2015 at 4:19 PM, Clay Gerrard <span dir="ltr"><<a href="mailto:clay.gerrard@gmail.com" target="_blank">clay.gerrard@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote"><span class="">On Wed, Jul 22, 2015 at 12:24 PM, Changbin Liu <span dir="ltr"><<a href="mailto:changbin.liu@gmail.com" target="_blank">changbin.liu@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><br></div><div>But now I wonder: is it "by design" that EC does not handle an accidental deletion of just the data file? </div></div></blockquote><div><br></div></span><div>Well, the design goal was not "do not handle the accidental deletion of just the data file" - it was "make replication fast enough that it works" - and that required not listing all the dirs all the time.</div><span class=""><div>  </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>Deleting both data file and hashes.pkl file is more like a deliberately-created failure case instead of a normal one.  </div></div></blockquote><div><br></div></span><div>To me deleting some file that swift wrote to disk without updating (or removing) the index it normally updates during write/delete/replicate to accelerate replication seems like a deliberately created failure case?  You could try to flip a bit or truncate a data file and let the auditor pick it up.  Or rm a suffix and wait for the every-so-often suffixdir listdir to catch it, or remove an entire partition, or wipe a new filesystem onto the disk.  Or shutdown a node and do a PUT, then shutdown the handoff node, and run the reconstructor.  Any of the "normal" failure conditions like that (and plenty more!) are all detected by and handled efficiently.</div><span class=""><div><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>To me Swift EC repairing seems different from the triple-replication mode, where you delete any data file copy, it will be restored. </div><div> </div></div></blockquote><div><br></div></span><div>Well, replication and reconstruction are different in lots of ways - but not this part.  If you rm a .data file without updating the index you'll need some activity (post/copy/put/quarantine) in the suffix before the replication engine can notice.</div><div><br></div><div>Luckily (?) people don't often go under the covers into the middle of the storage system and rm data like that?</div><span class="HOEnZb"><font color="#888888"><div><br></div><div>-Clay</div></font></span></div></div></div>
<br>__________________________________________________________________________<br>
OpenStack Development Mailing List (not for usage questions)<br>
Unsubscribe: <a href="http://OpenStack-dev-request@lists.openstack.org?subject:unsubscribe" rel="noreferrer" target="_blank">OpenStack-dev-request@lists.openstack.org?subject:unsubscribe</a><br>
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev" rel="noreferrer" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-dev</a><br>
<br></blockquote></div><br></div>