Replication in hdfs is done not just for failure recovery, but mostly for performance - keep the data close to the computation - ideally MR steps can access only local storage.<div><br></div><div>If you're trying to run this on top of openstack you might want to create volumes that are not replicated at the openstack layer on which hdfs runs, which are separate from the more redundant volumes used for the VM's operating system.</div>
<div><br></div><div><div><br></div><div><br><br><div class="gmail_quote">On Mon, Nov 14, 2011 at 8:42 AM, Galloway, Michael D. <span dir="ltr"><<a href="mailto:gallowaymd@ornl.gov">gallowaymd@ornl.gov</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">Not sure it's a real answer. But you can set the replication in HDFS to be what you want, 1, 2, 3, etc. not sure HDFS replication 1 makes sense for your application, but it is configurable.<br>

<br>
--- michael<br>
<div><div class="adm"><div id="q_133a2642fa8da85c_1" class="ajR h4"><div class="ajT"></div></div></div><div class="h5"><br>
-----Original Message-----<br>
From: <a href="mailto:openstack-operators-bounces@lists.openstack.org">openstack-operators-bounces@lists.openstack.org</a> [mailto:<a href="mailto:openstack-operators-bounces@lists.openstack.org">openstack-operators-bounces@lists.openstack.org</a>] On Behalf Of Edmon Begoli<br>

Sent: Friday, November 11, 2011 10:30 PM<br>
To: <a href="mailto:openstack-operators@lists.openstack.org">openstack-operators@lists.openstack.org</a><br>
Subject: [Openstack-operators] Avoiding storage redundancy with Openstack redundant storage and HDFS 3xreplication<br>
<br>
A question related to standing up cloud infrastructure for running Hadoop/HDFS.<br>
<br>
We are building up an infrastructure using Openstack which has its own<br>
storage management redundancy.<br>
<br>
We are planning to use Openstack to instantiate Hadoop nodes (HDFS,<br>
M/R tasks, Hive, HBase)<br>
on demand.<br>
<br>
The problem is that HDFS by design creates three copies of the data,<br>
so there is a 4x times redundancy<br>
which we would prefer to avoid.<br>
<br>
I am asking here if anyone has had a similar case and if anyone has<br>
had any helpful solution to recommend.<br>
<br>
Thank you in advance,<br>
Edmon<br>
_______________________________________________<br>
Openstack-operators mailing list<br>
<a href="mailto:Openstack-operators@lists.openstack.org">Openstack-operators@lists.openstack.org</a><br>
</div></div>hxxp://<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-operators" target="_blank">lists.openstack.org/cgi-bin/mailman/listinfo/openstack-operators</a><br>
<div class="HOEnZb"><div class="adm"><div id="q_133a2642fa8da85c_3" class="ajR h4"><div class="ajT"></div></div></div><div class="h5"><br>
_______________________________________________<br>
Openstack-operators mailing list<br>
<a href="mailto:Openstack-operators@lists.openstack.org">Openstack-operators@lists.openstack.org</a><br>
<a href="http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-operators" target="_blank">http://lists.openstack.org/cgi-bin/mailman/listinfo/openstack-operators</a><br>
</div></div></blockquote></div><br></div></div>