]> arthur.barton.de Git - bup.git/blobdiff - lib/bup/metadata.py
vfs: use None for unknown uid/gid
[bup.git] / lib / bup / metadata.py
index 81c234fa2e2dcec7123ffe64dc68e4b9a712d248..d5b4b4ac30e902148c27fa45f27c64508daa1d7b 100644 (file)
@@ -4,30 +4,46 @@
 #
 # This code is covered under the terms of the GNU Library General
 # Public License as described in the bup LICENSE file.
-import errno, os, sys, stat, time, pwd, grp, socket
-from cStringIO import StringIO
-from bup import vint, xstat
+
+from __future__ import absolute_import, print_function
+from binascii import hexlify
+from copy import deepcopy
+from errno import EACCES, EINVAL, ENOTTY, ENOSYS, EOPNOTSUPP
+from io import BytesIO
+from time import gmtime, strftime
+import errno, os, sys, stat, time, pwd, grp, socket, struct
+
+from bup import compat, vint, xstat
+from bup.compat import py_maj
 from bup.drecurse import recursive_dirlist
-from bup.helpers import add_error, mkdirp, log, is_superuser
-from bup.helpers import pwd_from_uid, pwd_from_name, grp_from_gid, grp_from_name
+from bup.helpers import add_error, mkdirp, log, is_superuser, format_filesize
+from bup.io import path_msg
+from bup.pwdgrp import pwd_from_uid, pwd_from_name, grp_from_gid, grp_from_name
 from bup.xstat import utime, lutime
 
 xattr = None
 if sys.platform.startswith('linux'):
+    # prefer python-pyxattr (it's a lot faster), but fall back to python-xattr
+    # as the two are incompatible and only one can be installed on a system
     try:
         import xattr
     except ImportError:
         log('Warning: Linux xattr support missing; install python-pyxattr.\n')
-    if xattr:
+    if xattr and getattr(xattr, 'get_all', None) is None:
         try:
-            xattr.get_all
-        except AttributeError:
-            log('Warning: python-xattr module is too old; '
-                'install python-pyxattr instead.\n')
+            from xattr import pyxattr_compat as xattr
+            if not isinstance(xattr.NS_USER, bytes):
+                xattr = None
+        except ImportError:
             xattr = None
+        if xattr is None:
+            log('Warning: python-xattr module is too old; '
+                'upgrade or install python-pyxattr instead.\n')
 
 posix1e = None
-if not (sys.platform.startswith('cygwin') or sys.platform.startswith('darwin')):
+if not (sys.platform.startswith('cygwin') \
+        or sys.platform.startswith('darwin') \
+        or sys.platform.startswith('netbsd')):
     try:
         import posix1e
     except ImportError:
@@ -40,7 +56,20 @@ except ImportError:
     # not on Linux, in which case files don't have any linux attrs anyway, so
     # lacking the functions isn't a problem.
     get_linux_file_attr = set_linux_file_attr = None
-    
+
+
+# See the bup_get_linux_file_attr() comments.
+_suppress_linux_file_attr = \
+    sys.byteorder == 'big' and struct.calcsize('@l') > struct.calcsize('@i')
+
+def check_linux_file_attr_api():
+    global get_linux_file_attr, set_linux_file_attr
+    if not (get_linux_file_attr or set_linux_file_attr):
+        return
+    if _suppress_linux_file_attr:
+        log('Warning: Linux attr support disabled (see "bup help index").\n')
+        get_linux_file_attr = set_linux_file_attr = None
+
 
 # WARNING: the metadata encoding is *not* stable yet.  Caveat emptor!
 
@@ -56,7 +85,6 @@ except ImportError:
 # FIXME: Add nfsv4 acl handling - see nfs4-acl-tools.
 # FIXME: Consider other entries mentioned in stat(2) (S_IFDOOR, etc.).
 # FIXME: Consider pack('vvvvsss', ...) optimization.
-# FIXME: Consider caching users/groups.
 
 ## FS notes:
 #
@@ -100,59 +128,59 @@ def _clean_up_path_for_archive(p):
     result = p
 
     # Take everything after any '/../'.
-    pos = result.rfind('/../')
+    pos = result.rfind(b'/../')
     if pos != -1:
-        result = result[result.rfind('/../') + 4:]
+        result = result[result.rfind(b'/../') + 4:]
 
     # Take everything after any remaining '../'.
-    if result.startswith("../"):
+    if result.startswith(b"../"):
         result = result[3:]
 
     # Remove any '/./' sequences.
-    pos = result.find('/./')
+    pos = result.find(b'/./')
     while pos != -1:
-        result = result[0:pos] + '/' + result[pos + 3:]
-        pos = result.find('/./')
+        result = result[0:pos] + b'/' + result[pos + 3:]
+        pos = result.find(b'/./')
 
     # Remove any leading '/'s.
-    result = result.lstrip('/')
+    result = result.lstrip(b'/')
 
     # Replace '//' with '/' everywhere.
-    pos = result.find('//')
+    pos = result.find(b'//')
     while pos != -1:
-        result = result[0:pos] + '/' + result[pos + 2:]
-        pos = result.find('//')
+        result = result[0:pos] + b'/' + result[pos + 2:]
+        pos = result.find(b'//')
 
     # Take everything after any remaining './'.
-    if result.startswith('./'):
+    if result.startswith(b'./'):
         result = result[2:]
 
     # Take everything before any remaining '/.'.
-    if result.endswith('/.'):
+    if result.endswith(b'/.'):
         result = result[:-2]
 
-    if result == '' or result.endswith('/..'):
-        result = '.'
+    if result == b'' or result.endswith(b'/..'):
+        result = b'.'
 
     return result
 
 
 def _risky_path(p):
-    if p.startswith('/'):
+    if p.startswith(b'/'):
         return True
-    if p.find('/../') != -1:
+    if p.find(b'/../') != -1:
         return True
-    if p.startswith('../'):
+    if p.startswith(b'../'):
         return True
-    if p.endswith('/..'):
+    if p.endswith(b'/..'):
         return True
     return False
 
 
 def _clean_up_extract_path(p):
-    result = p.lstrip('/')
-    if result == '':
-        return '.'
+    result = p.lstrip(b'/')
+    if result == b'':
+        return b'.'
     elif _risky_path(result):
         return None
     else:
@@ -163,13 +191,17 @@ def _clean_up_extract_path(p):
 # must be unique, and must *never* be changed.
 _rec_tag_end = 0
 _rec_tag_path = 1
-_rec_tag_common = 2           # times, user, group, type, perms, etc.
+_rec_tag_common_v1 = 2 # times, user, group, type, perms, etc. (legacy/broken)
 _rec_tag_symlink_target = 3
 _rec_tag_posix1e_acl = 4      # getfacl(1), setfacl(1), etc.
-_rec_tag_nfsv4_acl = 5        # intended to supplant posix1e acls?
+_rec_tag_nfsv4_acl = 5        # intended to supplant posix1e? (unimplemented)
 _rec_tag_linux_attr = 6       # lsattr(1) chattr(1)
 _rec_tag_linux_xattr = 7      # getfattr(1) setfattr(1)
 _rec_tag_hardlink_target = 8 # hard link target path
+_rec_tag_common_v2 = 9 # times, user, group, type, perms, etc. (current)
+_rec_tag_common_v3 = 10  # adds optional size to v2
+
+_warned_about_attr_einval = None
 
 
 class ApplyError(Exception):
@@ -197,13 +229,15 @@ class Metadata:
     # must be non-negative and < 10**9.
 
     def _add_common(self, path, st):
+        assert(st.st_uid >= 0)
+        assert(st.st_gid >= 0)
+        self.size = st.st_size
         self.uid = st.st_uid
         self.gid = st.st_gid
-        self.rdev = st.st_rdev
         self.atime = st.st_atime
         self.mtime = st.st_mtime
         self.ctime = st.st_ctime
-        self.user = self.group = ''
+        self.user = self.group = b''
         entry = pwd_from_uid(st.st_uid)
         if entry:
             self.user = entry.pw_name
@@ -211,17 +245,25 @@ class Metadata:
         if entry:
             self.group = entry.gr_name
         self.mode = st.st_mode
+        # Only collect st_rdev if we might need it for a mknod()
+        # during restore.  On some platforms (i.e. kFreeBSD), it isn't
+        # stable for other file types.  For example "cp -a" will
+        # change it for a plain file.
+        if stat.S_ISCHR(st.st_mode) or stat.S_ISBLK(st.st_mode):
+            self.rdev = st.st_rdev
+        else:
+            self.rdev = 0
 
     def _same_common(self, other):
         """Return true or false to indicate similarity in the hardlink sense."""
         return self.uid == other.uid \
             and self.gid == other.gid \
             and self.rdev == other.rdev \
-            and self.atime == other.atime \
             and self.mtime == other.mtime \
             and self.ctime == other.ctime \
             and self.user == other.user \
-            and self.group == other.group
+            and self.group == other.group \
+            and self.size == other.size
 
     def _encode_common(self):
         if not self.mode:
@@ -229,7 +271,7 @@ class Metadata:
         atime = xstat.nsecs_to_timespec(self.atime)
         mtime = xstat.nsecs_to_timespec(self.mtime)
         ctime = xstat.nsecs_to_timespec(self.ctime)
-        result = vint.pack('VVsVsVvVvVvV',
+        result = vint.pack('vvsvsvvVvVvVv',
                            self.mode,
                            self.uid,
                            self.user,
@@ -241,23 +283,36 @@ class Metadata:
                            mtime[0],
                            mtime[1],
                            ctime[0],
-                           ctime[1])
+                           ctime[1],
+                           self.size if self.size is not None else -1)
         return result
 
-    def _load_common_rec(self, port):
+    def _load_common_rec(self, port, version=3):
+        if version == 3:
+            # Added trailing size to v2, negative when None.
+            unpack_fmt = 'vvsvsvvVvVvVv'
+        elif version == 2:
+            unpack_fmt = 'vvsvsvvVvVvV'
+        elif version == 1:
+            unpack_fmt = 'VVsVsVvVvVvV'
+        else:
+            raise Exception('unexpected common_rec version %d' % version)
         data = vint.read_bvec(port)
-        (self.mode,
-         self.uid,
-         self.user,
-         self.gid,
-         self.group,
-         self.rdev,
-         self.atime,
-         atime_ns,
-         self.mtime,
-         mtime_ns,
-         self.ctime,
-         ctime_ns) = vint.unpack('VVsVsVvVvVvV', data)
+        values = vint.unpack(unpack_fmt, data)
+        if version == 3:
+            (self.mode, self.uid, self.user, self.gid, self.group,
+             self.rdev,
+             self.atime, atime_ns,
+             self.mtime, mtime_ns,
+             self.ctime, ctime_ns, size) = values
+            if size >= 0:
+                self.size = size
+        else:
+            (self.mode, self.uid, self.user, self.gid, self.group,
+             self.rdev,
+             self.atime, atime_ns,
+             self.mtime, mtime_ns,
+             self.ctime, ctime_ns) = values
         self.atime = xstat.timespec_to_nsecs((self.atime, atime_ns))
         self.mtime = xstat.timespec_to_nsecs((self.mtime, mtime_ns))
         self.ctime = xstat.timespec_to_nsecs((self.ctime, ctime_ns))
@@ -273,49 +328,50 @@ class Metadata:
 
     def _create_via_common_rec(self, path, create_symlinks=True):
         if not self.mode:
-            raise ApplyError('no metadata - cannot create path ' + path)
+            raise ApplyError('no metadata - cannot create path '
+                             + path_msg(path))
 
         # If the path already exists and is a dir, try rmdir.
         # If the path already exists and is anything else, try unlink.
         st = None
         try:
             st = xstat.lstat(path)
-        except OSError, e:
+        except OSError as e:
             if e.errno != errno.ENOENT:
                 raise
         if st:
             if stat.S_ISDIR(st.st_mode):
                 try:
                     os.rmdir(path)
-                except OSError, e:
+                except OSError as e:
                     if e.errno in (errno.ENOTEMPTY, errno.EEXIST):
-                        msg = 'refusing to overwrite non-empty dir ' + path
-                        raise Exception(msg)
+                        raise Exception('refusing to overwrite non-empty dir '
+                                        + path_msg(path))
                     raise
             else:
                 os.unlink(path)
 
         if stat.S_ISREG(self.mode):
             assert(self._recognized_file_type())
-            fd = os.open(path, os.O_CREAT|os.O_WRONLY|os.O_EXCL, 0600)
+            fd = os.open(path, os.O_CREAT|os.O_WRONLY|os.O_EXCL, 0o600)
             os.close(fd)
         elif stat.S_ISDIR(self.mode):
             assert(self._recognized_file_type())
-            os.mkdir(path, 0700)
+            os.mkdir(path, 0o700)
         elif stat.S_ISCHR(self.mode):
             assert(self._recognized_file_type())
-            os.mknod(path, 0600 | stat.S_IFCHR, self.rdev)
+            os.mknod(path, 0o600 | stat.S_IFCHR, self.rdev)
         elif stat.S_ISBLK(self.mode):
             assert(self._recognized_file_type())
-            os.mknod(path, 0600 | stat.S_IFBLK, self.rdev)
+            os.mknod(path, 0o600 | stat.S_IFBLK, self.rdev)
         elif stat.S_ISFIFO(self.mode):
             assert(self._recognized_file_type())
-            os.mknod(path, 0600 | stat.S_IFIFO)
+            os.mkfifo(path, 0o600 | stat.S_IFIFO)
         elif stat.S_ISSOCK(self.mode):
             try:
-                os.mknod(path, 0600 | stat.S_IFSOCK)
-            except OSError, e:
-                if e.errno == errno.EINVAL:
+                os.mknod(path, 0o600 | stat.S_IFSOCK)
+            except OSError as e:
+                if e.errno in (errno.EINVAL, errno.EPERM):
                     s = socket.socket(socket.AF_UNIX, socket.SOCK_STREAM)
                     s.bind(path)
                 else:
@@ -326,7 +382,7 @@ class Metadata:
                 # on MacOS, symlink() permissions depend on umask, and there's
                 # no way to chown a symlink after creating it, so we have to
                 # be careful here!
-                oldumask = os.umask((self.mode & 0777) ^ 0777)
+                oldumask = os.umask((self.mode & 0o777) ^ 0o777)
                 try:
                     os.symlink(self.symlink_target, path)
                 finally:
@@ -335,18 +391,18 @@ class Metadata:
         else:
             assert(not self._recognized_file_type())
             add_error('not creating "%s" with unrecognized mode "0x%x"\n'
-                      % (path, self.mode))
+                      % (path_msg(path), self.mode))
 
     def _apply_common_rec(self, path, restore_numeric_ids=False):
         if not self.mode:
-            raise ApplyError('no metadata - cannot apply to ' + path)
+            raise ApplyError('no metadata - cannot apply to ' + path_msg(path))
 
         # FIXME: S_ISDOOR, S_IFMPB, S_IFCMP, S_IFNWK, ... see stat(2).
         # EACCES errors at this stage are fatal for the current path.
         if lutime and stat.S_ISLNK(self.mode):
             try:
                 lutime(path, (self.atime, self.mtime))
-            except OSError, e:
+            except OSError as e:
                 if e.errno == errno.EACCES:
                     raise ApplyError('lutime: %s' % e)
                 else:
@@ -354,19 +410,18 @@ class Metadata:
         else:
             try:
                 utime(path, (self.atime, self.mtime))
-            except OSError, e:
+            except OSError as e:
                 if e.errno == errno.EACCES:
                     raise ApplyError('utime: %s' % e)
                 else:
                     raise
 
-        # Implement tar/rsync-like semantics; see bup-restore(1).
-        # FIXME: should we consider caching user/group name <-> id
-        # mappings, getgroups(), etc.?
         uid = gid = -1 # By default, do nothing.
         if is_superuser():
-            uid = self.uid
-            gid = self.gid
+            if self.uid is not None:
+                uid = self.uid
+            if self.gid is not None:
+                gid = self.gid
             if not restore_numeric_ids:
                 if self.uid != 0 and self.user:
                     entry = pwd_from_name(self.user)
@@ -391,18 +446,21 @@ class Metadata:
         if uid != -1 or gid != -1:
             try:
                 os.lchown(path, uid, gid)
-            except OSError, e:
+            except OSError as e:
                 if e.errno == errno.EPERM:
                     add_error('lchown: %s' %  e)
                 elif sys.platform.startswith('cygwin') \
                    and e.errno == errno.EINVAL:
                     add_error('lchown: unknown uid/gid (%d/%d) for %s'
-                              %  (uid, gid, path))
+                              %  (uid, gid, path_msg(path)))
                 else:
                     raise
 
         if _have_lchmod:
-            os.lchmod(path, stat.S_IMODE(self.mode))
+            try:
+                os.lchmod(path, stat.S_IMODE(self.mode))
+            except errno.ENOSYS:  # Function not implemented
+                pass
         elif not stat.S_ISLNK(self.mode):
             os.chmod(path, stat.S_IMODE(self.mode))
 
@@ -425,14 +483,19 @@ class Metadata:
         try:
             if stat.S_ISLNK(st.st_mode):
                 self.symlink_target = os.readlink(path)
-        except OSError, e:
-            add_error('readlink: %s', e)
+        except OSError as e:
+            add_error('readlink: %s' % e)
 
     def _encode_symlink_target(self):
         return self.symlink_target
 
     def _load_symlink_target_rec(self, port):
-        self.symlink_target = vint.read_bvec(port)
+        target = vint.read_bvec(port)
+        self.symlink_target = target
+        if self.size is None:
+            self.size = len(target)
+        else:
+            assert(self.size == len(target))
 
 
     ## Hardlink targets
@@ -460,18 +523,31 @@ class Metadata:
     # The numeric/text distinction only matters when reading/restoring
     # a stored record.
     def _add_posix1e_acl(self, path, st):
-        if not posix1e: return
+        if not posix1e or not posix1e.HAS_EXTENDED_CHECK:
+            return
         if not stat.S_ISLNK(st.st_mode):
+            acls = None
+            def_acls = None
             try:
                 if posix1e.has_extended(path):
                     acl = posix1e.ACL(file=path)
-                    self.posix1e_acl = [acl, acl] # txt and num are the same
+                    acls = [acl, acl] # txt and num are the same
                     if stat.S_ISDIR(st.st_mode):
-                        acl = posix1e.ACL(filedef=path)
-                        self.posix1e_acl.extend([acl, acl])
-            except EnvironmentError, e:
+                        def_acl = posix1e.ACL(filedef=(path if py_maj < 3
+                                                       else path.decode('iso-8859-1')))
+                        def_acls = [def_acl, def_acl]
+            except EnvironmentError as e:
                 if e.errno not in (errno.EOPNOTSUPP, errno.ENOSYS):
                     raise
+            if acls:
+                txt_flags = posix1e.TEXT_ABBREVIATE
+                num_flags = posix1e.TEXT_ABBREVIATE | posix1e.TEXT_NUMERIC_IDS
+                acl_rep = [acls[0].to_any_text('', b'\n', txt_flags),
+                           acls[1].to_any_text('', b'\n', num_flags)]
+                if def_acls:
+                    acl_rep.append(def_acls[0].to_any_text('', b'\n', txt_flags))
+                    acl_rep.append(def_acls[1].to_any_text('', b'\n', num_flags))
+                self.posix1e_acl = acl_rep
 
     def _same_posix1e_acl(self, other):
         """Return true or false to indicate similarity in the hardlink sense."""
@@ -481,33 +557,34 @@ class Metadata:
         # Encode as two strings (w/default ACL string possibly empty).
         if self.posix1e_acl:
             acls = self.posix1e_acl
-            txt_flags = posix1e.TEXT_ABBREVIATE
-            num_flags = posix1e.TEXT_ABBREVIATE | posix1e.TEXT_NUMERIC_IDS
-            acl_reps = [acls[0].to_any_text('', '\n', txt_flags),
-                        acls[1].to_any_text('', '\n', num_flags)]
-            if len(acls) < 3:
-                acl_reps += ['', '']
-            else:
-                acl_reps.append(acls[2].to_any_text('', '\n', txt_flags))
-                acl_reps.append(acls[3].to_any_text('', '\n', num_flags))
-            return vint.pack('ssss',
-                             acl_reps[0], acl_reps[1], acl_reps[2], acl_reps[3])
+            if len(acls) == 2:
+                acls.extend([b'', b''])
+            return vint.pack('ssss', acls[0], acls[1], acls[2], acls[3])
         else:
             return None
 
     def _load_posix1e_acl_rec(self, port):
-        if not posix1e: return
-        data = vint.read_bvec(port)
-        acl_reps = vint.unpack('ssss', data)
-        if acl_reps[2] == '':
-            acl_reps = acl_reps[:2]
-        self.posix1e_acl = [posix1e.ACL(text=x) for x in acl_reps]
+        acl_rep = vint.unpack('ssss', vint.read_bvec(port))
+        if acl_rep[2] == b'':
+            acl_rep = acl_rep[:2]
+        self.posix1e_acl = acl_rep
 
     def _apply_posix1e_acl_rec(self, path, restore_numeric_ids=False):
-        def apply_acl(acl, kind):
+        def apply_acl(acl_rep, kind):
+            try:
+                acl = posix1e.ACL(text=acl_rep.decode('ascii'))
+            except IOError as e:
+                if e.errno == 0:
+                    # pylibacl appears to return an IOError with errno
+                    # set to 0 if a group referred to by the ACL rep
+                    # doesn't exist on the current system.
+                    raise ApplyError("POSIX1e ACL: can't create %r for %r"
+                                     % (acl_rep, path_msg(path)))
+                else:
+                    raise
             try:
                 acl.applyto(path, kind)
-            except IOError, e:
+            except IOError as e:
                 if e.errno == errno.EPERM or e.errno == errno.EOPNOTSUPP:
                     raise ApplyError('POSIX1e ACL applyto: %s' % e)
                 else:
@@ -516,7 +593,7 @@ class Metadata:
         if not posix1e:
             if self.posix1e_acl:
                 add_error("%s: can't restore ACLs; posix1e support missing.\n"
-                          % path)
+                          % path_msg(path))
             return
         if self.posix1e_acl:
             acls = self.posix1e_acl
@@ -534,20 +611,27 @@ class Metadata:
     ## Linux attributes (lsattr(1), chattr(1))
 
     def _add_linux_attr(self, path, st):
+        check_linux_file_attr_api()
         if not get_linux_file_attr: return
         if stat.S_ISREG(st.st_mode) or stat.S_ISDIR(st.st_mode):
             try:
                 attr = get_linux_file_attr(path)
                 if attr != 0:
                     self.linux_attr = attr
-            except OSError, e:
+            except OSError as e:
                 if e.errno == errno.EACCES:
                     add_error('read Linux attr: %s' % e)
-                elif e.errno == errno.ENOTTY or e.errno == errno.ENOSYS:
-                    # ENOTTY: Function not implemented.
-                    # ENOSYS: Inappropriate ioctl for device.
+                elif e.errno in (ENOTTY, ENOSYS, EOPNOTSUPP):
                     # Assume filesystem doesn't support attrs.
                     return
+                elif e.errno == EINVAL:
+                    global _warned_about_attr_einval
+                    if not _warned_about_attr_einval:
+                        log("Ignoring attr EINVAL;"
+                            + " if you're not using ntfs-3g, please report: "
+                            + path_msg(path) + '\n')
+                        _warned_about_attr_einval = True
+                    return
                 else:
                     raise
 
@@ -567,15 +651,21 @@ class Metadata:
 
     def _apply_linux_attr_rec(self, path, restore_numeric_ids=False):
         if self.linux_attr:
+            check_linux_file_attr_api()
             if not set_linux_file_attr:
                 add_error("%s: can't restore linuxattrs: "
-                          "linuxattr support missing.\n" % path)
+                          "linuxattr support missing.\n" % path_msg(path))
                 return
             try:
                 set_linux_file_attr(path, self.linux_attr)
-            except OSError, e:
-                if e.errno in (errno.ENOTTY, errno.EOPNOTSUPP, errno.ENOSYS):
-                    raise ApplyError('Linux chattr: %s' % e)
+            except OSError as e:
+                if e.errno in (EACCES, ENOTTY, EOPNOTSUPP, ENOSYS):
+                    raise ApplyError('Linux chattr: %s (0x%s)'
+                                     % (e, hex(self.linux_attr)))
+                elif e.errno == EINVAL:
+                    msg = "if you're not using ntfs-3g, please report"
+                    raise ApplyError('Linux chattr: %s (0x%s) (%s)'
+                                     % (e, hex(self.linux_attr), msg))
                 else:
                     raise
 
@@ -586,7 +676,7 @@ class Metadata:
         if not xattr: return
         try:
             self.linux_xattr = xattr.get_all(path, nofollow=True)
-        except EnvironmentError, e:
+        except EnvironmentError as e:
             if e.errno != errno.EOPNOTSUPP:
                 raise
 
@@ -605,7 +695,7 @@ class Metadata:
 
     def _load_linux_xattr_rec(self, file):
         data = vint.read_bvec(file)
-        memfile = StringIO(data)
+        memfile = BytesIO(data)
         result = []
         for i in range(vint.read_vuint(memfile)):
             key = vint.read_bvec(memfile)
@@ -617,33 +707,41 @@ class Metadata:
         if not xattr:
             if self.linux_xattr:
                 add_error("%s: can't restore xattr; xattr support missing.\n"
-                          % path)
+                          % path_msg(path))
             return
-        existing_xattrs = set(xattr.list(path, nofollow=True))
-        if self.linux_xattr:
-            for k, v in self.linux_xattr:
-                if k not in existing_xattrs \
-                        or v != xattr.get(path, k, nofollow=True):
-                    try:
-                        xattr.set(path, k, v, nofollow=True)
-                    except IOError, e:
-                        if e.errno == errno.EPERM \
-                                or e.errno == errno.EOPNOTSUPP:
-                            raise ApplyError('xattr.set: %s' % e)
-                        else:
-                            raise
-                existing_xattrs -= frozenset([k])
-            for k in existing_xattrs:
+        if not self.linux_xattr:
+            return
+        try:
+            existing_xattrs = set(xattr.list(path, nofollow=True))
+        except IOError as e:
+            if e.errno == errno.EACCES:
+                raise ApplyError('xattr.set %r: %s' % (path_msg(path), e))
+            else:
+                raise
+        for k, v in self.linux_xattr:
+            if k not in existing_xattrs \
+                    or v != xattr.get(path, k, nofollow=True):
                 try:
-                    xattr.remove(path, k, nofollow=True)
-                except IOError, e:
-                    if e.errno == errno.EPERM:
-                        raise ApplyError('xattr.remove: %s' % e)
+                    xattr.set(path, k, v, nofollow=True)
+                except IOError as e:
+                    if e.errno == errno.EPERM \
+                            or e.errno == errno.EOPNOTSUPP:
+                        raise ApplyError('xattr.set %r: %s' % (path_msg(path), e))
                     else:
                         raise
+            existing_xattrs -= frozenset([k])
+        for k in existing_xattrs:
+            try:
+                xattr.remove(path, k, nofollow=True)
+            except IOError as e:
+                if e.errno in (errno.EPERM, errno.EACCES):
+                    raise ApplyError('xattr.remove %r: %s' % (path_msg(path), e))
+                else:
+                    raise
 
     def __init__(self):
-        self.mode = None
+        self.mode = self.uid = self.gid = self.user = self.group = None
+        self.atime = self.mtime = self.ctime = None
         # optional members
         self.path = None
         self.size = None
@@ -652,11 +750,75 @@ class Metadata:
         self.linux_attr = None
         self.linux_xattr = None
         self.posix1e_acl = None
-        self.posix1e_acl_default = None
+
+    def __eq__(self, other):
+        if not isinstance(other, Metadata): return False
+        if self.mode != other.mode: return False
+        if self.mtime != other.mtime: return False
+        if self.ctime != other.ctime: return False
+        if self.atime != other.atime: return False
+        if self.path != other.path: return False
+        if self.uid != other.uid: return False
+        if self.gid != other.gid: return False
+        if self.size != other.size: return False
+        if self.user != other.user: return False
+        if self.group != other.group: return False
+        if self.symlink_target != other.symlink_target: return False
+        if self.hardlink_target != other.hardlink_target: return False
+        if self.linux_attr != other.linux_attr: return False
+        if self.posix1e_acl != other.posix1e_acl: return False
+        return True
+
+    def __ne__(self, other):
+        return not self.__eq__(other)
+
+    def __hash__(self):
+        return hash((self.mode,
+                     self.mtime,
+                     self.ctime,
+                     self.atime,
+                     self.path,
+                     self.uid,
+                     self.gid,
+                     self.size,
+                     self.user,
+                     self.group,
+                     self.symlink_target,
+                     self.hardlink_target,
+                     self.linux_attr,
+                     self.posix1e_acl))
+
+    def __repr__(self):
+        result = ['<%s instance at %s' % (self.__class__, hex(id(self)))]
+        if self.path is not None:
+            result += ' path:' + repr(self.path)
+        if self.mode is not None:
+            result += ' mode: %o (%s)' % (self.mode, xstat.mode_str(self.mode))
+        if self.uid is not None:
+            result += ' uid:' + str(self.uid)
+        if self.gid is not None:
+            result += ' gid:' + str(self.gid)
+        if self.user is not None:
+            result += ' user:' + repr(self.user)
+        if self.group is not None:
+            result += ' group:' + repr(self.group)
+        if self.size is not None:
+            result += ' size:' + repr(self.size)
+        for name, val in (('atime', self.atime),
+                          ('mtime', self.mtime),
+                          ('ctime', self.ctime)):
+            if val is not None:
+                result += ' %s:%r (%d)' \
+                          % (name,
+                             strftime('%Y-%m-%d %H:%M %z',
+                                      gmtime(xstat.fstime_floor_secs(val))),
+                             val)
+        result += '>'
+        return ''.join(result)
 
     def write(self, port, include_path=True):
         records = include_path and [(_rec_tag_path, self._encode_path())] or []
-        records.extend([(_rec_tag_common, self._encode_common()),
+        records.extend([(_rec_tag_common_v3, self._encode_common()),
                         (_rec_tag_symlink_target,
                          self._encode_symlink_target()),
                         (_rec_tag_hardlink_target,
@@ -671,10 +833,13 @@ class Metadata:
         vint.write_vuint(port, _rec_tag_end)
 
     def encode(self, include_path=True):
-        port = StringIO()
+        port = BytesIO()
         self.write(port, include_path)
         return port.getvalue()
 
+    def copy(self):
+        return deepcopy(self)
+
     @staticmethod
     def read(port):
         # This method should either return a valid Metadata object,
@@ -690,22 +855,24 @@ class Metadata:
             while True: # only exit is error (exception) or _rec_tag_end
                 if tag == _rec_tag_path:
                     result._load_path_rec(port)
-                elif tag == _rec_tag_common:
-                    result._load_common_rec(port)
+                elif tag == _rec_tag_common_v3:
+                    result._load_common_rec(port, version=3)
+                elif tag == _rec_tag_common_v2:
+                    result._load_common_rec(port, version=2)
                 elif tag == _rec_tag_symlink_target:
                     result._load_symlink_target_rec(port)
                 elif tag == _rec_tag_hardlink_target:
                     result._load_hardlink_target_rec(port)
                 elif tag == _rec_tag_posix1e_acl:
                     result._load_posix1e_acl_rec(port)
-                elif tag == _rec_tag_nfsv4_acl:
-                    result._load_nfsv4_acl_rec(port)
                 elif tag == _rec_tag_linux_attr:
                     result._load_linux_attr_rec(port)
                 elif tag == _rec_tag_linux_xattr:
                     result._load_linux_xattr_rec(port)
                 elif tag == _rec_tag_end:
                     return result
+                elif tag == _rec_tag_common_v1: # Should be very rare.
+                    result._load_common_rec(port, version=1)
                 else: # unknown record
                     vint.skip_bvec(port)
                 tag = vint.read_vuint(port)
@@ -725,17 +892,18 @@ class Metadata:
         if not path:
             raise Exception('Metadata.apply_to_path() called with no path')
         if not self._recognized_file_type():
-            add_error('not applying metadata to "%s"' % path
+            add_error('not applying metadata to "%s"' % path_msg(path)
                       + ' with unrecognized mode "0x%x"\n' % self.mode)
             return
         num_ids = restore_numeric_ids
-        try:
-            self._apply_common_rec(path, restore_numeric_ids=num_ids)
-            self._apply_posix1e_acl_rec(path, restore_numeric_ids=num_ids)
-            self._apply_linux_attr_rec(path, restore_numeric_ids=num_ids)
-            self._apply_linux_xattr_rec(path, restore_numeric_ids=num_ids)
-        except ApplyError, e:
-            add_error(e)
+        for apply_metadata in (self._apply_common_rec,
+                               self._apply_posix1e_acl_rec,
+                               self._apply_linux_attr_rec,
+                               self._apply_linux_xattr_rec):
+            try:
+                apply_metadata(path, restore_numeric_ids=num_ids)
+            except ApplyError as e:
+                add_error(e)
 
     def same_file(self, other):
         """Compare this to other for equivalency.  Return true if
@@ -750,11 +918,14 @@ class Metadata:
 
 
 def from_path(path, statinfo=None, archive_path=None,
-              save_symlinks=True, hardlink_target=None):
+              save_symlinks=True, hardlink_target=None,
+              normalized=False):
+    """Return the metadata associated with the path.  When normalized is
+    true, return the metadata appropriate for a typical save, which
+    may or may not be all of it."""
     result = Metadata()
     result.path = archive_path
     st = statinfo or xstat.lstat(path)
-    result.size = st.st_size
     result._add_common(path, st)
     if save_symlinks:
         result._add_symlink_target(path, st)
@@ -762,6 +933,10 @@ def from_path(path, statinfo=None, archive_path=None,
     result._add_posix1e_acl(path, st)
     result._add_linux_attr(path, st)
     result._add_linux_xattr(path, st)
+    if normalized:
+        # Only store sizes for regular files and symlinks for now.
+        if not (stat.S_ISREG(result.mode) or stat.S_ISLNK(result.mode)):
+            result.size = None
     return result
 
 
@@ -775,22 +950,35 @@ def save_tree(output_file, paths,
     for path in paths:
         safe_path = _clean_up_path_for_archive(path)
         if safe_path != path:
-            log('archiving "%s" as "%s"\n' % (path, safe_path))
+            log('archiving "%s" as "%s"\n'
+                % (path_msg(path), path_msg(safe_path)))
 
-    start_dir = os.getcwd()
-    try:
-        for (p, st) in recursive_dirlist(paths, xdev=xdev):
-            dirlist_dir = os.getcwd()
-            os.chdir(start_dir)
+    if not recurse:
+        for p in paths:
             safe_path = _clean_up_path_for_archive(p)
+            st = xstat.lstat(p)
+            if stat.S_ISDIR(st.st_mode):
+                safe_path += b'/'
             m = from_path(p, statinfo=st, archive_path=safe_path,
                           save_symlinks=save_symlinks)
             if verbose:
-                print >> sys.stderr, m.path
+                print(m.path, file=sys.stderr)
             m.write(output_file, include_path=write_paths)
-            os.chdir(dirlist_dir)
-    finally:
-        os.chdir(start_dir)
+    else:
+        start_dir = os.getcwd()
+        try:
+            for (p, st) in recursive_dirlist(paths, xdev=xdev):
+                dirlist_dir = os.getcwd()
+                os.chdir(start_dir)
+                safe_path = _clean_up_path_for_archive(p)
+                m = from_path(p, statinfo=st, archive_path=safe_path,
+                              save_symlinks=save_symlinks)
+                if verbose:
+                    print(m.path, file=sys.stderr)
+                m.write(output_file, include_path=write_paths)
+                os.chdir(dirlist_dir)
+        finally:
+            os.chdir(start_dir)
 
 
 def _set_up_path(meta, create_symlinks=True):
@@ -822,32 +1010,61 @@ all_fields = frozenset(['path',
                         'posix1e-acl'])
 
 
-def summary_str(meta):
-    mode_val = xstat.mode_str(meta.mode)
-    user_val = meta.user
-    if not user_val:
-        user_val = str(meta.uid)
-    group_val = meta.group
-    if not group_val:
-        group_val = str(meta.gid)
-    size_or_dev_val = '-'
-    if stat.S_ISCHR(meta.mode) or stat.S_ISBLK(meta.mode):
-        size_or_dev_val = '%d,%d' % (os.major(meta.rdev), os.minor(meta.rdev))
-    elif meta.size:
-        size_or_dev_val = meta.size
-    mtime_secs = xstat.fstime_floor_secs(meta.mtime)
-    time_val = time.strftime('%Y-%m-%d %H:%M', time.localtime(mtime_secs))
-    path_val = meta.path or ''
-    if stat.S_ISLNK(meta.mode):
-        path_val += ' -> ' + meta.symlink_target
-    return '%-10s %-11s %11s %16s %s' % (mode_val,
-                                         user_val + "/" + group_val,
-                                         size_or_dev_val,
-                                         time_val,
-                                         path_val)
-
-
-def detailed_str(meta, fields = None):
+def summary_bytes(meta, numeric_ids = False, classification = None,
+                  human_readable = False):
+    """Return bytes containing the "ls -l" style listing for meta.
+    Classification may be "all", "type", or None."""
+    user_str = group_str = size_or_dev_str = b'?'
+    symlink_target = None
+    if meta:
+        name = meta.path
+        mode_str = xstat.mode_str(meta.mode).encode('ascii')
+        symlink_target = meta.symlink_target
+        mtime_secs = xstat.fstime_floor_secs(meta.mtime)
+        mtime_str = strftime('%Y-%m-%d %H:%M',
+                             time.localtime(mtime_secs)).encode('ascii')
+        if meta.user and not numeric_ids:
+            user_str = meta.user
+        elif meta.uid != None:
+            user_str = str(meta.uid).encode()
+        if meta.group and not numeric_ids:
+            group_str = meta.group
+        elif meta.gid != None:
+            group_str = str(meta.gid).encode()
+        if stat.S_ISCHR(meta.mode) or stat.S_ISBLK(meta.mode):
+            if meta.rdev:
+                size_or_dev_str = ('%d,%d' % (os.major(meta.rdev),
+                                              os.minor(meta.rdev))).encode()
+        elif meta.size != None:
+            if human_readable:
+                size_or_dev_str = format_filesize(meta.size).encode()
+            else:
+                size_or_dev_str = str(meta.size).encode()
+        else:
+            size_or_dev_str = b'-'
+        if classification:
+            classification_str = \
+                xstat.classification_str(meta.mode,
+                                         classification == 'all').encode()
+    else:
+        mode_str = b'?' * 10
+        mtime_str = b'????-??-?? ??:??'
+        classification_str = b'?'
+
+    name = name or b''
+    if classification:
+        name += classification_str
+    if symlink_target:
+        name += b' -> ' + meta.symlink_target
+
+    return b'%-10s %-11s %11s %16s %s' % (mode_str,
+                                          user_str + b'/' + group_str,
+                                          size_or_dev_str,
+                                          mtime_str,
+                                          name)
+
+
+def detailed_bytes(meta, fields = None):
     # FIXME: should optional fields be omitted, or empty i.e. "rdev:
     # 0", "link-target:", etc.
     if not fields:
@@ -855,29 +1072,29 @@ def detailed_str(meta, fields = None):
 
     result = []
     if 'path' in fields:
-        path = meta.path or ''
-        result.append('path: ' + path)
+        path = meta.path or b''
+        result.append(b'path: ' + path)
     if 'mode' in fields:
-        result.append('mode: %s (%s)' % (oct(meta.mode),
-                                         xstat.mode_str(meta.mode)))
+        result.append(b'mode: %o (%s)'
+                      % (meta.mode, xstat.mode_str(meta.mode).encode('ascii')))
     if 'link-target' in fields and stat.S_ISLNK(meta.mode):
-        result.append('link-target: ' + meta.symlink_target)
+        result.append(b'link-target: ' + meta.symlink_target)
     if 'rdev' in fields:
         if meta.rdev:
-            result.append('rdev: %d,%d' % (os.major(meta.rdev),
-                                           os.minor(meta.rdev)))
+            result.append(b'rdev: %d,%d' % (os.major(meta.rdev),
+                                            os.minor(meta.rdev)))
         else:
-            result.append('rdev: 0')
-    if 'size' in fields and meta.size:
-        result.append('size: ' + str(meta.size))
+            result.append(b'rdev: 0')
+    if 'size' in fields and meta.size is not None:
+        result.append(b'size: %d' % meta.size)
     if 'uid' in fields:
-        result.append('uid: ' + str(meta.uid))
+        result.append(b'uid: %d' % meta.uid)
     if 'gid' in fields:
-        result.append('gid: ' + str(meta.gid))
+        result.append(b'gid: %d' % meta.gid)
     if 'user' in fields:
-        result.append('user: ' + meta.user)
+        result.append(b'user: ' + meta.user)
     if 'group' in fields:
-        result.append('group: ' + meta.group)
+        result.append(b'group: ' + meta.group)
     if 'atime' in fields:
         # If we don't have xstat.lutime, that means we have to use
         # utime(), and utime() has no way to set the mtime/atime of a
@@ -885,41 +1102,39 @@ def detailed_str(meta, fields = None):
         # so let's not report it.  (That way scripts comparing
         # before/after won't trigger.)
         if xstat.lutime or not stat.S_ISLNK(meta.mode):
-            result.append('atime: ' + xstat.fstime_to_sec_str(meta.atime))
+            result.append(b'atime: ' + xstat.fstime_to_sec_bytes(meta.atime))
         else:
-            result.append('atime: 0')
+            result.append(b'atime: 0')
     if 'mtime' in fields:
         if xstat.lutime or not stat.S_ISLNK(meta.mode):
-            result.append('mtime: ' + xstat.fstime_to_sec_str(meta.mtime))
+            result.append(b'mtime: ' + xstat.fstime_to_sec_bytes(meta.mtime))
         else:
-            result.append('mtime: 0')
+            result.append(b'mtime: 0')
     if 'ctime' in fields:
-        result.append('ctime: ' + xstat.fstime_to_sec_str(meta.ctime))
+        result.append(b'ctime: ' + xstat.fstime_to_sec_bytes(meta.ctime))
     if 'linux-attr' in fields and meta.linux_attr:
-        result.append('linux-attr: ' + hex(meta.linux_attr))
+        result.append(b'linux-attr: %x' % meta.linux_attr)
     if 'linux-xattr' in fields and meta.linux_xattr:
         for name, value in meta.linux_xattr:
-            result.append('linux-xattr: %s -> %s' % (name, repr(value)))
-    if 'posix1e-acl' in fields and meta.posix1e_acl and posix1e:
-        flags = posix1e.TEXT_ABBREVIATE
+            result.append(b'linux-xattr: %s -> %s' % (name, value))
+    if 'posix1e-acl' in fields and meta.posix1e_acl:
+        acl = meta.posix1e_acl[0]
+        result.append(b'posix1e-acl: ' + acl + b'\n')
         if stat.S_ISDIR(meta.mode):
-            acl = meta.posix1e_acl[0]
-            default_acl = meta.posix1e_acl[2]
-            result.append(acl.to_any_text('posix1e-acl: ', '\n', flags))
-            result.append(acl.to_any_text('posix1e-acl-default: ', '\n', flags))
-        else:
-            acl = meta.posix1e_acl[0]
-            result.append(acl.to_any_text('posix1e-acl: ', '\n', flags))
-    return '\n'.join(result)
+            def_acl = meta.posix1e_acl[2]
+            result.append(b'posix1e-acl-default: ' + def_acl + b'\n')
+    return b'\n'.join(result)
 
 
 class _ArchiveIterator:
-    def next(self):
+    def __next__(self):
         try:
             return Metadata.read(self._file)
         except EOFError:
             raise StopIteration()
 
+    next = __next__
+
     def __iter__(self):
         return self
 
@@ -927,25 +1142,27 @@ class _ArchiveIterator:
         self._file = file
 
 
-def display_archive(file):
+def display_archive(file, out):
     if verbose > 1:
         first_item = True
         for meta in _ArchiveIterator(file):
             if not first_item:
-                print
-            print detailed_str(meta)
+                out.write(b'\n')
+            out.write(detailed_bytes(meta))
+            out.write(b'\n')
             first_item = False
     elif verbose > 0:
         for meta in _ArchiveIterator(file):
-            print summary_str(meta)
+            out.write(summary_bytes(meta))
+            out.write(b'\n')
     elif verbose == 0:
         for meta in _ArchiveIterator(file):
             if not meta.path:
-                print >> sys.stderr, \
-                    'bup: no metadata path, but asked to only display path', \
-                    '(increase verbosity?)'
+                log('bup: no metadata path, but asked to only display path'
+                    ' (increase verbosity?)')
                 sys.exit(1)
-            print meta.path
+            out.write(meta.path)
+            out.write(b'\n')
 
 
 def start_extract(file, create_symlinks=True):
@@ -953,10 +1170,11 @@ def start_extract(file, create_symlinks=True):
         if not meta: # Hit end record.
             break
         if verbose:
-            print >> sys.stderr, meta.path
+            print(path_msg(meta.path), file=sys.stderr)
         xpath = _clean_up_extract_path(meta.path)
         if not xpath:
-            add_error(Exception('skipping risky path "%s"' % meta.path))
+            add_error(Exception('skipping risky path "%s"'
+                                % path_msg(meta.path)))
         else:
             meta.path = xpath
             _set_up_path(meta, create_symlinks=create_symlinks)
@@ -969,13 +1187,14 @@ def finish_extract(file, restore_numeric_ids=False):
             break
         xpath = _clean_up_extract_path(meta.path)
         if not xpath:
-            add_error(Exception('skipping risky path "%s"' % dir.path))
+            add_error(Exception('skipping risky path "%s"'
+                                % path_msg(meta.path)))
         else:
             if os.path.isdir(meta.path):
                 all_dirs.append(meta)
             else:
                 if verbose:
-                    print >> sys.stderr, meta.path
+                    print(path_msg(meta.path), file=sys.stderr)
                 meta.apply_to_path(path=xpath,
                                    restore_numeric_ids=restore_numeric_ids)
     all_dirs.sort(key = lambda x : len(x.path), reverse=True)
@@ -983,7 +1202,7 @@ def finish_extract(file, restore_numeric_ids=False):
         # Don't need to check xpath -- won't be in all_dirs if not OK.
         xpath = _clean_up_extract_path(dir.path)
         if verbose:
-            print >> sys.stderr, dir.path
+            print(path_msg(dir.path), file=sys.stderr)
         dir.apply_to_path(path=xpath, restore_numeric_ids=restore_numeric_ids)
 
 
@@ -996,24 +1215,25 @@ def extract(file, restore_numeric_ids=False, create_symlinks=True):
             break
         xpath = _clean_up_extract_path(meta.path)
         if not xpath:
-            add_error(Exception('skipping risky path "%s"' % meta.path))
+            add_error(Exception('skipping risky path "%s"'
+                                % path_msg(meta.path)))
         else:
             meta.path = xpath
             if verbose:
-                print >> sys.stderr, '+', meta.path
+                print('+', path_msg(meta.path), file=sys.stderr)
             _set_up_path(meta, create_symlinks=create_symlinks)
             if os.path.isdir(meta.path):
                 all_dirs.append(meta)
             else:
                 if verbose:
-                    print >> sys.stderr, '=', meta.path
+                    print('=', path_msg(meta.path), file=sys.stderr)
                 meta.apply_to_path(restore_numeric_ids=restore_numeric_ids)
     all_dirs.sort(key = lambda x : len(x.path), reverse=True)
     for dir in all_dirs:
         # Don't need to check xpath -- won't be in all_dirs if not OK.
         xpath = _clean_up_extract_path(dir.path)
         if verbose:
-            print >> sys.stderr, '=', xpath
+            print('=', path_msg(xpath), file=sys.stderr)
         # Shouldn't have to check for risky paths here (omitted above).
         dir.apply_to_path(path=dir.path,
                           restore_numeric_ids=restore_numeric_ids)