[Datumaro] Pip installation (#881)

* Add version file * Remove unnecessary dependencies * Add lxml use motivation * Add pip setup script * Reduce opencv dependency * Fix cli command * Codacy
6 years ago · 59df0dfabc
parent 693e32e867
commit 59df0dfabc
17 changed files with 184 additions and 29 deletions
--- a/datumaro/datumaro/init.py
+++ b/datumaro/datumaro/init.py
@ -23,7 +23,7 @@ from .cli import (
    stats_command as stats_command_module,
    explain_command as explain_command_module,
 )
-from .components.config import VERSION
+from .version import VERSION
 KNOWN_COMMANDS = {
--- a/datumaro/datumaro/cli/explain_command.py
+++ b/datumaro/datumaro/cli/explain_command.py
@ -4,7 +4,6 @@
 # SPDX-License-Identifier: MIT
 import argparse
 import cv2
 import logging as log
 import os
 import os.path as osp
@ -13,7 +12,7 @@ from datumaro.components.project import Project
 from datumaro.components.algorithms.rise import RISE
 from datumaro.util.command_targets import (TargetKinds, target_selector,
    ProjectTarget, SourceTarget, ImageTarget, is_project_path)
-from datumaro.util.image import load_image
+from datumaro.util.image import load_image, save_image
 from .util.project import load_project
@ -60,6 +59,7 @@ def build_parser(parser=argparse.ArgumentParser()):
    return parser
 def explain_command(args):
    import cv2
    from matplotlib import cm
    project = load_project(args.project_dir)
@ -110,7 +110,7 @@ def explain_command(args):
            for j, heatmap in enumerate(heatmaps):
                save_path = osp.join(args.save_dir,
                    file_name + '-heatmap-%s.png' % j)
-                cv2.imwrite(save_path, heatmap * 255.0)
+                save_image(save_path, heatmap * 255.0)
        else:
            for j, heatmap in enumerate(heatmaps):
                disp = (image + cm.jet(heatmap)[:, :, 2::-1]) / 2
@ -151,7 +151,7 @@ def explain_command(args):
                for j, heatmap in enumerate(heatmaps):
                    save_path = osp.join(args.save_dir,
                        file_name + '-heatmap-%s.png' % j)
-                    cv2.imwrite(save_path, heatmap * 255.0)
+                    save_image(save_path, heatmap * 255.0)
            if args.progressive:
                for j, heatmap in enumerate(heatmaps):
--- a/datumaro/datumaro/cli/project/diff.py
+++ b/datumaro/datumaro/cli/project/diff.py
@ -4,7 +4,6 @@
 # SPDX-License-Identifier: MIT
 from collections import Counter
 import cv2
 from enum import Enum
 import numpy as np
 import os
@ -19,6 +18,7 @@ with warnings.catch_warnings():
    _formats.append('tensorboard')
 from datumaro.components.extractor import AnnotationType
 from datumaro.util.image import save_image
 Format = Enum('Formats', _formats)
@ -135,8 +135,13 @@ class DiffVisualizer:
    @classmethod
    def draw_text_with_background(cls, frame, text, origin,
-            font=cv2.FONT_HERSHEY_SIMPLEX, scale=1.0,
+            font=None, scale=1.0,
            color=(0, 0, 0), thickness=1, bgcolor=(1, 1, 1)):
        import cv2
        if not font:
            font = cv2.FONT_HERSHEY_SIMPLEX
        text_size, baseline = cv2.getTextSize(text, font, scale, thickness)
        cv2.rectangle(frame,
            tuple((origin + (0, baseline)).astype(int)),
@ -148,6 +153,8 @@ class DiffVisualizer:
        return text_size, baseline
    def draw_detection_roi(self, frame, x, y, w, h, label, conf, color):
        import cv2
        cv2.rectangle(frame, (x, y), (x + w, y + h), color, 2)
        text = '%s %.2f%%' % (label, 100.0 * conf)
@ -216,7 +223,7 @@ class DiffVisualizer:
            path = osp.join(self.save_dir, 'diff_%s' % item_a.id)
            if self.output_format is Format.simple:
-                cv2.imwrite(path + '.png', img)
+                save_image(path + '.png', img)
            elif self.output_format is Format.tensorboard:
                self.save_as_tensorboard(img, path)
--- a/datumaro/datumaro/components/algorithms/rise.py
+++ b/datumaro/datumaro/components/algorithms/rise.py
@ -5,7 +5,6 @@
 # pylint: disable=unused-variable
 import cv2
 import numpy as np
 from math import ceil
@ -79,6 +78,8 @@ class RISE:
        return np.reshape(mhmaps, heatmaps.shape)
    def apply(self, image, progressive=False):
        import cv2
        assert len(image.shape) == 3, \
            "Expected an input image in (H, W, C) format"
        assert image.shape[2] in [3, 4], \
--- a/datumaro/datumaro/components/config.py
+++ b/datumaro/datumaro/components/config.py
@ -234,5 +234,4 @@ class DefaultConfig(Config):
            return super().set(key, value)
 VERSION = '0.1.0'
 DEFAULT_FORMAT = 'datumaro'
--- a/datumaro/datumaro/components/converters/datumaro.py
+++ b/datumaro/datumaro/components/converters/datumaro.py
@ -5,7 +5,6 @@
 # pylint: disable=no-self-use
 import cv2
 import json
 import os
 import os.path as osp
@ -19,6 +18,7 @@ from datumaro.components.extractor import (
    LabelCategories, MaskCategories, PointsCategories
 )
 from datumaro.components.formats.datumaro import DatumaroPath
 from datumaro.util.image import save_image
 from datumaro.util.mask_tools import apply_colormap
@ -133,7 +133,7 @@ class _SubsetWriter:
            DatumaroPath.MASKS_DIR)
        os.makedirs(masks_dir, exist_ok=True)
        path = osp.join(masks_dir, filename)
-        cv2.imwrite(path, mask)
+        save_image(path, mask)
        return mask_id
    def _convert_mask_object(self, obj):
@ -279,7 +279,7 @@ class _Converter:
        image_path = osp.join(self._images_dir,
            str(item.id) + DatumaroPath.IMAGE_EXT)
-        cv2.imwrite(image_path, image)
+        save_image(image_path, image)
 class DatumaroConverter(Converter):
    def __init__(self, save_images=False, apply_colormap=False):
--- a/datumaro/datumaro/components/converters/ms_coco.py
+++ b/datumaro/datumaro/components/converters/ms_coco.py
@ -3,7 +3,6 @@
 #
 # SPDX-License-Identifier: MIT
 import cv2
 import json
 import numpy as np
 import os
@ -17,6 +16,7 @@ from datumaro.components.extractor import (
 )
 from datumaro.components.formats.ms_coco import CocoAnnotationType, CocoPath
 from datumaro.util import find
 from datumaro.util.image import save_image
 import datumaro.util.mask_tools as mask_tools
@ -374,7 +374,7 @@ class _Converter:
    def save_image(self, item, filename):
        path = osp.join(self._images_dir, filename)
-        cv2.imwrite(path, item.image)
+        save_image(path, item.image)
        return path
--- a/datumaro/datumaro/components/converters/voc.py
+++ b/datumaro/datumaro/components/converters/voc.py
@ -3,7 +3,6 @@
 #
 # SPDX-License-Identifier: MIT
 import cv2
 from collections import OrderedDict, defaultdict
 import os
 import os.path as osp
@ -14,6 +13,7 @@ from datumaro.components.extractor import DEFAULT_SUBSET_NAME, AnnotationType
 from datumaro.components.formats.voc import VocLabel, VocAction, \
    VocBodyPart, VocPose, VocTask, VocPath, VocColormap, VocInstColormap
 from datumaro.util import find
 from datumaro.util.image import save_image
 from datumaro.util.mask_tools import apply_colormap
@ -111,7 +111,7 @@ class _Converter:
                if self._save_images:
                    data = item.image
                    if data is not None:
-                        cv2.imwrite(osp.join(self._images_dir,
+                        save_image(osp.join(self._images_dir,
                                str(item_id) + VocPath.IMAGE_EXT),
                            data)
@ -334,7 +334,7 @@ class _Converter:
            if colormap is None:
                colormap = VocColormap
            data = apply_colormap(data, colormap)
-        cv2.imwrite(path, data)
+        save_image(path, data)
 class VocConverter(Converter):
    def __init__(self, task=None, save_images=False, apply_colormap=False):
--- a/datumaro/datumaro/components/dataset_filter.py
+++ b/datumaro/datumaro/components/dataset_filter.py
@ -3,7 +3,7 @@
 #
 # SPDX-License-Identifier: MIT
-from lxml import etree as ET
+from lxml import etree as ET # NOTE: lxml has proper XPath implementation
 from datumaro.components.extractor import (DatasetItem, Annotation,
    LabelObject, MaskObject, PointsObject, PolygonObject,
    PolyLineObject, BboxObject, CaptionObject,
--- a/datumaro/datumaro/components/extractor.py
+++ b/datumaro/datumaro/components/extractor.py
@ -182,7 +182,8 @@ class MaskObject(Annotation):
            return False
        return \
            (self.label == other.label) and \
-            (np.all(self.image == other.image))
+            (self.image is not None and other.image is not None and \
                np.all(self.image == other.image))
 def compute_iou(bbox_a, bbox_b):
    aX, aY, aW, aH = bbox_a
@ -461,7 +462,9 @@ class DatasetItem:
            (self.id == other.id) and \
            (self.subset == other.subset) and \
            (self.annotations == other.annotations) and \
-            (self.image == other.image)
+            (self.has_image == other.has_image) and \
            (self.has_image and np.all(self.image == other.image) or \
                not self.has_image)
 class IExtractor:
    def __iter__(self):
--- a/datumaro/datumaro/components/launchers/openvino.py
+++ b/datumaro/datumaro/components/launchers/openvino.py
@ -5,7 +5,6 @@
 # pylint: disable=exec-used
 import cv2
 import os
 import os.path as osp
 import numpy as np
@ -142,6 +141,8 @@ class OpenVinoLauncher(Launcher):
        self._net = plugin.load(network=network, num_requests=1)
    def infer(self, inputs):
        import cv2
        assert len(inputs.shape) == 4, \
            "Expected an input image in (N, H, W, C) format, got %s" % \
                (inputs.shape)
--- a/datumaro/datumaro/util/command_targets.py
+++ b/datumaro/datumaro/util/command_targets.py
@ -4,10 +4,10 @@
 # SPDX-License-Identifier: MIT
 import argparse
 import cv2
 from enum import Enum
 from datumaro.components.project import Project
 from datumaro.util.image import load_image
 TargetKinds = Enum('TargetKinds',
@ -50,7 +50,10 @@ def is_inference_path(value):
    return False
 def is_image_path(value):
-    return cv2.imread(value) is not None
+    try:
        return load_image(value) is not None
    except Exception:
        return False
 class Target:
--- a/datumaro/datumaro/util/image.py
+++ b/datumaro/datumaro/util/image.py
@ -3,9 +3,20 @@
 #
 # SPDX-License-Identifier: MIT
-import cv2
+# pylint: disable=unused-import
 import numpy as np
 from enum import Enum
 _IMAGE_BACKENDS = Enum('_IMAGE_BACKENDS', ['cv2', 'PIL'])
 _IMAGE_BACKEND = None
 try:
    import cv2
    _IMAGE_BACKEND = _IMAGE_BACKENDS.cv2
 except ModuleNotFoundError:
    import PIL
    _IMAGE_BACKEND = _IMAGE_BACKENDS.PIL
 from datumaro.util.image_cache import ImageCache as _ImageCache
@ -13,13 +24,39 @@ def load_image(path):
    """
    Reads an image in the HWC Grayscale/BGR(A) float [0; 255] format.
    """
-    image = cv2.imread(path)
+
-    image = image.astype(np.float32)
+    if _IMAGE_BACKEND == _IMAGE_BACKENDS.cv2:
        import cv2
        image = cv2.imread(path)
        image = image.astype(np.float32)
    elif _IMAGE_BACKEND == _IMAGE_BACKENDS.PIL:
        from PIL import Image
        image = Image.open(path)
        image = np.asarray(image, dtype=np.float32)
        if len(image.shape) == 3 and image.shape[2] in [3, 4]:
            image[:, :, :3] = image[:, :, 2::-1] # RGB to BGR
    else:
        raise NotImplementedError()
    assert len(image.shape) == 3
    assert image.shape[2] in [1, 3, 4]
    return image
 def save_image(path, image):
    if _IMAGE_BACKEND == _IMAGE_BACKENDS.cv2:
        import cv2
        cv2.imwrite(path, image)
    elif _IMAGE_BACKEND == _IMAGE_BACKENDS.PIL:
        from PIL import Image
        image = image.astype(np.uint8)
        if len(image.shape) == 3 and image.shape[2] in [3, 4]:
            image[:, :, :3] = image[:, :, 2::-1] # BGR to RGB
        image = Image.fromarray(image)
        image.save(path)
    else:
        raise NotImplementedError()
 class lazy_image:
    def __init__(self, path, loader=load_image, cache=None):
        self.path = path
--- a/datumaro/datumaro/version.py
+++ b/datumaro/datumaro/version.py
@ -0,0 +1 @@
 VERSION = '0.1.0'
--- a/datumaro/requirements.txt
+++ b/datumaro/requirements.txt
@ -6,6 +6,4 @@ opencv-python>=4.1.0.25
 Pillow>=6.1.0
 pycocotools>=2.0.0
 PyYAML>=5.1.1
 requests>=2.20.0
 tensorboard>=1.12.0
 tensorboardX>=1.8
--- a/datumaro/setup.py
+++ b/datumaro/setup.py
@ -0,0 +1,66 @@
 # Copyright (C) 2019 Intel Corporation
 #
 # SPDX-License-Identifier: MIT
 import os.path as osp
 import re
 import setuptools
 def find_version(file_path=None):
    if not file_path:
        file_path = osp.join(osp.dirname(osp.abspath(__file__)),
            'datumaro', 'version.py')
    with open(file_path, 'r') as version_file:
        version_text = version_file.read()
    # PEP440:
    # https://www.python.org/dev/peps/pep-0440/#appendix-b-parsing-version-strings-with-regular-expressions
    pep_regex = r'([1-9]\d*!)?(0|[1-9]\d*)(\.(0|[1-9]\d*))*((a|b|rc)(0|[1-9]\d*))?(\.post(0|[1-9]\d*))?(\.dev(0|[1-9]\d*))?'
    version_regex = r'VERSION\s*=\s*.(' + pep_regex + ').'
    match = re.match(version_regex, version_text)
    if not match:
        raise RuntimeError("Failed to find version string in '%s'" % file_path)
    version = version_text[match.start(1) : match.end(1)]
    return version
 with open('README.md', 'r') as fh:
    long_description = fh.read()
 setuptools.setup(
    name="datumaro",
    version=find_version(),
    author="Intel",
    author_email="maxim.zhiltsov@intel.com",
    description="Dataset Framework",
    long_description=long_description,
    long_description_content_type="text/markdown",
    url="https://github.com/opencv/cvat/datumaro",
    packages=setuptools.find_packages(exclude=['tests*']),
    classifiers=[
        "Programming Language :: Python :: 3",
        "License :: OSI Approved :: MIT License",
        "Operating System :: OS Independent",
    ],
    python_requires='>=3.5',
    install_requires=[
        'GitPython',
        'lxml',
        'matplotlib',
        'numpy',
        'opencv-python',
        'Pillow',
        'PyYAML',
        'pycocotools',
        'tensorboardX',
    ],
    entry_points={
        'console_scripts': [
            'datum=datumaro:main',
        ],
    },
 )
--- a/datumaro/tests/test_image.py
+++ b/datumaro/tests/test_image.py
@ -0,0 +1,39 @@
 from itertools import product
 import numpy as np
 import os.path as osp
 from unittest import TestCase
 import datumaro.util.image as image_module
 from datumaro.util.test_utils import TestDir
 class ImageTest(TestCase):
    def setUp(self):
        self.default_backend = image_module._IMAGE_BACKEND
    def tearDown(self):
        image_module._IMAGE_BACKEND = self.default_backend
    def _test_can_save_and_load(self, src_image, path,
            save_backend=None, load_backend=None):
        if save_backend:
            image_module._IMAGE_BACKEND = save_backend
        image_module.save_image(path, src_image)
        if load_backend:
            image_module._IMAGE_BACKEND = load_backend
        dst_image = image_module.load_image(path)
        self.assertTrue(np.all(src_image == dst_image), 'save: %s, load: %s' % \
            (save_backend, load_backend))
    def test_save_and_load_backends(self):
        backends = image_module._IMAGE_BACKENDS
        for save_backend, load_backend in product(backends, backends):
            with TestDir() as test_dir:
                src_image = np.random.random_integers(0, 255, (2, 4, 3))
                image_path = osp.join(test_dir.path, 'img.png')
                self._test_can_save_and_load(src_image, image_path,
                    save_backend, load_backend)