Data

Mimics torch.data.Dataset for ray.data integration

`RayDataset (IterableDataset)` ¶

Inplace Map for ray.data Time complexity: O(dataset size / parallelism)

See https://docs.ray.io/en/latest/data/dataset.html#transforming-datasets

Inplace Map for ray.data Time complexity: O(dataset size / parallelism) See https://docs.ray.io/en/latest/data/dataset.html#transforming-datasets

Read image datasets

    root/dog/xxx.png
    root/dog/xxy.png
    root/dog/[...]/xxz.png

    root/cat/123.png
    root/cat/nsdf3.png
    root/cat/[...]/asd932_.png

Data loader for image dataset

Create Dataset and Dataloader for image folder dataset.

Parameters:

Name	Type	Default
`directory`	`Union[List[str], pathlib.Path, str]`	required
`transform`		`None`
`image_size`		`(224, 224)`
`batch_size`	`int`	`1`
`shuffle`	`bool`	`False`
`pin_memory`	`bool`	`True`
`num_workers`	`Optional[int]`	`None`

Returns:

Type	Description
`Data`	A dictionary containing dataset and dataloader.

Provide some common functionalities/utilities for Datasets

Randomly splits dataset into two sets. Length of first split is len(data) * pct.

Parameters:

Name	Type	Description	Default
`data`	`Dataset`	pytorch Dataset object with `__len__` implementation.	required
`pct`		percentage of split.	`0.9`

Last update: October 13, 2021