| DataFrame | pandas | Tabular data, CSV/Parquet | | Array | NumPy | Numerical arrays, matrices | | Bag | list | Unstructured data, JSON logs | | Delayed | Custom | Arbitrary Python functions |
Key concept: All collections are lazy—computation happens only when you call .compute().
| dd.readcsv() | Lazy load | Large CSVs | | dd.readparquet() | Lazy load | Large Parquet | | Operations | Build graph | Chain transforms | | .compute() | Execute | Get final result |
Используйте, когда «Dask», «параллельные вычисления», «распределенные вычисления», «больше, чем память» или спрашивают о «параллельных пандах», «параллельных вычислениях», «вне ядра», «многофайловой обработке», «кластерных вычислениях», «кадре данных ленивой оценки». Источник: eyadsibai/ltk.