Safe Haskell	None
Language	Haskell2010

DataFrame.IO.CSV

Synopsis

chunkSize :: Int
data PagedVector a = PagedVector {
- pvChunks :: !(IORef [Vector a])
- pvActive :: !(IORef (IOVector a))
- pvCount :: !(IORef Int)
}
data PagedUnboxedVector a = PagedUnboxedVector {
- puvChunks :: !(IORef [Vector a])
- puvActive :: !(IORef (IOVector a))
- puvCount :: !(IORef Int)
}
data BuilderColumn
- = BuilderInt !(PagedUnboxedVector Int) !(PagedUnboxedVector Word8)
- | BuilderDouble !(PagedUnboxedVector Double) !(PagedUnboxedVector Word8)
- | BuilderText !(PagedVector Text) !(PagedUnboxedVector Word8)
- | BuilderBS !(PagedVector ByteString) !(PagedUnboxedVector Word8)
newPagedVector :: IO (PagedVector a)
newPagedUnboxedVector :: Unbox a => IO (PagedUnboxedVector a)
appendPagedVector :: PagedVector a -> a -> IO ()
appendPagedUnboxedVector :: Unbox a => PagedUnboxedVector a -> a -> IO ()
freezePagedVector :: PagedVector a -> IO (Vector a)
freezePagedUnboxedVector :: Unbox a => PagedUnboxedVector a -> IO (Vector a)
data HeaderSpec
- = NoHeader
- | UseFirstRow
- | ProvideNames [Text]
data TypeSpec
- = InferFromSample Int
- | SpecifyTypes [(Text, SchemaType)]
- | NoInference
data ReadOptions = ReadOptions {
- headerSpec :: HeaderSpec
- typeSpec :: TypeSpec
- safeRead :: Bool
- dateFormat :: String
- columnSeparator :: Char
- numColumns :: Maybe Int
- missingIndicators :: [Text]
}
shouldInferFromSample :: TypeSpec -> Bool
schemaTypeMap :: TypeSpec -> Map Text SchemaType
typeInferenceSampleSize :: TypeSpec -> Int
defaultReadOptions :: ReadOptions
readCsv :: FilePath -> IO DataFrame
readCsvWithOpts :: ReadOptions -> FilePath -> IO DataFrame
readTsv :: FilePath -> IO DataFrame
readSeparated :: ReadOptions -> FilePath -> IO DataFrame
decodeSeparated :: ReadOptions -> ByteString -> IO DataFrame
initializeColumns :: [Text] -> [ByteString] -> ReadOptions -> IO [BuilderColumn]
processStream :: [Text] -> Records (Vector ByteString) -> Vector BuilderColumn -> Maybe Int -> IO ()
processRow :: [Text] -> Vector ByteString -> Vector BuilderColumn -> IO ()
freezeBuilderColumn :: BuilderColumn -> IO Column
finalizeBuilderColumn :: ReadOptions -> BuilderColumn -> IO Column
inferColumnFromBS :: ReadOptions -> Vector ByteString -> Vector Word8 -> Column
makeParsingAssumptionBS :: String -> Vector (Maybe ByteString) -> ParsingAssumption
handleBSBool :: Vector (Maybe ByteString) -> Column
handleBSInt :: String -> Vector (Maybe ByteString) -> Column
handleBSDouble :: Vector (Maybe ByteString) -> Column
handleBSDate :: String -> Vector (Maybe ByteString) -> Column
handleBSText :: Vector (Maybe ByteString) -> Column
handleBSNo :: String -> Vector (Maybe ByteString) -> Column
constructOptional :: (Unbox a, Columnable a) => Vector a -> Vector Word8 -> IO Column
constructOptionalBoxed :: Vector Text -> Vector Word8 -> IO Column
writeCsv :: FilePath -> DataFrame -> IO ()
writeTsv :: FilePath -> DataFrame -> IO ()
writeSeparated :: Char -> FilePath -> DataFrame -> IO ()
getRowAsText :: DataFrame -> Int -> [Text]
stripQuotes :: Text -> Text

Documentation

chunkSize :: Int Source #

data PagedVector a Source #

Constructors

PagedVector
Fields pvChunks :: !(IORef [Vector a]) Finished chunks (reverse order) pvActive :: !(IORef (IOVector a)) Current mutable chunk pvCount :: !(IORef Int) Items written in current chunk

data PagedUnboxedVector a Source #

Constructors

PagedUnboxedVector
Fields puvChunks :: !(IORef [Vector a]) puvActive :: !(IORef (IOVector a)) puvCount :: !(IORef Int)

data BuilderColumn Source #

Constructors

BuilderInt !(PagedUnboxedVector Int) !(PagedUnboxedVector Word8)
BuilderDouble !(PagedUnboxedVector Double) !(PagedUnboxedVector Word8)
BuilderText !(PagedVector Text) !(PagedUnboxedVector Word8)
BuilderBS !(PagedVector ByteString) !(PagedUnboxedVector Word8)

newPagedVector :: IO (PagedVector a) Source #

newPagedUnboxedVector :: Unbox a => IO (PagedUnboxedVector a) Source #

appendPagedVector :: PagedVector a -> a -> IO () Source #

appendPagedUnboxedVector :: Unbox a => PagedUnboxedVector a -> a -> IO () Source #

freezePagedVector :: PagedVector a -> IO (Vector a) Source #

freezePagedUnboxedVector :: Unbox a => PagedUnboxedVector a -> IO (Vector a) Source #

data HeaderSpec Source #

STANDARD CONFIG TYPES

Constructors

NoHeader
UseFirstRow
ProvideNames [Text]

Instances

Instances details

Show HeaderSpec Source #
Instance details Defined in DataFrame.IO.CSV Methods showsPrec :: Int -> HeaderSpec -> ShowS # show :: HeaderSpec -> String # showList :: [HeaderSpec] -> ShowS #
Eq HeaderSpec Source #
Instance details Defined in DataFrame.IO.CSV Methods (==) :: HeaderSpec -> HeaderSpec -> Bool # (/=) :: HeaderSpec -> HeaderSpec -> Bool #

data TypeSpec Source #

Constructors

InferFromSample Int
SpecifyTypes [(Text, SchemaType)]
NoInference

data ReadOptions Source #

CSV read parameters.

Constructors

ReadOptions

Fields

headerSpec :: HeaderSpec
Where to get the headers from. (default: UseFirstRow)
typeSpec :: TypeSpec
Whether/how to infer types. (default: InferFromSample 100)
safeRead :: Bool
Whether to partially parse values into Maybe/Either. (default: True)

dateFormat :: String

Format of date fields as recognized by the Data.Time.Format module.

Examples:

   > parseTimeM True defaultTimeLocale "%Y%-m%-d" "2010304" :: Maybe Day
   Just 2010-03-04
   > parseTimeM True defaultTimeLocale "%d%-m%-Y" "0432010" :: Maybe Day
   Just 2010-03-04

columnSeparator :: Char
Character that separates column values.
numColumns :: Maybe Int
Number of columns to read.
missingIndicators :: [Text]
Values that should be read as Nothing.

shouldInferFromSample :: TypeSpec -> Bool Source #

schemaTypeMap :: TypeSpec -> Map Text SchemaType Source #

typeInferenceSampleSize :: TypeSpec -> Int Source #

defaultReadOptions :: ReadOptions Source #

readCsv :: FilePath -> IO DataFrame Source #

Read CSV file from path and load it into a dataframe.

Example

Expand

ghci> D.readCsv "./data/taxi.csv"

readCsvWithOpts :: ReadOptions -> FilePath -> IO DataFrame Source #

Read CSV file from path and load it into a dataframe.

Example

Expand

ghci> D.readCsvWithOpts "./data/taxi.csv" (D.defaultReadOptions { dateFormat = "%d%-m%-Y" })

readTsv :: FilePath -> IO DataFrame Source #

Read TSV (tab separated) file from path and load it into a dataframe.

Example

Expand

ghci> D.readTsv "./data/taxi.tsv"

readSeparated :: ReadOptions -> FilePath -> IO DataFrame Source #

Read text file with specified delimiter into a dataframe.

Example

Expand

ghci> D.readSeparated (D.defaultReadOptions { columnSeparator = ';' }) "./data/taxi.txt"

decodeSeparated :: ReadOptions -> ByteString -> IO DataFrame Source #

initializeColumns :: [Text] -> [ByteString] -> ReadOptions -> IO [BuilderColumn] Source #

processStream :: [Text] -> Records (Vector ByteString) -> Vector BuilderColumn -> Maybe Int -> IO () Source #

processRow :: [Text] -> Vector ByteString -> Vector BuilderColumn -> IO () Source #

freezeBuilderColumn :: BuilderColumn -> IO Column Source #

finalizeBuilderColumn :: ReadOptions -> BuilderColumn -> IO Column Source #

inferColumnFromBS :: ReadOptions -> Vector ByteString -> Vector Word8 -> Column Source #

makeParsingAssumptionBS :: String -> Vector (Maybe ByteString) -> ParsingAssumption Source #

handleBSBool :: Vector (Maybe ByteString) -> Column Source #

handleBSInt :: String -> Vector (Maybe ByteString) -> Column Source #

handleBSDouble :: Vector (Maybe ByteString) -> Column Source #

handleBSDate :: String -> Vector (Maybe ByteString) -> Column Source #

handleBSText :: Vector (Maybe ByteString) -> Column Source #

handleBSNo :: String -> Vector (Maybe ByteString) -> Column Source #

constructOptional :: (Unbox a, Columnable a) => Vector a -> Vector Word8 -> IO Column Source #

constructOptionalBoxed :: Vector Text -> Vector Word8 -> IO Column Source #

writeCsv :: FilePath -> DataFrame -> IO () Source #

writeTsv :: FilePath -> DataFrame -> IO () Source #

writeSeparated Source #

Arguments

:: Char	Separator
-> FilePath	Path to write to
-> DataFrame
-> IO ()

getRowAsText :: DataFrame -> Int -> [Text] Source #

stripQuotes :: Text -> Text Source #