Importar múltiples archivos csv en pandas y concatenar en un DataFrame

Question

Más

Question

Importar múltiples archivos csv en pandas y concatenar en un DataFrame

Me gustaría leer varios archivos csv de un directorio en pandas y concatenarlos en un gran DataFrame. Sin embargo, no he sido capaz de resolverlo. Esto es lo que tengo hasta ahora:

import glob
import pandas as pd

# get data file names
path =r'C:\DRO\DCL_rawdata_files'
filenames = glob.glob(path + "/*.csv")

dfs = []
for filename in filenames:
    dfs.append(pd.read_csv(filename))

# Concatenate all data into one DataFrame
big_frame = pd.concat(dfs, ignore_index=True)

Supongo que necesito ayuda dentro del bucle for???

Maven Carvalho

Pregunta editada 20º octubre 2018 в 8:38

csv

pandas

Solution / Answer

5º abril 2016 в 2:47

Más

Una alternativa a darindaCoder's answer:

path = r'C:\DRO\DCL_rawdata_files'                     # use your path
all_files = glob.glob(os.path.join(path, "*.csv"))     # advisable to use os.path.join as this makes concatenation OS independent

df_from_each_file = (pd.read_csv(f) for f in all_files)
concatenated_df   = pd.concat(df_from_each_file, ignore_index=True)
# doesn't create a list, nor does it append to one

Community

Respuesta editada 23º mayo 2017 в 10:31

255

0

SKG

17º marzo 2016 в 10:44

Más

Editar: He buscado en Google mi camino en https://stackoverflow.com/a/21232849/186078. Sin embargo, últimamente estoy encontrando que es más rápido hacer cualquier manipulación usando numpy y luego asignarlo una vez al dataframe en lugar de manipular el propio dataframe de forma iterativa y parece que también funciona en esta solución.

Sinceramente, quiero que cualquiera que llegue a esta página considere este enfoque, pero no quiero adjuntar este enorme trozo de código como comentario y hacerlo menos legible.

Puedes aprovechar numpy para acelerar realmente la concatenación de los dataframes.

import os
import glob
import pandas as pd
import numpy as np

path = "my_dir_full_path"
allFiles = glob.glob(os.path.join(path,"*.csv"))

np_array_list = []
for file_ in allFiles:
    df = pd.read_csv(file_,index_col=None, header=0)
    np_array_list.append(df.as_matrix())

comb_np_array = np.vstack(np_array_list)
big_frame = pd.DataFrame(comb_np_array)

big_frame.columns = ["col1","col2"....]

Estadísticas de tiempo:

total files :192
avg lines per file :8492
--approach 1 without numpy -- 8.248656988143921 seconds ---
total records old :1630571
--approach 2 with numpy -- 2.289292573928833 seconds ---

SKG

Respuesta editada 17º julio 2017 в 6:54

12

0

Comunidades relacionadas 5

Python en español

10 322 usuarios

Grupo de discusión sobre el lenguaje Python en español

Abrir telegram

Sólo Python

559 usuarios

Lugar para compartir, disfrutar, aprender, etc. Y también hablar de Python. Interés: @Debian_es @tensorflow

Abrir telegram

python-docs-es

257 usuarios

Grupo de trabajo para la documentación oficial de Python en Español

Abrir telegram

Python en Español🖥

154 usuarios

Grupo creado con el fin de compartir tus conocimientos y ayudar en el lenguaje Python3, en Español

Abrir telegram

Python Español 2.0

88 usuarios

Grupo de Python en español Regla #1: No preguntes si puedes preguntar. Simplemente haz tu pregunta

Abrir telegram

Añadir pregunta

Categorías

Todo

Tecnología

Cultura / Recreación

Vida / Artes

Ciencia

Profesional

Negocios

Usuarios

Todo

Nuevo

Popular

1

Ксения Комарова

Registrado hace 1 mes

2

Артур «Апер»

Registrado hace 2 meses

3

Viktor Malyutin

Registrado hace 2 meses

4

Viktor Malyutin

Registrado hace 2 meses

5

Syahputra Zhedenk

Registrado hace 3 meses

¿Tiene alguna pregunta? Añádela en el sitio y obtén una respuesta al instante

es.kzen.dev

Gaurav Singh · Accepted Answer · 2014-01-20T11:29:19+00:00

Si tienes las mismas columnas en todos tus archivos csv entonces puedes probar el siguiente código. He añadido header=0 para que después de leer csv primera fila se puede asignar como los nombres de las columnas.

import pandas as pd
import glob

path = r'C:\DRO\DCL_rawdata_files' # use your path
all_files = glob.glob(path + "/*.csv")

li = []

for filename in all_files:
    df = pd.read_csv(filename, index_col=None, header=0)
    li.append(df)

frame = pd.concat(li, axis=0, ignore_index=True)