Cómo describir un data set

Ahora hemos importado los datos para el análisis, en este momento lo que debemos llevar a cabo es entender esos datos para planear de qué forma debemos seguir, para ello Python y mucho más particularmente Pandas tiene múltiples métodos incorporados que se tienen la posibilidad de utilizar para entender el género de datos o para poder ver la distribución de datos en el grupo de datos.

La utilización de estos métodos da una descripción general del grupo de datos y asimismo apunta probables inconvenientes, como un género de datos incorrecto, que tienen que solventarse mucho más adelante.

La necesidad de documentar los datos

Con estos ejemplos observamos la necesidad de ir alén de sencillamente almacenar los datos de entrenamiento. ¡Es requisito sostener información sobre el origen, las especificaciones y el viable encontronazo popular de los datos en sí!

En contestación a esta situación, nuevos análisis están compendiando estos peligros y sugiriendo la adopción de buenas prácticas para crear conjuntos de datos (Knowing Machines cuenta los trabajos mucho más importantes en el campo). Particularmente, varios de estos trabajos ofrecen pautas en general para la documentación de conjuntos de datos. Estas guías, inspiradas en los inconvenientes señalados por la red social, tienen como propósito atenuar los inconvenientes recurrentes que brotan de los conjuntos de datos y brindan maneras de medir métricas de prominente nivel como la igualdad popular, la intimidad o la trazabilidad de los datos.

Exploración de datos

En esta etapa veremos cuestiones como el tamaño de los datos, de qué forma se ven, haremos un pequeño análisis estadístico de sus atributos y vamos a reunirlos por enseñanzas. Todas estas acciones no es mucho más bien difícil que realizar un comando que asimismo puedes volver a utilizar constantemente en futuros proyectos. Específicamente, vamos a trabajar con la función shape, que nos va a dar las dimensiones del dataset, la función head, que nos mostrará los datos (le indicaremos el número de registros que deseamos que nos muestre), y la detalla función, que nos va a dar valores estadísticos. sobre el grupo de datos.

Nuestra recomendación es que pruebes uno a la vez todos los comandos que hallarás ahora. Puede escribirlos de manera directa o copiarlos y pegarlos en su Jupyter Notebook. (Use la barra de movimiento vertical para llegar en el final de la celda). Toda vez que añada una función, ejecute la celda empleando (Menú Celda/Realizar celdas).

Dónde localizar los conjuntos de datos

La utilización de estos elementos para entrar a información importante es poco a poco más común, con lo que hay varios sitios en Internet donde se puede entrar a ellos de manera libre y gratis.

Varios de los sitios mucho más atrayentes para entrar a conjuntos de datos públicos son:

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *