Qué es un Dataset en machine learning
Los conjuntos de datos en Machine Learning son conjuntos de datos históricos que sirven como base para entrenar un algoritmo a fin de que una máquina logre tomar resoluciones. Estas resoluciones se van a tomar exactamente desde los datos proporcionados por el Dataset. El que se subdivide en especificaciones, propósito y muestras. Donde las especificaciones son elementos para la toma de resoluciones como tamaño, color, antigüedad, área, etcétera. Las muestras son los valores de las peculiaridades y el propósito es casi la categoría y esta se aúna siempre y cuando se conoce el apunte como 1=Cat , 2 = Perro.
Los conjuntos de datos (o jeux de données) se emplean generalmente en la educación automático. Ils reagrupaba un grupo de mujeres congruentes que no podían presentarse en distintas formatos (contenidos escritos, chiffres, imágenes, vídeos, etcétera…).
Los conjuntos de datos tienen la posibilidad de no estar representados en diversos tipos, que ce soient des tableaux, des graphes, des arbres ou autres. On travaille souvent avec desstructures de tableaux dans les algoritmos de Machine Learning.
Revisar que el valor que se encuentra en un grupo de datos está asociado con un atributo y una observación.
Géneros de Datasets
Hay 4 géneros de Datasets clasificados según su origen y formato, que se usan según las pretensiones de los modelos de datos a trabajar.
- Fichero: es un fichero sin dependencia en el que se guarda toda la información a trabajar. Sus virtudes son la seguridad y velocidad en el momento de trabajar con los datos, en tanto que siempre y en todo momento se explotan y visualizan de forma local, no obstante, se hace difícil la escalabilidad y conexión con otros Datasets que no estén guardados en exactamente la misma máquina.
- Carpeta: es la suma de distintas Datasets guardados en una sola carpeta, que están conectados entre sí. Estos ficheros tienen que comunicar exactamente el mismo formato, como .csv, .mif o dxf.
- Bases de datos: esta clase de Dataset se puede confundir con el fichero, pero se distingue por su nivel de especialidad, esto es, son bases de datos con formatos concretos diseñados para programas concretos. Por servirnos de un ejemplo, las bases de datos Oracle, que solo marchan para sus desarrollos.
- Web: es la recopilación de datos que se guarda en un portal de internet. El nombre que se asigna predeterminado a este Dataset es el pertinente a la dirección de Internet.
¿Para qué exactamente sirve el Big Data?
Big data no es solo un grupo o múltiples conjuntos de datos y también información sin ningún sentido. La meta de este es guardar información sobre un aspecto que se quiere entender, por servirnos de un ejemplo, el número de clientes apasionados en un producto.
Esta información se junta y con una herramienta de análisis de Big Data conseguimos desenlaces que nos asistirán a tomar mejores resoluciones estratégicas para accionar consecuentemente.
Otros productos que tienen la posibilidad de interesarle:
- The New York Times busca estudio automático para entender el accionar de los que leen. mediante Gigaom.com
- ¡La educación automático es entretenido! mediante medium.com
- Predicción de CTR con estudio automático on line. por medio de mlwave.com
Muéstrame este producto en inglés.