El genio lingüístico: abril 2023

lunes, 10 de abril de 2023

wikipedia en un archivo

Para los Jupyter notebooks del Instituto Humai empecé buscando el dataset de Leo Cordoba en Hugging Face y encontré miracl-corpus, lo que parece ser la Wikipedia entera en español: un archivo XML de 3.7 GB. Todavía no termina de bajar, la descarga se ha interrumpido varias veces; aunque wget se reanuda, conforme llega al 98% se va alentando (ralentizando dicen en España, horrible). Empezó mejor que desde Firefox, pero igual y se lleva las siete horas descargando. Apenas he podido liberar espacio en disco. Porque, increíblemente, sí se lo acaba uno nada más en videos.

Desempacado, este corpus llega a los 16.7 GB. Uno comprueba la eficacia de los XML al pasarlo del disco local al externo: se copia en un santiamén. Esa es una de las características de ese lenguaje, la transmisión de datos.