R – Datos web

Muchos sitios web proporcionan datos para el consumo de los usuarios. Por ejemplo, la Organización Mundial de la Salud (OMS) proporciona informes de salud e información médica en forma de archivos CSV, txt y XML. Con los programas R, podemos recuperar determinados datos de dichos sitios web mediante programación. Algunos de los paquetes en R que se utilizan para eliminar datos de Internet son «RCurl», XML «y» stringr «. Se utilizan para conectarse a URL, determinar los enlaces necesarios para los archivos y subirlos al entorno local. .

Instalar paquetes de R

Los siguientes paquetes son necesarios para manejar URL y enlaces de archivos. Si no están disponibles en su entorno R, puede instalarlos usando los siguientes comandos.

install.packages("RCurl")
install.packages("XML")
install.packages("stringr")
install.packages("plyr")

Los datos de entrada

Visitaremos la URL datos del tiempo y cargue los archivos CSV con 2015 R.

Ejemplo

Usaremos la función getHTMLLinks () para recopilar direcciones URL de archivos. Entonces usamos la función Subir archivo () para guardar archivos en el sistema local. Dado que aplicaremos el mismo código una y otra vez a varios archivos, crearemos una función que se llamará varias veces. Los nombres de archivo se pasan a esta función como parámetros como un objeto de lista R.

# Read the URL.
url <- "http://www.geos.ed.ac.uk/~weather/jcmb_ws/"

# Gather the html links present in the webpage.
links <- getHTMLLinks(url)

# Identify only the links which point to the JCMB 2015 files. 
filenames <- links[str_detect(links, "JCMB_2015")]

# Store the file names as a list.
filenames_list <- as.list(filenames)

# Create a function to download the files by passing the URL and filename list.
downloadcsv <- function (mainurl,filename) {
   filedetails <- str_c(mainurl,filename)
   download.file(filedetails,filename)
}

# Now apply the l_ply function and save the files into the current R working directory.
l_ply(filenames,downloadcsv,mainurl = "http://www.geos.ed.ac.uk/~weather/jcmb_ws/")

Verificar carga de archivo

Después de ejecutar el código anterior, puede encontrar los siguientes archivos en su directorio de trabajo actual R.

"JCMB_2015.csv" "JCMB_2015_Apr.csv" "JCMB_2015_Feb.csv" "JCMB_2015_Jan.csv"
   "JCMB_2015_Mar.csv"

🚫