

AWS Data Pipeline ya no está disponible para nuevos clientes. Los clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. [Más información](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Ejecución de trabajo en recursos existentes mediante Task Runner
<a name="dp-how-task-runner-user-managed"></a>

Puede instalar Task Runner en recursos informáticos que administre como, por ejemplo, una instancia Amazon EC2, o una estación de trabajo o un servidor físicos. Task Runner se puede instalar en cualquier lugar, en cualquier hardware o sistema operativo compatible, siempre que pueda comunicarse con el servicio AWS Data Pipeline web.

Este enfoque puede resultar útil cuando, por ejemplo, desee utilizarlo AWS Data Pipeline para procesar datos almacenados en el firewall de su organización. Al instalar Task Runner en un servidor de la red local, puede acceder a la base de datos local de forma segura y, a continuación, realizar un sondeo AWS Data Pipeline para ver si se ejecuta la siguiente tarea. Cuando AWS Data Pipeline termine de procesar o elimine la canalización, la instancia de Task Runner seguirá ejecutándose en tu recurso computacional hasta que la cierres manualmente. Los registros de Task Runner persisten después de que se haya completado la ejecución de la canalización. 

Para utilizar Task Runner en un recurso que administre, primero debe descargar Task Runner y, a continuación, instalarlo en el recurso informático mediante los procedimientos de esta sección. 

**nota**  
 Solo puede instalar Task Runner en Linux, UNIX o macOS. Task Runner no es compatible con el sistema operativo Windows.   
Para usar Task Runner 2.0, la versión mínima de Java necesaria es 1.7.

Para conectar un Task Runner que haya instalado con las actividades de canalización que debe procesar, añada un campo `workerGroup` al objeto y configure Task Runner para sondear ese valor de grupo de procesos de trabajo. Para ello, transfiera la cadena del grupo de procesos de trabajo en forma de parámetro (por ejemplo, `--workerGroup=wg-12345`) cuando ejecute el archivo JAR de Task Runner. 

![Data Pipeline sondea al ejecutor de tareas en un servidor que utiliza el parámetro wg-12345 de WorkerGroup.](http://docs.aws.amazon.com/es_es/datapipeline/latest/DeveloperGuide/images/dp-task-runner-user-emr-jobflow.png)


```
{
  "id" : "CreateDirectory",
  "type" : "ShellCommandActivity",
  "workerGroup" : "wg-12345",
  "command" : "mkdir new-directory"
}
```

## Instalación de Task Runner
<a name="dp-installing-taskrunner"></a>

En esta sección, se explica cómo instalar y configurar Task Runner y sus requisitos previos. La instalación es un proceso manual sencillo.

**Para instalar Task Runner**

1. Task Runner requiere las versiones de Java 1.6 o 1.8. Para determinar si se encuentra instalado Java y la versión que se está ejecutando, utilice el siguiente comando:

   ```
   java -version
   ```

    [Si no tiene Java 1.6 o 1.8 instalado en su equipo, descargue una de estas versiones desde http://www.oracle. com/technetwork/java/index.html](http://www.oracle.com/technetwork/java/index.html). Descargue e instale Java y, a continuación, continúe con el paso siguiente.

1. Descárguelo `TaskRunner-1.0.jar` desde [https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/ software/latest/TaskRunner/TaskRunner -1.0.jar](https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/software/latest/TaskRunner/TaskRunner-1.0.jar) y, a continuación, cópielo en una carpeta del recurso informático de destino. En los clústeres de Amazon EMR que ejecuten tareas `EmrActivity`, instale Task Runner en el nodo maestro del clúster.

1. Al usar Task Runner para conectarse al servicio AWS Data Pipeline web y procesar los comandos, los usuarios necesitan acceder mediante programación a un rol que tenga permisos para crear o administrar canalizaciones de datos. Para obtener más información, consulte [Concesión de acceso mediante programación](dp-get-setup.md#dp-grant-programmatic-access).

1. Task Runner se conecta al servicio AWS Data Pipeline web mediante HTTPS. Si utiliza un AWS recurso, asegúrese de que HTTPS esté habilitado en la tabla de enrutamiento y en la ACL de subred adecuadas. Si utiliza un firewall o un proxy, asegúrese de que el puerto 443 esté abierto.

## Iniciar Task Runner
<a name="dp-activate-task-runner"></a>

En una ventana de comandos nueva establecida en el directorio en el que haya instalado Task Runner, inicie Task Runner, con el siguiente comando.

```
java -jar TaskRunner-1.0.jar --config ~/{{credentials.json}} --workerGroup={{myWorkerGroup}} --region={{MyRegion}} --logUri=s3://{{amzn-s3-demo-bucket/foldername}}
```

La opción `--config` apunta a su archivo de credenciales.

La opción `--workerGroup` especifica el nombre del grupo de procesos de trabajo, que debe ser el mismo valor especificado en la canalización para las tareas que va a procesar.

La opción `--region` especifica la región de servicio desde la que extraer las tareas a ejecutar.

La opción `--logUri` se utiliza para enviar los registros comprimidos a una ubicación en Amazon S3.

Cuando Task Runner está activo, imprime la ruta donde se escriben los archivos de registro en la ventana de terminal. A continuación se muestra un ejemplo.

```
Logging to /Computer_Name/.../output/logs
```

Task Runner se debe ejecutar desconectada del shell de inicio de sesión. Si utiliza un terminal de aplicación para conectarse al equipo, puede que tenga que utilizar una utilidad como nohup o screen para evitar que la aplicación Task Runner se cierre al cerrar la sesión. Para obtener más información acerca de las opciones de línea de comandos, consulte [Opciones de configuración de Task Runner](dp-taskrunner-config-options.md).

## Verificación del registro de Task Runner
<a name="dp-verify-task-runner"></a>

La forma más sencilla de verificar si Task Runner está en funcionamiento es comprobar si está escribiendo archivos de registro. Task Runner escribe archivos de registro cada hora en el directorio, `output/logs`, bajo el directorio donde está instalado Task Runner. El nombre del archivo es `Task Runner.log.YYYY-MM-DD-HH`, donde HH va de 00 a 23, en UDT. Para ahorrar espacio de almacenamiento, los archivos de registro con una antigüedad superior a ocho horas se comprimen con GZip.