

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Creación de tablas
<a name="creating-tables"></a>

AWS Lake Formation las tablas de metadatos contienen información sobre los datos del lago de datos, incluida la información del esquema, la información de particiones y la ubicación de los datos. Estas tablas se almacenan en el Catálogo de datos de AWS Glue. Se utilizan para acceder a los datos subyacentes del lago de datos y administrarlos con los permisos de Lake Formation. Las tablas se almacenan dentro de bases de datos en el Catálogo de datos.

Hay varias formas de crear tablas del Catálogo de datos:
+ Ejecutar un rastreador en AWS Glue. Consulte [Definición de rastreadores](https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html) en la *Guía para desarrolladores de AWS Glue *.
+ Crear y ejecutar un flujo de trabajo. Consulte [Importación de datos mediante flujos de trabajo en Lake Formation](workflows.md).
+ Cree una tabla manualmente utilizando la consola de Lake Formation, la API de AWS Glue o la AWS Command Line Interface (AWS CLI).
+ Cree una tabla con Amazon Athena.
+ Crea un enlace de recurso a una tabla en una cuenta externa. Consulte [Creación de enlaces de recursos](creating-resource-links.md).

# Creación de tablas de Apache Iceberg
<a name="creating-iceberg-tables"></a>

 AWS Lake Formation admite la creación de tablas Apache Iceberg que utilizan el formato de datos Apache Parquet AWS Glue Data Catalog con datos que residen en Amazon S3. Una tabla en el Catálogo de datos es la definición de metadatos que representa los datos en un almacén de datos. De forma predeterminada, Lake Formation crea tablas Iceberg v2. Para ver la diferencia entre las tablas v1 y v2, consulte [Cambios de versión de formato](https://iceberg.apache.org/spec/#appendix-e-format-version-changes) en la documentación de Apache Iceberg.

 [Apache Iceberg](https://iceberg.apache.org/) es un formato de tabla abierto para conjuntos de datos analíticos muy grandes. Iceberg permite modificar fácilmente su esquema, o evolución del esquema, de manera que los usuarios pueden añadir, renombrar o eliminar columnas de una tabla de datos sin alterar los datos subyacentes. Iceberg también ofrece compatibilidad con el control de versiones de datos, que permite a los usuarios hacer un seguimiento de los cambios en los datos a lo largo del tiempo. Esto habilita la característica de viaje en el tiempo, con la que los usuarios pueden acceder a versiones históricas de los datos y consultarlas, así como analizar los cambios en los datos entre actualizaciones y eliminaciones.

Puede usar la consola de Lake Formation o la `CreateTable` operación de la AWS Glue API para crear una tabla Iceberg en el catálogo de datos. Para obtener más información, consulte [CreateTable action (Python: create\$1table](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-catalog-tables.html#aws-glue-api-catalog-tables-CreateTable)).

Cuando cree una tabla de Iceberg en el Catálogo de datos, deberá especificar el formato de la tabla y la ruta del archivo de metadatos en Amazon S3 para poder hacer lecturas y escrituras.

 Puede usar Lake Formation para proteger su mesa de iceberg mediante permisos de control de acceso detallados al registrar la ubicación de datos de Amazon S3. AWS Lake Formation En el caso de los datos fuente de Amazon S3 y los metadatos que no estén registrados en Lake Formation, el acceso viene determinado por las políticas de permisos y AWS Glue acciones de IAM para Amazon S3. Para obtener más información, consulte [Administrar los permisos de Lake Formation](managing-permissions.md). 

**nota**  
El Catálogo de datos no admite la creación de particiones ni la adición de propiedades de tablas de iceberg.

**Topics**
+ [Requisitos previos](#iceberg-prerequisites)
+ [Creación de tablas de Iceberg](#create-iceberg-table)

## Requisitos previos
<a name="iceberg-prerequisites"></a>

 Para crear tablas de Iceberg en el Catálogo de datos y configurar los permisos de acceso a los datos de Lake Formation, debe cumplir los siguientes requisitos: 

1. 

**Se requieren permisos para crear tablas de Iceberg sin datos registrados en Lake Formation.**

   Además de los permisos necesarios para crear una tabla en el Catálogo de datos, el creador de la tabla requiere los siguientes permisos:
   + `s3:PutObject` en el recurso arn:aws:s3:::\$1bucketName\$1
   + `s3:GetObject` en el recurso arn:aws:s3:::\$1bucketName\$1
   + `s3:DeleteObject` en el recurso arn:aws:s3:::\$1bucketName\$1

1. 

**Se requieren permisos para crear tablas de Iceberg con datos registrados en Lake Formation:**

   Para utilizar Lake Formation para administrar y asegurar los datos de su lago de datos, registre su ubicación de Amazon S3 que tiene los datos de las tablas con Lake Formation. Esto es para que Lake Formation pueda vender credenciales a servicios AWS analíticos como Athena, Redshift Spectrum y Amazon EMR para acceder a los datos. Para obtener más información sobre el registro de una ubicación de Amazon S3, consulte [Añadir una ubicación de Amazon S3 a su lago de datos](register-data-lake.md). 

   Una entidad principal que lee y escribe los datos subyacentes que están registrados en Lake Formation requiere los siguientes permisos:
   + `lakeformation:GetDataAccess`
   + `DATA_LOCATION_ACCESS`

     Una entidad principal que tiene permisos de localización de datos en una localización también tiene permisos de localización en todas las ubicaciones secundarias.

     Para obtener más información sobre permisos de ubicación de datos, consulte [Control de acceso a los datos subyacentes](access-control-underlying-data.md).

 Para habilitar la compactación, el servicio debe asumir un rol de IAM que tenga permisos para actualizar las tablas del Catálogo de datos. Para obtener más información, consulte [Requisitos previos para la optimización de tablas](https://docs.aws.amazon.com/glue/latest/dg/optimization-prerequisites.html). 

## Creación de tablas de Iceberg
<a name="create-iceberg-table"></a>

Puede crear tablas Iceberg v1 y v2 con la consola Lake Formation o AWS Command Line Interface tal como se documenta en esta página. También puede crear tablas Iceberg utilizando la AWS Glue consola o. Rastreador de AWS Glue Para más información, consulte [Catálogo de datos y rastreadores](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html) en la Guía para desarrolladores de AWS Glue .

**Creación de una tabla de Iceberg**

------
#### [ Console ]

1. Inicie sesión en y abra la Consola de administración de AWS consola de Lake Formation en [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/).

1. En Catálogo de datos, seleccione **Tablas** y utilice el botón **Crear tabla** para especificar los siguientes atributos:
   + **Nombre de tabla.** Escriba un nombre para la tabla. Si utiliza Athena para acceder a las tablas, utilice los [consejos para nombres](https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html) recogidos en la Guía del usuario de Amazon Athena.
   + **Base de datos.** Elija una base de datos existente o cree una nueva.
   + **Descripción.** Descripción de la tabla. Puede escribir una descripción para ayudarle a entender el contenido de la tabla.
   + **Formato de tabla.** Para el **formato de la tabla**, elija Apache Iceberg.  
![\[Opción de tabla de Apache Iceberg y opciones de optimización de tablas seleccionadas\]](http://docs.aws.amazon.com/es_es/lake-formation/latest/dg/images/table-optimization.png)
   + **Optimización de tablas**
     + **Compactación**: los archivos de datos se combinan y se reescriben para eliminar los datos obsoletos y consolidar los datos fragmentados en archivos más grandes y eficientes.
     + **Retención de instantáneas**: las instantáneas son versiones con fecha y hora de una tabla de Iceberg. Las configuraciones de retención de instantáneas permiten a los clientes determinar cuánto tiempo se deben retener las instantáneas y cuántas instantáneas retener. La configuración de un optimizador de retención de instantáneas puede ayudar a administrar la sobrecarga de almacenamiento mediante la eliminación de las instantáneas antiguas e innecesarias y sus correspondientes archivos subyacentes.
     + **Eliminación de archivos huérfanos**: los archivos huérfanos son archivos a los que los metadatos de la tabla de Iceberg ya no hacen referencia. Con el tiempo, estos archivos se pueden acumular, sobre todo después de operaciones como la eliminación de tablas o los errores en los trabajos de ETL. Habilitar la eliminación de archivos huérfanos AWS Glue permite identificar y eliminar periódicamente estos archivos innecesarios, liberando espacio de almacenamiento.

     Para obtener más información, consulte [Optimización de las tablas de Iceberg](https://docs.aws.amazon.com/glue/latest/dg/table-optimizers.html).
   + **Rol de IAM.** Para ejecutar la compactación, el servicio asume un rol de IAM en su nombre. Puede elegir un rol de IAM mediante el menú desplegable. Asegúrese de que el rol tenga los permisos necesarios para habilitar la compactación.

     Para obtener más información sobre los permisos necesarios, consulte [Requisitos previos para la optimización de tablas](https://docs.aws.amazon.com/glue/latest/dg/optimization-prerequisites.html).
   + **Ubicación.** Especifique la ruta a la carpeta de Amazon S3 que almacena la tabla de metadatos. Iceberg necesita un archivo de metadatos y una ubicación en el Catálogo de datos para poder hacer lecturas y escrituras.
   + **Esquema.** Seleccione **Agregar columnas** para añadir columnas y tipos de datos de las columnas. Tiene la opción de crear una tabla vacía y actualizar el esquema más adelante. El Catálogo de datos admite los tipos de datos de Hive. Para obtener más información, consulte [Tipos de datos de Hive](https://cwiki.apache.org/confluence/plugins/servlet/mobile?contentId=27838462#content/view/27838462). 

      Con Iceberg podrá desarrollar el esquema y la partición después de crear la tabla. Puede utilizar [consultas de Athena](https://docs.aws.amazon.com/athena/latest/ug/querying-iceberg-evolving-table-schema.html) para actualizar el esquema de la tabla y [consultas de Spark](https://iceberg.apache.org/docs/latest/spark-ddl/#alter-table-sql-extensions) para actualizar las particiones. 

------
#### [ AWS CLI ]

```
aws glue create-table \
    --database-name iceberg-db \
    --region us-west-2 \
    --open-table-format-input '{
      "IcebergInput": { 
           "MetadataOperation": "CREATE",
           "Version": "2"
         }
      }' \
    --table-input '{"Name":"test-iceberg-input-demo",
            "TableType": "EXTERNAL_TABLE",
            "StorageDescriptor":{ 
               "Columns":[ 
                   {"Name":"col1", "Type":"int"}, 
                   {"Name":"col2", "Type":"int"}, 
                   {"Name":"col3", "Type":"string"}
                ], 
               "Location":"s3://DOC_EXAMPLE_BUCKET_ICEBERG/"
            }
        }'
```

------

# Optimización de las tablas de Iceberg
<a name="data-compaction"></a>

Lake Formation admite múltiples opciones de optimización de tablas para mejorar la administración y el rendimiento de las tablas Apache Iceberg utilizadas por los motores AWS analíticos y los trabajos de ETL. Estos optimizadores ofrecen un uso eficiente del almacenamiento, un rendimiento mejorado de las consultas y la administración efectiva de los datos. Existen tres tipos de optimizadores de tablas disponibles en Lake Formation: 
+ **Compactación**: la compactación de datos compacta archivos de datos pequeños para reducir el uso de almacenamiento y mejorar el rendimiento de lectura. Los archivos de datos se combinan y se reescriben para eliminar los datos obsoletos y consolidar los datos fragmentados en archivos más grandes y eficientes. La compactación se puede configurar para que se ejecute de forma automática o manual según sea necesario. 
+ **Retención de instantáneas**: las instantáneas son versiones con fecha y hora de una tabla de Iceberg. Las configuraciones de retención de instantáneas permiten a los clientes determinar cuánto tiempo se deben retener las instantáneas y cuántas instantáneas retener. La configuración de un optimizador de retención de instantáneas puede ayudar a administrar la sobrecarga de almacenamiento mediante la eliminación de las instantáneas antiguas e innecesarias y sus correspondientes archivos subyacentes.
+ **Eliminación de archivos huérfanos**: los archivos huérfanos son archivos a los que los metadatos de la tabla de Iceberg ya no hacen referencia. Con el tiempo, estos archivos se pueden acumular, sobre todo después de operaciones como la eliminación de tablas o los errores en los trabajos de ETL. Habilitar la eliminación de archivos huérfanos AWS Glue permite identificar y eliminar periódicamente estos archivos innecesarios, liberando espacio de almacenamiento.

Puede activar o desactivar los optimizadores de compactación, retención de instantáneas y eliminación de archivos huérfanos para tablas Iceberg individuales del catálogo de datos mediante la AWS Glue consola o las operaciones de la API. AWS CLI AWS Glue 

Para obtener más información, consulte [Optimización de las tablas Iceberg](https://docs.aws.amazon.com/glue/latest/dg/table-optimizers.html) en la Guía para desarrolladores. AWS Glue 

# Búsqueda de tablas
<a name="searching-for-tables"></a>

Puede usar la AWS Lake Formation consola para buscar tablas del catálogo de datos por nombre, ubicación, base de datos contenedora, etc. Los resultados de la búsqueda muestran solo las tablas en las que tiene permisos de Lake Formation.

**Para buscar tablas (consola)**

1. Inicie sesión en la consola de Lake Formation Consola de administración de AWS y ábrala en [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/).

1. En el panel de navegación, elija **Tablas**.

1. Coloque el cursor en el campo de búsqueda en la parte superior de la página. El campo tiene el texto marcador de posición *Buscar tabla por propiedades*.

   Aparece el menú **Propiedades**, que muestra las distintas propiedades de la tabla por las que buscar.  
![\[El menú de propiedades se despliega desde el campo de búsqueda y contiene las siguientes entradas: nombre, clasificación, base de datos, ubicación e identificador de catálogo\]](http://docs.aws.amazon.com/es_es/lake-formation/latest/dg/images/search-for-tables.png)

1. Realice una de las siguientes acciones:
   + Buscar por base de datos contenedora.

     1. Seleccione **Base de datos** en el menú **Propiedades** y, a continuación, elija una base de datos en el menú **Bases** de datos que aparece o escriba un nombre de base de datos y pulse **Intro**.

        Se muestran las tablas sobre las que tiene permisos en la base de datos.

     1. (Opcional) Para reducir la lista a una sola tabla de la base de datos, vuelva a colocar el cursor en el campo de búsqueda, elija **Nombre** en el menú **Propiedades** y elija un nombre de tabla en el menú **Tablas** que aparece o escriba un nombre de tabla y pulse **Intro**.

        Aparece la tabla individual y tanto el nombre de la base de datos como el nombre de la tabla aparecen como mosaicos debajo del campo de búsqueda.  
![\[Debajo del campo de búsqueda hay dos mosaicos, Base de datos, que muestra el nombre de la base de datos seleccionada, y otro denominado Tabla, con el nombre de la tabla seleccionada. A la derecha de los mosaicos hay un botón para borrar el filtro.\]](http://docs.aws.amazon.com/es_es/lake-formation/latest/dg/images/search-for-tables-with-filter.png)

        Para ajustar el filtro, cierre cualquiera de los mosaicos o seleccione **Borrar filtro**.
   + Busque por otras propiedades.

     1. Seleccione una propiedad de búsqueda en el menú **Propiedades**.

        **Para buscar por ID de AWS cuenta, elija **ID de catálogo** en el menú **Propiedades**, introduzca un ID de AWS cuenta válido (por ejemplo, 111122223333) y pulse Entrar.**

        Para buscar por ubicación, elija **Ubicación** en el menú **Propiedades** y seleccione una en el menú **Ubicaciones** que aparece. Se devuelven todas las tablas de la ubicación raíz de la ubicación seleccionada (por ejemplo, Amazon S3).

**Para buscar tablas, utilice AWS CLI**
+ En el siguiente ejemplo, se muestra cómo ejecutar una búsqueda parcial. El parámetro `--search-text` permite buscar tablas que contengan el texto especificado en sus metadatos. En este caso, devuelve todas las tablas que tienen la palabra “customer” en el nombre, la descripción u otros campos de metadatos.

  ```
  aws glue search-tables 
        --search-text "customer" 
        --region Región de AWS
        --max-results 10
        --sort-criteria "FieldName=Name,Sort=ASC"
  ```

# Compartir tablas y bases de datos del catálogo de datos entre AWS cuentas
<a name="sharing-catalog-resources"></a>

Puede compartir los recursos del catálogo de datos (bases de datos y tablas) con AWS cuentas externas concediendo permisos de Lake Formation sobre los recursos a las cuentas externas. A continuación, los usuarios pueden ejecutar consultas y trabajos para unir y consultar tablas en varias cuentas. Con algunas restricciones, cuando comparte un recurso del Catálogo de datos con otra cuenta, las entidades principales de esa cuenta pueden operar con ese recurso como si estuviera en su Catálogo de datos.

No comparte los recursos con directores específicos en AWS cuentas externas, sino que comparte los recursos con una AWS cuenta u organización. Cuando comparte un recurso con una organización AWS , está compartiendo el recurso con todas las cuentas de todos los niveles de esa organización. A continuación, el administrador del lago de datos de cada cuenta externa debe conceder permisos sobre los recursos compartidos a las entidades principales de su cuenta.

Para obtener más información, consulte [Compartir datos entre cuentas en Lake Formation](cross-account-permissions.md) y [Concesión de permisos sobre los recursos del Catálogo de datos](granting-catalog-permissions.md).

**Consulte también:**  
[Acceso y visualización de tablas y bases de datos compartidas del Catálogo de datos](viewing-shared-resources.md)
[Requisitos previos](cross-account-prereqs.md)