Data Science en Google Cloud - Parte I: Almacenamiento de datos

Julio César Ruiz Tejada
5 min readAug 27, 2024

--

Google Cloud Platform se ha posicionado como una de las plataformas en la nube más sólidas para desplegar nuestros proyectos de ciencias de datos con una amplia gama de servicios, incluyendo soluciones de almacenamiento de datos. Independientemente del tipo de proyecto que estemos haciendo, GCP por sus siglas en inglés, ofrece un catálogo muy diversificado de opciones, lo que facilita la elección del almacenamiento de datos más adecuado para cada necesidad.

Esto ha hecho que GCP sea mucho más que una simple tendencia en el mundo de la ciencia de datos. Su escalabilidad bajo demanda, diversidad de soluciones de almacenamiento, gestión integral de datos e integración con otras herramientas o servicios la hacen una buena opción de “despliegue a producción”. Estas características, sumadas a la inversión continua de Google en soluciones de IA y machine learning, los posicionan como una plataforma madura y de las más confiable para abordar los desafíos que la ciencia de datos nos impone.

Ahora entremos al tema, veamos los dintintos tipos de alojamientos de datos que nos ofrecen:

Tipos de base de datos: Relacionales

Cloud SQL: Servicio de bases de datos relacionales totalmente administrado por GCP para MySQL, PostgreSQL y SQL Server. Muy fácil de usar, tiene alta disponibilidad y escalabilidad vertical. Se puede usar más enfocado a proyectos de eCommerce o uso general.

AlloyDB: Este servicio es genial, si necesitas usar un almacenamiento de datos administrado por GCP y que use PostgreSQL entonces este es el indicado. Tambien maneja alta disponibilidad y escalabilidad sin comprometer la data. Buena para Ciencia de datos en general y aplicaciones transaccionales.

Cloud Spanner: Una relacional pero con una muy buena escalabilidad horizontal como una NoSQL. Se puede utilizar para aplicaciones de inventarios, de pagos, videojuegos y más.

Bare Metal: Una solución transformada también para almacenamiento. Se aplicaría como una instancia de base de datos, se ejecuta en un servidor físico, haciendo que tentgamos el control total sobre el hardware y el software, pero también implica una mayor responsabilidad en la gestión y mantenimiento de la infraestructura. Es usado más como intermedio de migraciones de base de datos y por aplicaciones heredadas que están asociadas con el hardware.

Tipos de base de datos: No-Relacionales

Cloud Firestore: Es la base de dato de Google Cloud No-SQL que está orientada a desarrollos de aplicaciones móviles y web. Fácil de configurar, escalable y con sincronización en tiempo real. Su talón de aquiles es el tamaño de los documentos a trabajar.

Cloud Bigtable: Una No-SQL que está hecha para almacenar grandes volumenes de datos con baja latencia. Usado para aprendizaje automático y análisis de datos. Tiene buena integración con otras herramientas.

Memorystore: Servicio de caché ‘in-memory’ totalmente administrado, compatible con Redis y Memcached. Al igual a sus anteriores tiene baja latencia y alta disponibilidad pero tiene un defecto, no está hecho para grandes volúmenes de datos persistentes.

Ahora, BigQuery

BigQuery: Simplemente la mejor solución para tener un Data Warehouse. Esta plataforma está hecha para el análisis de datos masivos, ahora con las nuevas actualizaciones hasta soporta la elaboración de modelos de datos para el aprendizaje automático. Es altamente escalable y amigable para su uso, aunque puede ser costoso si lo utilizas para consultas constantes.

Un Plus: DataLake

Cloud Storage: Si estás trabajando en ciencias de datos lo más seguro lo necesitarás para crear un Data lake. Es muy completo en general. Buena escalabilidad y durabilidad a parte de su buena seguridad. Se puede usar para mucho fines ya que permite el almacenamiento de distintos tipos de objetos como imágenes, videos, documentos o incluso backups de maquinas virtuales.

Comentarios finales

La ciencia de datos en Google Cloud ha experimentado un crecimiento exponencial gracias en gran medida a la flexibilidad y escalabilidad de sus servicios de almacenamiento de datos. Al ofrecer una amplia gama de opciones, desde bases de datos relacionales como AlloyDB hasta almacenes de datos como BigQuery y servicios de almacenamiento de objetos como Cloud Storage, de esta forma Google Cloud permite a los Ingenieros, adminsitradores y científicos de datos construir infraestructuras y procesos de datos robustos y eficientes.

En resumen, el almacenamiento de datos en Google Cloud es un componente clave para impulsar la innovación y la toma de decisiones basadas en datos. Al ofrecer una amplia gama de opciones, Google Cloud permite a las organizaciones aprovechar todo el potencial de sus datos.

Pronto la parte II con más detalles sobre la ciencia de datos.

--

--

Julio César Ruiz Tejada

Engineer, developer & designer | Technology & life enthusiast 🤓💻