Excelenciencia

Recordando los datos

Xavier Pujol Gebellí

INNOVACIÓN     |    BIOINFORMÁTICA    |    23/12/2014

La ciencia actual sufre de excesos. Se publica tanto y se generan tantos datos, que una parte sustancial de ellos quedan guardados en un cajón y otros muchos, pese a estar disponibles, solo pueden ser reutilizados por una pequeña comunidad. Investigadores del Instituto Catalán de Investigación Química han desarrollado una base de datos que aspira a poner fin a este marasmo. Datos de libre acceso, etiquetados en un lenguaje universal y convenientemente organizados son sus fortalezas. Los primeros resultados les dan la razón.

La idea empezó a fraguarse hace ya cerca de cuatro años. Carles Bo, profesor de Química Física en la Universidad Rovira i Virgili y jefe de grupo en el Instituto Catalán de Investigación Química (ICIQ), se percató –como seguro que lo ha hecho en algún momento cualquier otro investigador en el mundo– que si quería aprovechar resultados de investigación ya publicados por otros colegas para hacer avanzar más rápidamente sus proyectos, topaba con una barrera infranqueable. Los datos potencialmente de interés no estaban disponibles. Y si lo estaban, el formato no era el adecuado o había que dar mil vueltas hasta dar con ellos.

Pese a la sofisticación con la que se tiende a trabajar, se exclama el investigador, "muchos resultados siguen anotándose en libretas manuscritas o en simples hojas de Excel". Y dar con las que se busca, en ocasiones resulta una labor demasiado ardua. La pregunta, formulada una y otra vez sin solución de continuidad, acaba siendo tan simple que casi da pavor: ¿no hay manera de arreglarlo?

Carles Bo y sus colegas de grupo, encuadrados mayoritariamente en el ámbito de la química teórica, proponen ahora, tras cuatro años de trabajo, una posible solución: generar una base de datos cuyo tratamiento se rija por criterios de accesibilidad universal, de modo que cualquier investigador, en cualquier lugar del mundo, pueda acceder a los datos y reutilizarlos a su conveniencia. Es como poner orden, viene a decir, a una información que ya es pública pero enormemente dispersa y ofrecerla en un lenguaje universal.


La versión química

Imagen

Captura de pantalla de la base de datos ioChem-BD | ICIQ


La versión de partida de su propuesta, de nombre ioChem-BD, está asociada a la química y, en particular, a las grandes líneas de trabajo que se desarrollan en el instituto de Tarragona. Esto es, catálisis, energía y bioquímica y biología de interés en biomedicina. Dado el prestigio internacional del centro y la calidad de sus trabajos de investigación, se parte de una base sólida.

"Los químicos teóricos, hoy casi todos computacionales", resume Bo, "generamos ingentes cantidades de datos como fruto de nuestro trabajo en el ordenador, prácticamente nuestro laboratorio". Los datos surgen de simulaciones, modelos y cálculos a menudo obtenidos en un superordenador. Datos que, a la postre, acaban siendo valores numéricos relativos a estructuras moleculares, energías de enlace o de reacción, tiempos y otras muchas variables.

Carles Bo: «Los químicos teóricos, hoy casi todos computacionales, generamos ingentes cantidades de datos como fruto de nuestro trabajo en el ordenador, prácticamente nuestro laboratorio».
En el caso de las grandes áreas del ICIQ, implica recopilar datos sobre catálisis en general, lo que supone aportar información de valor sobre moléculas que aceleran una reacción química en condiciones de trabajo muy precisas. Dado que no siempre se llega al producto final deseado en un único paso, sino que se requiere una cadena de reacciones, disponer del conjunto de valores numéricos de todas ellas "de forma simple y fácilmente reutilizables", es de gran valor para otros grupos de investigación o incluso para ingenierías para saber "lo que funciona y lo que no funciona" y así ahorrar tiempo y recursos en experimentos de los que ya se conoce el resultado al estar previamente publicados.

En el caso de la investigación en energía sucede otro tanto. De forma genérica, en el ICIQ se buscan nuevas moléculas que permitan avanzar hacia nuevas fuentes de energía. El proceso clave, señala Bo, es la oxidación del agua, "romper las moléculas de agua", dice, para obtener hidrógeno que pueda ser usado como combustible. Asimismo, tiene enorme importancia las investigaciones en moléculas con potencial en dispositivos fotoconversores, algo así como células solares orgánicas. En el tercer ámbito, el de interés biomédico, se trabaja con moléculas con potencial farmacológico.


Patrón universal

La base de datos ioChem-BD incorpora ya este primer conjunto de datos. A medida que se incorporen nuevos grupos, muchos de los cuales disponen de su propia base de datos, la aplicación irá creciendo gracias a la interconexión de todos ellos. El grupo de investigadores liderado por Bo ya ha realizado contactos internacionales con este objetivo. La respuesta, asegura, "está siendo positiva".

portada

Esquema de la base de datos io-Chem-BD | ICIQ


"Partimos de la recopilación de datos, pero aspiramos a que el investigador, una vez que los que él haya obtenido sean públicos, los vaya incorporando" casi automatizadamente tanto si se trata de moléculas como de materiales, por lo que estarían a disposición de la comunidad química, teórica, experimental e industrial prácticamente en el mismo momento.

Para este trabajo indica, el principal recurso que se precisa es "capacidad de disco", para el almacenaje de los datos y "máquina suficiente", que es lo mismo que decir un ordenador de una cierta potencia pero no necesariamente un superordenador. "Estamos hablando de una web orientada a químicos, grupos de investigación, e ingenierías a los que podrían unirse profesores de la materia de secundaria o universidad en busca de casos reales para sus clases." Una comunidad limitada, pero de ámbito mundial y que aspira a cubrir los aspectos más relevantes de la química. Es decir, limitada pero no por ello pequeña.



Un problema llamado Big Data

Imagen

Simulación de tratamiento de base de datos | EHU


La gestión de enormes cantidades de datos es un problema identificado en muchas ramas de la ciencia y deriva fundamentalmente de las capacidades crecientes que ofrece la tecnología para generarlos. Es el caso de la química teórica, que vive instalada en la supercomputación, pero también de la genómica, la medicina personalizada o, en otro extremo, la astrofísica. Es lo que hoy se llama gestión de Big Data y que exige, entre otras variables, algoritmos con los que localizar la información deseada y obtenerla en un lenguaje estándar.

Tim Berners-Lee, el fundador de la web, creó también el concepto open data, recuerda Carles Bo. Con él se clasifica la información según si está o no etiquetada, en formato estándar, contextualizada y enlazada a otras informaciones disponibles en la red. Traducido para los químicos, serían datos de investigación estructurados, contextualizados y disponibles para cualquier investigador.

Eso es justamente lo que hace la nueva interficie generada en el ICIQ, recoger los datos, etiquetarlos y almacenarlos. Para ello se trabaja en lenguaje XML, ya de uso universal. Y en este caso, un subconjunto llamado CML, donde la C significa Chemistry. De este modo se gana en accesibilidad y universalidad. Pero no solo para químicos. Una vez sentado el concepto, puede ser de aplicación a cualquier campo donde se generen enormes cantidades de datos.

forest patient assistance bystolic copay card forest patient assistance





Xavier Pujol Gebellí

Periodista

type 2 diabetes symbol type 2 diabetes and sexuality what is type 2 diabetes

Excelencia Severo Ochoa

Logos colaboradores julio 2014

Grupo XLC In