El Instituto de Biotecnología y Biomedicina (IBB) de la UAB ha generado el mayor conjunto de datos abierto sobre proteínas implicadas en la separación de fases líquido-líquido. La investigación, publicada en Genome Biology, sienta las bases para mejorar las predicciones bioinformáticas y el estudio de enfermedades asociadas.

Existen muchas proteínas que tienen la capacidad de reorganizarse espontáneamente dentro de las células para formar condensados moleculares (estructuras intracelulares sin membrana compuestas por una o múltiples proteínas) mediante un proceso conocido como separación por fases líquido-líquido (LLPS por las siglas en inglés).

En la imagen, el equipo de investigación del Instituto de Biotecnología y Biomedicina (IBB) de la UAB

Este proceso biológico es clave, ya que permite a las proteínas organizarse, interactuar y funcionar de manera eficiente y regulada en el entorno celular. Cuando este mecanismo falla, pueden aparecer enfermedades neurodegenerativas, cánceres o trastornos del desarrollo.

Ante esta realidad, un equipo de investigación del Instituto de Biotecnología y Biomedicina (IBB) de la Universidad Autónoma de Barcelona (UAB) ha creado ahora el conjunto de datos más exhaustivo y fiable de proteínas que participan en la LLPS. Esta propuesta ofrece un protocolo que permite superar las limitaciones de los algoritmos que se han desarrollado hasta ahora para obtener modelos predictivos, en los que han identificado carencias que impiden analizar los datos de manera conjunta y precisa.

El estudio, publicado en la revista Genome Biology, ha sido liderado por Salvador Ventura, catedrático del Departamento de Bioquímica y Biología Molecular de la UAB y director del Instituto de Investigación e Innovación Parc Taulí (I3PT-CERCA); Michał Burdukiewicz, investigador María Zambrano del IBB y director del grupo de bioinformática de la Universidad Médica de Białystok (Polonia), y Carlos Pintado Grima, investigador del IBB y primer autor del trabajo.

El equipo de investigación ha clasificado con precisión los dos grandes tipos de proteínas implicadas en la LLPS: las que pueden formar los condensados por sí mismas (drivers) y las que solo forman parte de ellos (clientes). Además, han desarrollado el primer conjunto estándar de proteínas que no participan en este proceso, que comprende tanto proteínas con estructuras definidas como proteínas desordenadas.

Salvador Ventura, que coordina también el grupo de investigación Plegamiento de Proteínas y Enfermedades Conformacionales en el IBB, afirma que es «un elemento clave para entrenar sistemas de inteligencia artificial de manera justa y eficaz».

Para validar su trabajo, los científicos han investigado rasgos fisicoquímicos específicos implicados en la LLPS en diferentes subconjuntos de secuencias proteicas y han identificado diferencias significativas entre ellas. Asimismo, han evaluado la predicción de LLPS en dieciséis herramientas bioinformáticas existentes, lo que supone la comparación más exhaustiva realizada hasta el momento.

El conjunto de datos generados en el estudio permite asociar de manera precisa el papel de una determinada proteína en la LLPS. En total, los investigadores han clasificado 2.876 proteínas diferentes. «Los datos que hemos generado han sido creados para garantizar la fiabilidad y la interoperabilidad entre ellos, a partir de criterios estandarizados para su selección y categorización. Hasta ahora no teníamos suficientes datos de confianza para hacer predicciones meticulosas. Con este nuevo recurso, abrimos la puerta a desarrollar nuevas herramientas computacionales más precisas», apunta Salvador Ventura.

Los conjuntos de datos y todas las herramientas asociadas del estudio están disponibles en abierto en llpsdatasets.ppmclab.com.