Janne Lahtiranta, asiakkuusvastaava, terveys ja biotieteet, Business Turku
Nykyinen terveydenhuolto nojautuu vahvasti dataan, mutta yksityisyydensuoja nousee usein haasteeksi kehitystyössä. Viime syksynä loimme Turussa Suomen ensimmäisen synteettisen terveysdatan testialustan, joka tarjoaa tutkijoille ja yrityksille aidonkaltaista terveysdataa uusien innovaatioiden synnyttämiseksi. Vaativa kehitystyö jatkuu.
Aloitetaan termeistä. Hieman yksinkertaistaen, synteettistä eli keinotekoista terveysdataa voidaan sanoa olevan kahta eri päätyyppiä.
Synteettinen terveysdata jäljittelee alkuperäisen aineiston, kuten potilasdatan, rakennetta ja tilastollisia ominaisuuksia. Datassa voi olla jäljellä jäänteitä alkuperäisestä aineistosta, joten sitä tulee lähtökohtaisesti käsitellä kuten aitoja aineistoja. Sama koskee laajennettuja aineistoja, joissa esimerkiksi 300 potilaan aineistoa on laajennettu synteettisellä terveysdatalla 3 000 potilaan aineistoksi.
Anonyymistä synteettisestä terveysdatasta taas on poistettu kaikki alkuperäisen aineiston tunnistettavissa olevat jäänteet, jolloin sitä voidaan käsitellä vapaammin. Mikäli anonymisointi on tehty hyväksyttävällä tavalla, tuotettu data ei kuulu edes yleisen tietosuoja-asetuksen (GDPR) piiriin. Tämä tekee anonyymistä synteettisestä terveysdatasta äärimmäisen kiinnostavan, sillä yritykset voivat käyttää sitä uusien tuotteiden kehittämiseen ja testaamiseen aiempaa suoraviivaisemmin.
Kumpaakin päätyyppiä tarvitaan hieman eri tarkoituksiin. Siinä missä anonyymi synteettinen terveysdata voi soveltua vapaampaan ideointiin ja kokeiluun, voidaan synteettisellä datalla laajennettuja aineistoja käyttää esimerkiksi tekoälypohjaisten luokittelualgoritmien tehokkaaseen opettamiseen ja testaamiseen.

Turku johtavaksi alueeksi tietosuojaa vahvistavan terveysdatan innovaatioissa
Suomessa, erityisesti Turussa, synteettinen terveysdata on nousemassa keskeiseksi mahdollistajaksi nopeammalle ja turvallisemmalle innovoinnille diagnostiikan, sähköisen terveyden ja tekoälypohjaisten palveluiden alueilla. Kun synteettinen data tuotetaan huolellisesti, validoidaan asianmukaisesti ja sisällytetään vastuullisiin hallintamalleihin, on sillä potentiaali muodostua tulevaisuuden terveydenhuollon kehityksen perustaksi.
Maailmanlaajuisesti useat johtavat instituutiot, kuten Iso-Britannian NHS, edistävät alaa. Turussa hiljattain päättyneet PRIVASA- ja SYNDATE-projektit ovat esimerkkejä Suomen johtavista hankkeista synteettisen terveysdatan tutkimuksessa.
PRIVASA keskittyi yksityisyyttä suojaavaan data-analytiikkaan kehittämällä menetelmiä synteettisten datasettien generointiin siten, että tilastollinen hyöty säilyy ja tiukat yksityisyysvaatimukset täyttyvät. Projekti toteutettiin yliopistojen, sairaaloiden ja teknologiayritysten yhteistyönä, ja se tuotti varhaisia esimerkkitapauksia synteettisen ja rakenteisen taulukkodatan tuottamiseen.
SYNDATE jatkoi tätä työtä rakentamalla testialustan, joissa yritykset voivat kokeilla anonyymejä synteettisiä datasettejä ennen varsinaista hakua todellisiin kliinisiin testeihin. Tämä madaltaa erityisesti alkavien yritysten kynnystä tulla terveysalalle ja nopeuttaa varhaisen vaiheen tuotekehitystä (ns. ”fail fast” -tyyppinen toiminta). Turussa toimet nivoutuvat tiiviisti Auria-tietopalvelun (Varha), Terveyskampus Turun jäsenorganisaatioiden sekä seudulla toimivien terveys- ja teknologia-alojen yritysten TKI-toimintaan.
Suomen Datatalouden kasvuohjelma (TEM) vahvistaa vastuullista datankäyttöä, datavetoista liiketoimintaa sekä tietoinfrastruktuurien yhteen toimivuutta kokoamalla yhteen julkiset ja yksityiset toimijat konkreettisiin pilotteihin. Ohjelman kuudennessa pilotissa Turku edistää synteettisen terveysdatan hyödyntämistä Terveyskampus Turun johdolla kehittämällä toimintamalleja, testiaineistoja ja yhteistyötä Auria Tietopalvelun (Varha), tutkimusorganisaatioiden ja yritysten välillä. Pilotti madaltaa erityisesti pienten ja keskisuurien yritysten kynnystä terveysdatan käytölle.
Pilotin kautta Turku asemoituu Suomen johtavaksi alueeksi tietosuojaa vahvistavan terveysdatan innovaatioissa. Työ tukee laaja-alaisesti Datatalouden kasvuohjelman tavoitteita osoittaen, kuinka (anonyymi) synteettinen data voi nopeuttaa tuotekehitystä, mahdollistaa uusia liiketoimintamahdollisuuksia ja vahvistaa Suomen kilpailukykyä globaalisti terveysalalla ja biotieteissä, joka on yksi Business Turun valitsemista painopistealoista (ekosysteemeistä).

Vaativa kehitystyö jatkuu
Synteettisen terveysdatan, ja erityisesti anonyymin synteettisen terveysdatan, tuotanto on vaativaa, koska siinä on löydettävä herkkä tasapaino yksityisyyden suojan ja datan käyttökelpoisuuden välillä samalla, kun tuotantoprosessi edellyttää erikoistunutta osaamista, datatyyppikohtaista mallinnusta ja raskasta validointia. Kansainvälisten standardien puute, terveysdatan rakenteellinen monimutkaisuus, sääntely ja eettiset vaatimukset hidastavat menetelmien kehitystä ja käyttöönottoa.
Vaikka haasteita on, synteettinen terveysdata tarjoaa merkittävän mahdollisuuden nopeuttaa tutkimusta, innovaatiotoimintaa ja yritysyhteistyötä tavalla, joka kunnioittaa tietosuojaa ja madaltaa kynnystä terveysdatan vastuulliseen hyödyntämiseen.
Keskeiset käyttökohteet (anonyymille) synteettiselle terveysdatalle
- Tutkimus- ja kehitystoiminnan nopeuttaminen
- AI- ja koneoppimismallien koulutus
- Ohjelmistojen testaus ja laadunvarmistus
- Lääketieteellinen tutkimus ja yhteistyö
- Terveystalouden ja päätöksenteon mallinnus
- Opetus ja koulutus
- Prosessisimulaatiot ja taloudelliset analyysit
Jatketaan keskustelua
SYNDATE
Synteettisen terveysdatan testialusta (SYNDATE)-hanke on Euroopan unionin osarahoittama. Hanke sai rahoitusta Varsinais-Suomen liitolta Euroopan aluekehitysrahaston (EAKR) Uudistuva ja osaava Suomi 2021–2027 EU:n alue- ja rakennepolitiikan ohjelmasta. Rahoituksen valvova viranomainen oli Uudenmaan liitto.






PRIVASA
Privacy‑Preserving AI for Synthetic and Anonymous Health Data (PRIVASA) ‑hanke on Business Finlandin rahoittama Co‑Innovation‑hanke. Hanke sai rahoitusta Business Finlandilta osana sen tutkimus‑, kehitys‑ ja innovaatiorahoitusta (Co‑Creation ja Co‑Innovation).




