AI Signals — Viikonloppulukemisto: Kuukausi dataa — mitä 2 760 tekoälyarvostusta opetti meille
- 24 kaupankäyntipäivän ja 2 760 arvion jälkeen emme voi erottaa metodologian vaikutuksia mallien aidosta käyttäytymisestä — jokainen moottori- tai promptimuutos liikutti lukuja
- Viisi erilaista mallipersoonallisuutta: Claude ainoa optimisti (+1,0 %), GPT paras suuntatarkkuus (52,7 %) mutta suurin vaihtelu, DeepSeek 100 % luotettava 1/15 hinnalla
- XOM putosi 31 % päivässä kun kaikki mallit reagoivat Iranin de-eskalaatiosignaaleihin — samaan aikaan 9 suurta pankkia nosti tavoitehintojaan. DCF vahvistaa lyhyen aikavälin sentimenttiä syklisille osakkeille
- Suuntatarkkuus 47-53 % yhden päivän horisontilla — tilastollisesti kolikonheittoa. Todellinen testi alkaa 3 kuukauden (heinäkuu) ja 12 kuukauden (maaliskuu 2027) kohdalla
- Mallikohtainen kalibrointi tulossa huhtikuun lopussa kun 30 päivää v7-dataa on kertynyt
Kuukausi dataa — mitä 2 760 tekoälyarvostusta opetti meille
Kuukauden ajan viisi tekoälymallia on arvostanut 24 osaketta jokaisena kaupankäyntipäivänä. Se on 2 760 arviota, 24 kaupankäyntipäivää ja noin 50 dollaria API-kustannuksia. Tässä mitä opimme — ja mitä emme.
Kokonaiskuva: kaikki mallit ovat varovaisia, ja tilanne syveni
Maaliskuun alussa AI-mallien yhteenlaskettu arvostuskuilu oli noin -15 % — mallit arvostivat osakkeet keskimäärin 15 % markkinahintoja alemmas. Seuraavien kahden viikon aikana kuilu kaventui tasaisesti noin -6 prosenttiin. Luulimme havainneemme lähentymistä markkinahintoihin.
Sitten suunta kääntyi. Kuilu leveni takaisin -12 prosenttiin. Parannus ei johtunut mallien viisastumisesta — kyse oli yhdistelmästä omia metodologiamuutoksiamme (Engine v7, Bayesian-kutistus, lämpötilan yhtenäistäminen) ja markkinan omaa laskua. Kun markkina tasaantui, taustalla ollut varovainen vinouma nousi jälleen esiin.
Tämä on rehellisen kuukauden tärkein opetus: emme voi erottaa metodologiamme vaikutuksia mallien aidosta käyttäytymisestä. Joka kerta kun muutimme jotain moottorissa, promptissa tai lämpötilassa, se liikutti lukuja.
Viisi mallia, viisi persoonallisuutta — mutta ovatko ne aitoja?
Claude on optimisti. Se on ainoa malli, jonka keskimääräinen vinouma on positiivinen (+1,0 %) — se näkee osakkeet hieman alihinnoiteltuina. Se on myös johdonmukaisin: arviot muuttuvat vain 1,3 % päivien välillä.
GPT on vastavirtaan kulkija. Sillä on paras suuntatarkkuus (52,7 %) mutta myös suurin päivittäinen vaihtelu (3,9 %). Kun muutimme lämpötilan 1,0:sta 0,4:ään, se kääntyi pessimistisimmästä optimistisimmaksi ennen tasaantumista. GPT näyttää olevan herkin parametrimuutoksille.
DeepSeek on työjuhta. 100 % validi JSON-tuotos 529 ajosta — ei yhtään jäsennysvirhettä. Se maksaa 1,10 $/kk Clauden 17,20 $/kk rinnalla.
Gemini tuottaa laajimman vaihteluvälin kasvuoletuksissa ja matalimman suuntatarkkuuden (47,0 %).
Grok on nopein (7,3 s) mutta sen raaka-arviot osuvat turvarajoihin 46 % ajasta — useammin kuin millään muulla mallilla.
Epämukava kysymys: kiristimme promptia sektorikohtaisilla haarukoilla, laskimme lämpötilan 0,4:ään ja otimme käyttöön Bayesian-kutistuksen. Mallien välinen hajonta on kaventunut 11 prosenttiyksiköstä 3-5:een. Missä vaiheessa mittaamme omia rajoitteitamme eikä mallien todellisia eroja?
XOM-tapaus: kun geopolitiikka kohtaa DCF:n
2. huhtikuuta ExxonMobilin AI-konsensusarvio putosi 118 dollarista 82 dollariin yhdessä päivässä — 31 prosentin lasku ja suurin yksittäisen osakkeen liike seurantamme aikana. Kaikki viisi mallia laskivat samanaikaisesti kasvuodotuksiaan ~4 prosentista 1-3 prosenttiin ja laskivat marginaalitavoitteita 14 prosentista 11-12 prosenttiin.
Taustalla oli todellinen markkinatapahtuma: 1. huhtikuuta XOM:n osake laski 5,7 % — suurin päiväpudotus vuoteen — kun presidentti Trump vihjasi Iranin konfliktin mahdollisesta päättymisestä. Öljymarkkinat ovat olleet myllerryksessä Hormuzinsalmen sulun jälkeen, ja jokainen merkki de-eskalaatiosta laukaisee jyrkän käännöksen energiaosakkeissa. CNN kuvaili tilannetta termillä "whiplash" — markkinat heiluvat jokaisella uudella Iran-uutisella.
AI-mallimme poimivat tämän signaalin päivittyneen Yahoo Finance -datan kautta — analyytikkojen tarkistukset, hintaliikkeet ja raaka-ainesignaalit — ja kaikki viisi päätyivät itsenäisesti samaan varovaiseen johtopäätökseen samana päivänä. Yksimielisyys on huomionarvoista: viisi erillistä API-kutsua, ei jaettua muistia, sama suunta.
Mutta mallit ylireagoivat. XOM:n P/E-luku on 23x, kun energiasektorin kattomme on 18x. DCF-malli tuottaa matalan raaka-arvion, ja P/E-katto painaa sitä vielä alemmas. Samaan aikaan yhdeksän suurta pankkia — Piper Sandler, Wells Fargo, Barclays, Citi ja muut — ovat itse asiassa nostaneet XOM:n tavoitehintojaan. Analyytikot näkevät pitkän aikavälin arvon monipuolisessa energiayhtiössä; DCF näkee syklisen osakkeen, joka noteerataan yli käyvän arvon.
XOM istuu nyt -49,3 prosentin kuilussa — mallit ajattelevat ExxonMobilin olevan puolet markkinahinnastaan. Se kertoo kolme asiaa: DCF:llä on rakenteellisia katvealueita syklisille raaka-aineosakkeille, AI-mallit vahvistavat lyhyen aikavälin sentimenttiä kun syöttödata muuttuu, ja kuilu AI:n ja analyytikkojen välillä voi itsessään olla signaali.
Mitä tarkkuus tarkoittaa (ja ei tarkoita) 24 päivän kohdalla
Suuntatarkkuutemme vaihtelee 47-53 prosentin välillä mallista riippuen. Tilastollisesti tämä ei erotu kolikonheitosta.
Mutta tämä mittari mittaa väärää asiaa. Mallit tuottavat 12 kuukauden DCF-arvostuksia — huomisen hintaliikkeen ennustamisen arviointi on kuin maratonjuoksijan arvioimista ensimmäisten sadan metrin perusteella. Todellinen tarkkuustesti alkaa 3 kuukauden kohdalla heinäkuussa ja tulee merkitseväksi 12 kuukauden kohdalla maaliskuussa 2027.
Lyhyen aikavälin data kertoo mallien käyttäytymisestä, ei ennustekyvystä. Clauden lähes nolla-vinouma (+1,0 %) tarkoittaa, että se on parhaiten kalibroitu nykyisiin markkinahintoihin. GPT:n ja DeepSeekin -5,1 prosentin vinouma tarkoittaa, että ne systemaattisesti aliarvioivat.
Missä tekoäly ja analyytikot eroavat
Erimielisyyskarttamme paljastaa kolme selkeää klusteria:
Konsensusalue (7 osaketta): BRK-B, ELISA, JNJ, KNEBV, NDA1V, NOKIA, WRT1V — pääosin suomalaisia defensiiviosakkeita. AI-mallit ovat samaa mieltä keskenään ja analyytikkojen kanssa.
AI yksimielinen, analyytikot eri mieltä (13 osaketta): useimmat US large cap -osakkeet. AI-mallit ovat sisäisesti johdonmukaisia mutta systemaattisesti eri mieltä analyytikkokonsensuksen kanssa. Tämä on DCF vs. momentum -kuilu.
Täysi epävarmuus (3 osaketta): NESTE, UPM ja nyt GOOGL. Sekä AI-mallit että analyytikot ovat eri mieltä. NESTE on ollut tässä kvadrantissa kolme viikkoa — kukaan ei tiedä miten arvostaa uusiutuviin polttoaineisiin siirtyvää öljynjalostajaa geopoliittisen energiakriisin keskellä.
Missä menimme pieleen
Lämpötilavaikutukset olivat odotettua suurempia. Muutos 1,0:sta 0,4:ään ei vain vähentänyt satunnaisuutta — se muutti suuntavinoumaa. Teimme tämän samaan aikaan promptimuutosten kanssa, joten emme voi erottaa syytä.
Osakeavaruus on liian pieni luotettaviin tilastoihin. 23 osaketta tarkoittaa, että yksi poikkeama (XOM) voi siirtää mediaania 6 prosenttiyksikköä päivässä.
DCF:llä on rakenteellisia katvealueita. Korkean P/E:n kasvuosakkeet (GOOGL +42,6 %) ja sykliset raaka-aineosakkeet (XOM -49,3 %) istuvat ääripäissä eivät AI:n näkemyksen vaan metodologian rajoitteiden vuoksi.
Mitä seuraavaksi
Mallikohtainen kalibrointi (huhtikuun loppu). 30 päivän datan jälkeen aktivoimme mallikohtaisen Bayesian-kutistuksen. Claude saa enemmän painoa kuin GPT tai DeepSeek.
Tulostesti (touko-kesäkuu). Q1/2026-tulokset alkavat tulla. Ensimmäinen todellinen testi: muuttavatko mallit oletuksiaan uuden talousdatan nähtyään?
3 kuukauden tarkkuustarkistus (heinäkuu). Ensimmäinen tilastollisesti mielekäs vertailu AI-arvioiden ja toteutuneiden hintaliikkeiden välillä — ja ensimmäinen mahdollisuus verrata AI-tarkkuutta analyytikkojen tarkkuuteen samoille osakkeille.
Kuukauden data on opettanut meille enemmän omasta metodologiastamme kuin tekoälyn kyvystä arvostaa osakkeita. Se ei ole epäonnistuminen — se on rehellinen lähtökohta sen ymmärtämiseen, mitä nämä mallit todella tekevät kun niitä pyydetään ajattelemaan taloudellista arvoa.